亚洲精品无码乱码成人|最近中文字幕免费大全|日韩欧美卡一卡二卡新区|熟妇性饥渴一区二区三区|久久久久无码精品国产AV|欧美日韩国产va在线观看|久久精品一本到99热动态图|99国产精品欧美一区二区三区

您現(xiàn)在的位置是: 產(chǎn)經(jīng) > > 正文

數(shù)據(jù)挖掘步驟一般有哪些?數(shù)據(jù)挖掘名詞解釋

時間:2023-06-19 15:34:52 來源:環(huán)球周刊網(wǎng) 發(fā)布者:DN032

數(shù)據(jù)挖掘步驟一般有哪些

1、定義問題

在開始知識發(fā)現(xiàn)之前最先的也是最重要的要求就是了解數(shù)據(jù)和業(yè)務(wù)問題。必須要對目標有一個清晰明確的定義,即決定到底想干什么。比如,想提高電子信箱的利用率時,想做的可能是“提高用戶使用率”,也可能是“提高一次用戶使用的價值”,要解決這兩個問題而建立的模型幾乎是完全不同的,必須做出決定。

2、建立數(shù)據(jù)挖掘庫

建立數(shù)據(jù)挖掘庫包括以下幾個步驟:數(shù)據(jù)收集,數(shù)據(jù)描述,選擇,數(shù)據(jù)質(zhì)量評估和數(shù)據(jù)清理,合并與整合,構(gòu)建元數(shù)據(jù),加載數(shù)據(jù)挖掘庫,維護數(shù)據(jù)挖掘庫。

3、分析數(shù)據(jù)

分析的目的是找到對預(yù)測輸出影響最大的數(shù)據(jù)字段,和決定是否需要定義導(dǎo)出字段。如果數(shù)據(jù)集包含成百上千的字段,那么瀏覽分析這些數(shù)據(jù)將是一件非常耗時和累人的事情,這時需要選擇一個具有好的界面和功能強大的工具軟件來協(xié)助你完成這些事情。

4、準備數(shù)據(jù)

建立模型之前的最后一步數(shù)據(jù)準備工作??梢园汛瞬襟E分為四個部分:選擇變量,選擇記錄,創(chuàng)建新變量,轉(zhuǎn)換變量。

5、建立模型

建立模型是一個反復(fù)的過程。需要仔細考察不同的模型以判斷哪個模型對面對的商業(yè)問題最有用。先用一部分數(shù)據(jù)建立模型,然后再用剩下的數(shù)據(jù)來測試和驗證這個得到的模型。有時還有第三個數(shù)據(jù)集,稱為驗證集,因為測試集可能受模型的特的影響,這時需要一個獨立的數(shù)據(jù)集來驗證模型的準確。訓(xùn)練和測試數(shù)據(jù)挖掘模型需要把數(shù)據(jù)至少分成兩個部分,一個用于模型訓(xùn)練,另一個用于模型測試。

6、評價模型

模型建立好之后,必須評價得到的結(jié)果、解釋模型的價值。從測試集中得到的準確率只對用于建立模型的數(shù)據(jù)有意義。在實際應(yīng)用中,需要進一步了解錯誤的類型和由此帶來的相關(guān)費用的多少。

數(shù)據(jù)挖掘名詞解釋

“數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。”

標簽: 數(shù)據(jù)挖掘步驟一般有哪些 數(shù)據(jù)挖掘名詞

搶先讀

相關(guān)文章

熱文推薦

精彩放送

關(guān)于我們| 聯(lián)系我們| 投稿合作| 法律聲明| 廣告投放

版權(quán)所有© 2011-2023  產(chǎn)業(yè)研究網(wǎng)  m.www-332159.com

所載文章、數(shù)據(jù)僅供參考.本站不作任何非法律允許范圍內(nèi)服務(wù)!

聯(lián)系我們:39 60 29 14 2 @qq.com

皖I(lǐng)CP備2022009963號-13


岳西县| 长海县| 子长县| 香港 | 利津县| 泸西县| 沈丘县| 荣成市| 交城县| 神木县| 白朗县| 乾安县| 涟水县| 东明县| 神农架林区| 株洲市| 苍南县| 嘉定区| 密云县| 城市| 冕宁县| 浦城县| 临海市| 宁海县| 延吉市| 宣武区| 龙里县| 大城县| 普格县| 辽阳县| 乳山市| 福建省| 五指山市| 宝兴县| 甘德县| 石屏县| 湖南省| 平安县| 浦江县| 三都| 申扎县|