亚洲精品无码乱码成人|最近中文字幕免费大全|日韩欧美卡一卡二卡新区|熟妇性饥渴一区二区三区|久久久久无码精品国产AV|欧美日韩国产va在线观看|久久精品一本到99热动态图|99国产精品欧美一区二区三区

您現(xiàn)在的位置是: 產(chǎn)經(jīng) > > 正文

數(shù)據(jù)挖掘步驟一般有哪些?數(shù)據(jù)挖掘名詞解釋

時間:2023-06-19 15:34:52 來源:環(huán)球周刊網(wǎng) 發(fā)布者:DN032

數(shù)據(jù)挖掘步驟一般有哪些

1、定義問題

在開始知識發(fā)現(xiàn)之前最先的也是最重要的要求就是了解數(shù)據(jù)和業(yè)務問題。必須要對目標有一個清晰明確的定義,即決定到底想干什么。比如,想提高電子信箱的利用率時,想做的可能是“提高用戶使用率”,也可能是“提高一次用戶使用的價值”,要解決這兩個問題而建立的模型幾乎是完全不同的,必須做出決定。

2、建立數(shù)據(jù)挖掘庫

建立數(shù)據(jù)挖掘庫包括以下幾個步驟:數(shù)據(jù)收集,數(shù)據(jù)描述,選擇,數(shù)據(jù)質量評估和數(shù)據(jù)清理,合并與整合,構建元數(shù)據(jù),加載數(shù)據(jù)挖掘庫,維護數(shù)據(jù)挖掘庫。

3、分析數(shù)據(jù)

分析的目的是找到對預測輸出影響最大的數(shù)據(jù)字段,和決定是否需要定義導出字段。如果數(shù)據(jù)集包含成百上千的字段,那么瀏覽分析這些數(shù)據(jù)將是一件非常耗時和累人的事情,這時需要選擇一個具有好的界面和功能強大的工具軟件來協(xié)助你完成這些事情。

4、準備數(shù)據(jù)

建立模型之前的最后一步數(shù)據(jù)準備工作??梢园汛瞬襟E分為四個部分:選擇變量,選擇記錄,創(chuàng)建新變量,轉換變量。

5、建立模型

建立模型是一個反復的過程。需要仔細考察不同的模型以判斷哪個模型對面對的商業(yè)問題最有用。先用一部分數(shù)據(jù)建立模型,然后再用剩下的數(shù)據(jù)來測試和驗證這個得到的模型。有時還有第三個數(shù)據(jù)集,稱為驗證集,因為測試集可能受模型的特的影響,這時需要一個獨立的數(shù)據(jù)集來驗證模型的準確。訓練和測試數(shù)據(jù)挖掘模型需要把數(shù)據(jù)至少分成兩個部分,一個用于模型訓練,另一個用于模型測試。

6、評價模型

模型建立好之后,必須評價得到的結果、解釋模型的價值。從測試集中得到的準確率只對用于建立模型的數(shù)據(jù)有意義。在實際應用中,需要進一步了解錯誤的類型和由此帶來的相關費用的多少。

數(shù)據(jù)挖掘名詞解釋

“數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。”

標簽: 數(shù)據(jù)挖掘步驟一般有哪些 數(shù)據(jù)挖掘名詞

搶先讀

相關文章

熱文推薦

精彩放送

關于我們| 聯(lián)系我們| 投稿合作| 法律聲明| 廣告投放

版權所有© 2011-2023  產(chǎn)業(yè)研究網(wǎng)  m.www-332159.com

所載文章、數(shù)據(jù)僅供參考.本站不作任何非法律允許范圍內服務!

聯(lián)系我們:39 60 29 14 2 @qq.com

皖ICP備2022009963號-13