2. 數(shù)據(jù)準備 數(shù)據(jù)準備 階 段 又 可 分 為 3 個 子 步 驟:數(shù) 據(jù) 選 取(DataSelection)、數(shù) 據(jù) 預 處 理(Data Preprocessing)和數(shù)據(jù)變換(DataTransformation)。 (1) 數(shù)據(jù)選取 血液融漿機 數(shù)據(jù)選取的目的就是根據(jù)數(shù)據(jù)挖掘的目的和任務,確定實現(xiàn)這一目標與任務所需的操作 對象,即目標數(shù)據(jù)(TargetData),它是根據(jù)用戶的需要從原始數(shù)據(jù)庫中抽取的一組相關數(shù)據(jù)。 354 第十章 數(shù)據(jù)挖掘與Agent技術 (2) 數(shù)據(jù)預處理 由于所選取的數(shù)據(jù)可能具有這樣一些特性:巨 量性、動態(tài) 性、噪聲 性、缺值 和稀疏 性,一 般在實施數(shù)據(jù)挖掘之前應對其進行一些預處理。數(shù)據(jù)預處理一般可能包括消除噪聲或數(shù)據(jù) 清洗、推導計算缺值數(shù)據(jù)、消除數(shù)據(jù)的不一致性、消除重復記錄以及完成數(shù)據(jù)類型轉換(如把 連
續(xù)值數(shù)據(jù)轉換為離散型的數(shù)據(jù),以便于符號 歸納,或 是把離 散型 的轉 換為連 續(xù)值 型的,以 便于神經網絡歸納)等,以確保數(shù)據(jù)的質量,為進一步的數(shù)據(jù)分析做準備。 (3) 數(shù)據(jù)變換 數(shù)據(jù)變換的主要目 的是 消減 數(shù)據(jù) 維數(shù) 或 降維(DimensionReduction),即 從初 始 特征 中 找出真正有用的特征以減少數(shù)據(jù)挖掘時要考 慮的特 征或 變量個 數(shù)。另 外,為 了適 應所 選擇 的數(shù)據(jù)挖掘算法和工具,也要對數(shù)據(jù)做一些相應的變換。比如,神經網絡要求所有的變量的 取值都在0~1之間,因此在一些數(shù)據(jù)(包括非數(shù)值數(shù)據(jù))被提交到神經網絡算法之前就必須 先對不在[0,1]內的變量進行映射變換。 3. 數(shù)據(jù)挖掘 數(shù)據(jù)挖掘階段的任務是 首先 確定 數(shù)據(jù) 挖掘 要 完成 什么 樣的 功能,如數(shù) 據(jù) 總結、數(shù)據(jù) 分 類、數(shù)據(jù)聚類、趨勢分析、關聯(lián)規(guī)則發(fā)現(xiàn)或序 列模式 發(fā)現(xiàn) 等。在確 定要 完成的 數(shù)據(jù) 挖掘 功能 后,就要決定使用什么樣的挖掘算法,同樣的任務可
以用不同的算法來實現(xiàn)。選擇實現(xiàn)算法 有兩個考慮因素:一是不同的數(shù)據(jù)有不同的特 點,因此 需要用 與之 相關 的算法 來挖 掘;二是 用戶或實際運行系統(tǒng)的要求,有的用戶 可能希 望獲 取描 述型的(Descriptive)、容易 理解 的知 識(在這種情況下,采用規(guī)則表示的挖掘方法顯然要好于神經網絡之類的方法),而有的用戶 或系統(tǒng)的目的是獲取預測準確度盡可能高 的預測 型(Predictive)知識。 算法確 定之 后,就由 挖掘系統(tǒng)對數(shù)據(jù)進行分析,實現(xiàn)自動挖掘。數(shù) 據(jù)挖掘 算法是 KDD 的核 心,也 是目 前研 究人 員主要努力的方向,要獲得好的挖掘效果,必須對各種挖掘算法的要求或前提假設有充分的 理解。 4. 結果的解釋評價與可視化




