數據挖掘技術分析及其應用效果研究
作者:宋 偉時間:2016-02-19 16:08:53 來源:www.6scc.cn 閱讀次數:1619次 ]
隨著信息技術的發展和互聯網技術的普及,現代信息系統已經進入了大數據的時代。如何從大量的數據中找到真正有價值的信息,成為急需解決的問題。鑒于此,數據挖掘技術應運而生。本文分析了數據挖掘技術的定義和過程,并介紹了常用的數據挖掘技術和對數據挖掘技術的應用進行了介紹。
【關鍵詞】
數據挖掘;分析;應用
數據挖掘是一個跨多學科和多個知識領域的交叉的新興課題,數據挖掘使人們對數據的應用方式從簡單的查詢提升至對數據挖掘行為的支持,數據挖掘涵蓋了模式識別領域、數據庫領域、統計學領域、可視化領域等多個領域,目前數據挖掘技術已經成了新興的研究技術熱點。
1 數據挖掘的定義
數據挖掘準確的講就是對大量的、雜亂的數據進行分析處理,發現其中隱藏的有用的信息,并為一些決策提供支持;從數據挖掘的技術角度講,數據挖掘技術就是利用相關的技術和算法,從大量雜亂的數據中找到人們需要的有用信息和知識, 知識可以以概念和模式、規則、規律等形式表現出來,通過對數據的分析,可以找到一些潛在的關系和模式,并協助預測未來可能發生的情況和產生的結果。
2 數據挖掘的過程
在數據挖掘之前,先要確定數據挖掘的目的,把問題和目標任務定義出來,確定數據挖掘的目的之后,根據數據挖掘的常規步驟開始挖掘知識信息,整個數據挖掘的過程可以概括總結分為數據準備階段、數據挖掘階段以及結果的解釋和評價階段,數據準備階段分為數據清理、集成、選擇和變換等過程。完整數據挖掘過程如下圖1 所示:
3 數據挖掘常用技術簡介
數據挖掘技術有很多種,常用的有統計技術、關聯規則、基于歷史的分析MBR 等,介紹如下:
3.1 統計技術
數據挖掘技術涉及到了多個學科領域和技術,其中也涉及到了統計技術,統計技術的應用主要是給數據聚合設定了一個分部模型,然后采用與模型相適應的方法進行數據挖掘。
3.2 關聯規則
如果兩個或者是多個變量的之間存在某種規律性,這就可以稱為關聯,關聯分為簡單、因果和時序關聯。
3.3 基于歷史的分析MBR
MBR 的主要概念就是用一些已知的案例作為模型,通過這些模型,對新案例進行估值和預測,MBR 分析中主要有距離函數和結合函數兩個因素,距離函數的作用就是找出相似的相關案例,結合函數就是將這些相關的案例結合起來,在預測的時候可以用到這些案例,這個方法有兩個優點,一是,能容許各種型態的數據,二是,有學習的能力,可以從舊案例中獲取新知識。
3.4 遺傳算法GA
遺傳算法的主要思想是根據適者生存的原則,新的群體由最適合規則和這些規則的后代的這部分群體組成,一般情況下,樣本集分類的評估通過這些規則的適合度來完成。
3.5 連接分析
連接分析的主要理論是圖論,圖論的主題思想就是要尋找得出一個好結果的算法,這種好的結果不是最完美的結果的算法,如果這種不完美的結果是可行的, 這樣的分析就是一個好分析,通過連接分析,可以從用戶的行為中分析總結出規律性的模式,并將這種新的概念應用在廣泛的用戶上。
3.6 決策樹
決策樹就是有著很強的解決歸類和預測的能力,它的表達方式是法則,這些法則的展示是通過一連串的問題表現出來,經過不斷詢問問題的過程,導出所需要的結果,典型的決策樹的底部有很多樹葉,其頂端是一個樹根,它將記錄分成很多的子集,每個子集中包含一個簡單的法則,決策樹有二元樹、三元樹等很多不同的外型。
3.7 聚類分析
聚類分析涵蓋的技術范圍很廣泛,很多算法都有聚類分析這個功能如基因算法、統計學中的群集分析、類神經網絡等, 聚類分析的目標就是找出數據中以前所不知道的相似群體,研究的開端一般都會用到群集偵測技術。
3.8 神經網絡(Neural Networks)
神經網絡在結構上可以分為輸入層、輸出層和隱含層,它是利用重復學習的方法,在一串例子中進行歸納學習,然后歸納出可以區分的樣式,神經網絡可以通過對過去學習的成果進行歸納,推導出一些新的例證的結果,神經網絡的學習也屬于機器學習的一種,類神經學習的方式也可以應用在數據挖掘的相關問題上。
3.9 回歸分析
回歸分析可以分為線性回歸分析、非線性回歸分析、多元回歸分析三種,線性回歸分析中采用數據采用直線建模的方式,多元回歸涉及到多個預測變量,是線性回歸的一種擴展方式,非線性回歸模型是在非線性回歸的基本線性模型添加多項式。
4 應用研究
數據挖掘技術能在大量的數據信息中方便快捷的找到有用的信息,并將這些信息充分利用。數據挖掘技術的應用可以增強企業的競爭力,在縮短銷售周期的基礎上降低了產品的生產成本,在信息資源開發方面數據挖掘技術也有其明顯的優勢,數據挖掘技術應用的行業越來越廣泛如保險、市場營銷、制造業、教育、醫療和電信業以及科學研究。
4.1 數據挖掘技術在制造業的應用
數據挖掘技術的在制造業中的應用, 主要是在生產的過程中,如果零部件出現故障,可以通過數據挖掘技術對故障進行詳細的分析,發現故障產生的根本原因, 并及時糾正,及時發現分布不正常的數據,只有這樣才能幫助工程師及時發現問題并采取正確的措施改進。
4.2 數據挖掘技術在市場營銷的應用
數據挖掘技術在市場營銷上面應用也很頻繁和廣泛,在這個領域中數據挖掘技術可以分為貨籃分析數據庫和市場營銷數據庫兩種類型,貨籃分析數據庫的作用就是分析營銷的數據,市場營銷數據庫就是利用自身的技術方法向顧客推銷產品,合理運用數據挖掘技術可以提高商家的信譽并及時發現潛在的客戶。
4.3 數據挖掘技術在科學研究的應用
在科學研究的技術領域,數據挖掘技術可以觀測和分析大量的實驗數據,由于現在的科研數據很多,而且較為繁瑣, 一些傳統的數據分析方法不能滿足科研的需要,所以對一些強大的數據分析的智能工具的需求力很強,這也在一定程度上促進了數據挖掘技術的發展。在生物的科研領域,實驗室人員對DNA 的數據進行分析,通常利用相似的檢索技術和序列模式,采用關聯分析識別方法對同一時間出現的基因序列進行識別分析,這樣能夠及時發現每個階段產生疾病的根本原因。
【參考文獻】
[1] 楊永升. 基于數據挖掘的電信企業客戶關系管理研究[D]. 江蘇科技大學,2012.
[2] 趙一丁, 邵開麗, 李志民, 楚紀正. 基于測試需求的數據挖掘及測試數據生成[J]. 計算機測量與控制,2013,08:2043-2045.
本站論文資源均為來自網絡轉載,免費提供給廣大作者參考,不進行任何贏利,如有版權問題,請聯系管理員刪除! 快速論文發表網(www.6scc.cn)本中心和國內數百家期刊雜志社有良好的合作關系,可以幫客戶代發論文投稿.
投稿郵箱:ksfbw@126.com
客服Q Q:
82702382
聯系電話:15295038833
本站論文資源均為來自網絡轉載,免費提供給廣大作者參考,不進行任何贏利,如有版權問題,請聯系管理員刪除!
上一篇:區域生態環境存在問題及解決措施