基于缺失值簡單插補的聚類分析

作者:武依明時間:2016-01-30 11:16:38  來源:www.6scc.cn  閱讀次數:4067次 ]
【文章摘要】
數據缺失、無回答是統計過程中比較普遍的現象,缺失值的處理對研究質量亦有很大影響,本文使用多種簡單插補方法得出不同的缺失值的估計值,并比較各種簡單插補方法的優劣,最后運用系統聚類的方法,對我國31 個省的農村居民家庭人均純收入進行聚類分析,從中發現特點和規律,分析我國從1990 年到2011 年以來各地區農村居民家庭人均純收入的變化, 并進行詳細的實證分析。
【關鍵詞】
缺失值; 簡單插補; 聚類分析
1 前言
農村居民占我國人口的很大部分,各地區的農村居民收入差距呈上升趨勢。建國以來,國家頒發了各種法案以及政策來提高農村居民收入,改善農村生活條件。但是隨著時代的發展,貧富差距越來越大,窮人越來越窮,富人越來越富,其中農村居民家庭純收入是最能代表城鄉貧富差距拉大的指標,相比城市的市民來說, 農村人均收入只是城市居民的六分之一。近來召開的十八屆三中全會提出要加快構建新型農業經營體系,賦予農民更多財產權利,推進城鄉要素平等交換和公共資源均衡配置,完善城鎮化健康發展體制機制。這一政策的提出使得農村問題再一次受到社會的關注。
本文運用系統聚類的方法研究我國31 個省從1990 年到2011 年以來各地區的農村居民家庭人均純收入的特點、規律和發展趨勢,為國家縮短貧富差距,制定利農富農政策提供有力的數據,同時研究農村居民家庭人均純收入對我國以后的各種政策的實施具有指導意義。
2 缺失值簡單插補
2.1 原始數據的采集和整理
本文針對我國三十一個省的農村居民家庭人均純收入,采取1990、1995、2000、2005、2009、2010、2011 七個時間的數據,匯總得到原始數據,數據來源于中國統計年鑒2012。
2.2 缺失值處理方法—簡單插補
原始數據中1990 年和1995 年重慶的農村居民家庭人均純收入是缺失的,現用各種不同的簡單插補方法進行缺失值插補,比較各方法的效果。
2.2.1 缺失值概念
簡單一句話,缺失值就是說數據是不完整的。
現實生活中存在通過各種方法獲得的統計數據,而且各種調研活動大都通過問卷調查的形式來獲得調查數據,在使用該調查數據時異常值和不符合邏輯的數據將要被剔除,因此就產生了缺失數據。這些數據將嚴重影響數據挖掘的質量,成為數據挖掘的障礙。為了提高數據挖掘的質量,在對數據庫中數據進行分析之前, 一定要對數據集進行預處理。
如果把帶有缺失值的記錄刪除掉,僅對數據集中的完整記錄進行數據挖掘分析,很有可能造成估計偏差,以至于根據該分析結果做出錯誤的決策,由此說來使用不完整的數據進行研究,那么研究結果的準確性就會較差,因此,對數據中的缺失值進行插補和修整是非常必要,對我們進行數據挖掘分析有重要意義。
2.2.2 簡單插補方法
常用的簡單均值插補方法有很多,再次介紹部分方法的思想原理。均值插補法是用每個變量的均值取代該變量的缺失值;最近鄰均值插補方法是選取缺失數據附近的數據的均值替代該變量的缺失值; 熱卡插補是使用本次調查同一插補類中的供者記錄( 已經通過了所有的審核) 的信息來代替一個相似的受者記錄中缺失的或不一致數據的插補方法;而冷卡插補則使用其它資料中的供者。
2.2.3 插補結果比較
使用spss 軟件操作得到各插補值的估計結果,從結果中可以看出各種插補得到的插補值有明顯的差異,尤其是熱卡插補和其它插補得到的插補值差異更大,因此在選擇插補方法時要根據不同樣本、不同類型的數據依情況而定。本文選取回歸插補得到的缺失值進行后續聚類分析研究。
3 聚類分析
3.1 基本原理思想
系統聚類法首先將n 個樣本看成n 類,然后將性質最接近的兩類合并成一個新類,我們就得到n-1 類,再從中找到最接近的兩類合并成一類,我們就得到n-2 類,與此重復下去,最后所有的樣品均在一類上,并將上述過程畫成一張譜系圖便可決定分多少類,每類各有什么樣品。
3.2 系統聚類分類結果
本文使用系統聚類組間聯接法,采用歐氏距離平方,得到我國三十一個省關于農村居民家庭人均純收入的分類,譜系圖分類結果如下:
第一類包括天津、江蘇、浙江、北京、上海;第二類包括山西,內蒙古,遼寧,吉林,黑龍江,福建,江西,河北、安徽、山東, 河南,湖北,湖南,廣東,廣西,海南,重慶, 四川,貴州,云南,西藏,陜西,甘肅,青海, 寧夏,新疆。
4 實證分析
分類結果是符合實際的,把北京、天津、上海、江蘇、浙江歸為一類是有現實依據的。首先這五個城市都是經濟發達城市。北京作為首都更是擁有天時地利人和的發展條件;天津是近幾年來發展較快的城市之一,它以工業電子產品為主;上海是從舊時代開始就領先發展的,發展到今天有歷史推動的原因;其次這五個城市擁有優越的地理條件。五個城市除北京以外都是沿海城市,有利于發展沿海港頭經濟,為進出口貿易提供方便,同時利用海洋資源發展船泊行業等;五個城市都擁有豐富的旅游資源,東南沿海空氣新鮮,陽光明媚,氣候溫和等條件使得江蘇、上海、浙江等地的旅游業發展迅速,而北京同樣有旅游勝地故宮等,吸引大量海內外游客。最后五個城市都擁有密集型科技人才和創新。尤其是北京,擁有各類著名高等大學,科技創新人才的培養在一定程度上促進了北京的發展,加上各地高材生都傾向去北京工作、創業、定居等,無形中為北京提供了人才,這五個城市在科技創新方面幾乎每年排名前十。
綜合以上發展的各方面因素,北京、天津、上海、江蘇、浙江這五個城市的農村家庭人均純收入都要較高,因此歸為一大類?偟膩砜闯尸F出沿海城市比內地發展的更快的特點。
5 對策建議
科技日新月異,經濟發展要堅持走改革發展和對外開放的政策,沿海地區要充分利用地理位置的優越性,增加就業, 開發新型行業,充分利用海洋資源。增加就業的方法很多,在原有工作崗位的前提下增加工作人員,做好管理制度,培養高素質管理人員,比如港口運輸服務站的設立。比如說小資本的企業家要在臺灣等地購買他們特色的商品然后運輸回來,這樣就會用到船泊等運輸工具,新型行業可以從船舶業發展。海洋蘊含大量的資源,比如說海帶,食鹽蝦、魚等水產品,還有礦產資源,利用這些可以投資副食品業,政府可以開發海底新能源,現在有科學家發現海藻經過提煉可以提煉出石油,這就是新能源,現在還在進一步研究中。
各地要想發展快就要充分發揮自己的優勢,而且可以和其它地區合作,共同發展,提高人民生活水平。
【參考文獻】
[1] 金勇進, 朱琳. 不同差補方法的比較. 數理統計與管理2000,19(2):50-54 頁
[2] 金勇進, 邵軍. 缺失數據的統計處理. 中國統計出版社, 2009:3 頁

本站論文資源均為來自網絡轉載,免費提供給廣大作者參考,不進行任何贏利,如有版權問題,請聯系管理員刪除! 快速論文發表網(www.6scc.cn)本中心和國內數百家期刊雜志社有良好的合作關系,可以幫客戶代發論文投稿.

投稿郵箱:ksfbw@126.com
客服Q  Q: 論文發表在線咨詢82702382
聯系電話:15295038833

本站論文資源均為來自網絡轉載,免費提供給廣大作者參考,不進行任何贏利,如有版權問題,請聯系管理員刪除!

廣告推薦

文章評論

共有 0 位網友發表了評論

閱讀排行

推薦文章

最新文章

主站蜘蛛池模板: 亚洲人成网站999久久久综合| 国产综合成人久久大片91| 亚洲第一区欧美国产不卡综合| 97久久综合精品久久久综合| 亚洲综合视频在线| 欧美亚洲日本国产综合网| 色8激情欧美成人久久综合电| 亚洲欧美国产日韩综合久久| 中文字幕亚洲综合久久| 久久婷婷五月综合成人D啪| 亚洲欧美国产日韩综合久久| 精品国产综合成人亚洲区| 色综合中文字幕| 亚洲精品第一国产综合精品99| 日韩欧美综合在线| 久久综合狠狠综合久久激情 | 久久综合给合久久国产免费| 狠狠色综合网站| 色综合合久久天天给综看| 欧美激情综合网| 久久综合视频网站| 国产成人亚洲综合| 亚洲国产精品成人AV无码久久综合影院| 久久本道久久综合伊人| 国产亚洲综合网曝门系列| 精品福利一区二区三区精品国产第一国产综合精品 | 一本一本久久A久久综合精品| 狠狠色成人综合网图片区| 色综合合久久天天综合绕视看| 狠狠色丁香婷婷综合尤物| 一本一道久久a久久精品综合| 亚洲国产综合网| 国产一级a爱做综合| 国产综合亚洲专区在线| 亚洲综合一区二区国产精品| 色综合色天天久久婷婷基地| 狠狠人妻久久久久久综合| 久久综合色老色| 久久综合亚洲色HEZYO国产| 亚洲综合国产一区二区三区| 色噜噜狠狠色综合网|