返回首頁 -您現在正在瀏覽：>首頁 -> 論文下載 -> 計算機論文 -> 計算機應用 >

Apriori 算法在學生信息管理系統中應用研究

作者:申曉改時間:2015-02-09 09:27:11 來源:www.6scc.cn 閱讀次數:1531次 ]

申曉改石家莊職業技術學院河北石家莊 050081

【文章摘要】

隨著學生信息量的增大和信息化時代的到來，校園管理工作中的傳統數據庫顯然已經無法滿足越來越龐大的學生信息管理需求，而要想提高學生信息管理的工作效率，促進校園管理工作的發展，就必須利用相關數據挖掘技術對學生信息進行有效數據的提取，加強學生信息管理系統的相關工作效率。本文將以學生信息管理系統作為主要切入點，分析和研究Apriori算法在學生信息管理系統中的應用。

【關鍵詞】

Apriori 算法 ; 信息管理 ; 數據挖掘

0 前言

對于學校而言，管理好學生信息工作無疑是校園管理工作的重點，學生信息內容主要包括學生資料、成績和評估等方面，這些數據向來龐大，若相關管理者不能對這些數據進行處理，則容易造成教師教學工作的不便。學生信息數據通常格式混亂，信息存儲和查閱時需要花費大量的時間和精力，而Apriori算法的出現和應用則讓管理人員能夠更好的對學生信息數據進行管理，為了讓管理人員能夠更好的對學生信息數據進行管理，Apriori算法能夠對學生信息數據進行有效挖掘，并利用關聯規則從龐大的數據庫中找出有效知識，從而便于管理人員對學生信息進行搜索和查閱，促進學生信息管理系統的發展。

1 關聯規則及經典關聯規則算法

1.1 關聯規則

關聯規則是為了從大量的數據庫中挖掘數據中項集之間的聯系，關聯規則的挖掘主要體現在以下兩個方面，一是資料結合中所包含的所偶高頻項目組，而是這些高頻項目組中所產生的關聯規則。要想運用關聯規則進行資料或數據的挖掘，在挖掘之前要做好門檻值的限制，即設定最小支持度與最小信賴度。并且從Apriori的算法形式上我們可以看出，關聯規則作為一個邏輯公式，不僅能夠滿足最小支持度閥值的要求，還能夠達到最小信賴度閥值的數量，當數據前后都是項集，利用關聯規則對這些項集進行挖掘則能夠有效找出數據中所隱藏的知識。關聯規則的定義是指，當 { } iii m I L .,21= 作為m個不同項的集合時，假設交易數據庫（交易集合）為D，在集合D中所存在的元素都是X=Y，且IX ⊂ ， IY ⊂ ， φ = YX I 。X表示規則Apriori 算法在學生信息管理系統中應用研究申曉改石家莊職業技術學院河北石家莊 050081前件，Y指規則后。在這一數據的挖掘過程中，關聯規則的作用就是將所有滿足用戶自定義的關聯規則進行全面挖掘，并且其挖掘的支持度和信賴度都要大于設定的最小支持度與最小信賴度。

1.2 Apriori 算法

Apriori算法指的是一種基于項集的基礎上，進行關聯規則挖掘的頻繁項集算法，在項集中采用Apriori算法并進行多次的數據掃描可以得出關聯規則的挖掘，當第一步的掃描結果是頻繁1-項集的集合，即頻集為L1 ，第 K ( ) 1 ≥ K 步所掃描的結果則為（K-1)次的掃描結果，找到的頻集為LK 1 = ，在此基礎上，當候選數據K-項集的集合CK 出現后，在掃描過程中就要確定頻集CK 中元素的支持度，不管掃描多少次，每一次頻集掃描結束后都要進行K-項集的集合LK 的計算，只有在候選K-項集的集合CK 數據為零時，才終止 Apriori 算法。本算法就是通過頻集 Lk 1 − 找到 LK ，在算法過程中，主要分為連接和剪枝兩部分，連接部分是利用遞推公式將頻集Lk 1 − 計算出來進行 LK 的尋找，這時可利用Lk 1 − 的連接產生數據候選集合并標記為CK ，將 I1 ，I2 設為 Lk 1 − 中的項集，當 [ ] jI i 作為 I i 的第j項時，關聯規則進行Lk 1 − 和 Lk 1 − 連接，且Lk 1 − 內的元素滿足數據連接性；當進行到第（K-2）項發生數據變化，（K-2）項與之前項完全不同時，（K-2）可標記為 [ ] [ ] 1 1 2 1−∠− K K II ，即公式[ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] 1 1 2 2 2211 2 1 2 1 2 1 2 1−∠−∧−=−∧∧=∧= K K K K IIIIIIII KK，此時 Lk 1 − 內的所有數據元素包括 I1 和 I2 都具有連接性，即項集[ ] [ ] [ ] [ ] 11 21 2 1 21−− KK IIII LL 為最終數據。

2 Apriori 算法在學生信息管理系統中的應用

筆者擬定我院2010級電子與信息技術專業畢業班的學生成績信息為數據挖掘中的原始數據，并采用Apriori算法對這些原始數據進行分析，探究和說明Apriori算法對于學生信息管理系統的促進作用。

2.1 數據采集

如表1所示，該表為2010級電子與信息技術專業畢業班學生原始成績數據，將所有學生學習成績數據進行統計并建立原始數據庫，該數據庫中包含50名學生，22 名課程，共有記錄 1058 條。

2.2 數據預處理

為了便于后期數據處理，簡化數據存儲過程，我們可以將數據中課程的編號用符號代替，如表2所示，學生姓名統一用學號代替，學生所學課程如體育、語文、英語等使用符號 C1、C2、C3、C4 代替，將原始數據進行預處理轉換后即可得到如表 2 所示數據：：表 2 數據預處理后的數據表

2.3 數據轉換

為了使數據在挖掘過程中能夠更全面的展現，首先要對數據格式進行轉換處理。在進行學生成績數據的挖掘過程中進行關聯規則的引入，同時為了方便后期數據挖掘，使各學科之間的成績優劣體現明顯，成績在 90 分以上的用數字 1 表示，90分以下的成績統一用數字0表示，數字1代表該項存在于事務中，而數字0則正好相反，表示該項不存在與事務中。

2.4 應用 Apriori 算法進行數據挖掘

如表3所示，我們將支持度設定為0.2，置信度設定為0.6，并在關聯規則表中進行轉換數據導入，再采用Apriori算法同步進行學生成績與科目的挖掘，從而得出學生成績與科目之間的關聯規則，表3為學生部分成績與科目的關聯規則。表 3 關聯規則表從表3數據可知，學生從上表得知高等數學的達標率與大學英語的達標率置信度約為63%，而大學語文與信息技術達標率的置信度則約為 60%。