日韩偷拍一区二区,国产香蕉久久精品综合网,亚洲激情五月婷婷,欧美日韩国产不卡

在線客服

數據挖掘技術論文實用13篇

引論:我們為您整理了13篇數據挖掘技術論文范文,供您借鑒以豐富您的創作。它們是您寫作時的寶貴資源,期望它們能夠激發您的創作靈感,讓您的文章更具深度。

數據挖掘技術論文

篇1

Weka的全名是懷卡托智能分析環境(WaikatoEnviron-mentforKnowledgeAnalysis),是一款免費的、非商業化的、基于JAVA環境下開源的機器學習以及數據挖掘軟件[2]。它包含了許多數據挖掘的算法,是目前最完備的數據挖掘軟件之一。Weka軟件提供了Explorer、Experimenter、Knowledge-Flow、SimpleCLI四種模塊[2]。其中Explorer是用來探索數據環境的,Experimenter是對各種實驗計劃進行數據測試,KnowledgeFlow和Explorer類似,但該模塊通過其特殊的接口可以讓使用者通過拖動的形式去創建實驗方案,Simple-CLI為簡單的命令行界面。以下數據挖掘任務主要用Ex-plorer模塊來進行。

(一)數據預處理

數據挖掘所需要的所有數據可以由系統排序模塊生成并進行下載。這里我們下載近兩年的教師科研信息。為了使論文總分、學術著作總分、科研獲獎總分、科研立項總分、科研總得分更有利于數據挖掘計算,在這里我們將以上得分分別確定分類屬性值。

(二)數據載入

點擊Explorer進入后有四種載入數據的方式,這里采用第一種Openfile形式。由于Weka所支持的標準數據格式為ARFF,我們將處理好的xls格式另存為csv,在weka中找到這個文件并重新保存為arff文件格式來實現數據的載入。由于所載入的數據噪聲比較多,這里應根據數據挖掘任務對數據表中與本次數據任務不相關的屬性進行移除,只將學歷、職稱、論文等級、學術著作等級、科研獲獎等級、科研立項等級、科研總分等級留下。

(三)關聯挖掘與結果分析

WeakExplorer界面中提供了數據挖掘多種算法,在這里我們選擇“Associate”標簽下的Apriori算法。之后將“lowerBoundMinSupprot”(最小支持度)參數值設為0.1,將“upperBoundMinSupprot”(最大支持度)參數值設為1,在“metiricType”的參數值選項中選擇lift選項,將“minMetric”參數值設為1.1,將“numRules”(數據集數)參數值設為10,其它選項保存默認值,這樣就可以挖掘出支持度在10%到100%之間并且lift值超過1.1且排名前10名的關聯規則。其挖掘參數信息和關聯挖掘的部分結果。

三、挖掘結果與應用

以上是針對教師基本情況和科研各項總分進行的反復的數據挖掘工作,從挖掘結果中找到最佳模式進行匯總。以下列出了幾項作為參考的關聯數據挖掘結果。

1、科研立項得分與論文、科研總得分關聯度高,即科研立項為A級的論文也一定是A。這與實際也是相符的,因為科研立項得A的教師應該是主持了省級或是國家級的立項的同時也參與了其他教師的科研立項,在課題研究的過程中一定會有國家級論文或者省級論文進行發表來支撐立項,所以這類教師的論文得分也會很高。針對這樣的結果,在今后的科研工作中,科研處要鼓勵和幫助教師搞科研,為教師的科研工作提供精神上的支持和物質上的幫助,這樣在很大程度上能夠帶動整個學校科研工作的進展。

篇2

一、客戶關系管理(CRM)

CRM是一種旨在改善企業與客戶之間關系的新型管理方法。它是企業通過富有意義的交流和溝通,理解并影響客戶行為,最終實現提高客戶獲取、客戶保留、客戶忠誠和客戶創利的目的。它包括的主要內容有客戶識別、客戶關系的建立、客戶保持、客戶流失控制和客戶挽留。通過客戶關系管理能夠提高企業銷售收入,改善企業的服務,提高客戶滿意度,同時能提高員工的生產能力。

二、數據挖掘(DM)

數據挖掘(DataMining,簡稱DM),簡單的講就是從大量數據中挖掘或抽取出知識。數據挖掘概念的定義描述有若干版本。一個通用的定義是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中提取人們感興趣的知識,這些知識是隱諱的、事先未知的、潛在有用的信息。

常用的數據挖掘方法有:(1)關聯分析。即從給定的數據集中發現頻繁出現的項集模式知識。例如,某商場通過關聯分析,可以找出若干個客戶在本商場購買商品時,哪些商品被購置率較高,進而可以發現數據庫中不同商品的聯系,進而反映客戶的購買習慣。(2)序列模式分析。它與關聯分析相似,其目的也是為了控制挖掘出的數據間的聯系。但序列模式分析的側重點在于分析數據間的前后(因果)關系。例如,可以通過分析客戶在購買A商品后,必定(或大部分情況下)隨著購買B商品,來發現客戶潛在的購買模式。(3)分類分析。是找出一組能夠描述數據集合典型特征的模型,以便能夠分類識別未知數據的歸屬或類別。例如,銀行可以根據客戶的債務水平、收入水平和工作情況,可對給定用戶進行信用風險分析。(4)聚類分析。是從給定的數據集中搜索數據對象之間所存在的有價值聯系。在商業上,聚類可以通過顧客數據將顧客信息分組,并對顧客的購買模式進行描述,找出他們的特征,制定針對性的營銷方案。(5)孤立點分析。孤立點是數據庫中與數據的一般模式不一致的數據對象,它可能是收集數據的設備出現故障、人為輸入時的輸入錯誤等。孤立點分析就是專門挖掘這些特殊信息的方法。例如,銀行可以利用孤立點分析發現信用卡詐騙,電信部門可以利用孤立點分析發現電話盜用等。

三、數據挖掘在客戶關系管理中的應用

1.進行客戶分類

客戶分類是將大量的客戶分成不同的類別,在每一類別里的客戶具有相似的屬性,而不同類別里的客戶的屬性不同。數據挖掘可以幫助企業進行客戶分類,針對不同類別的客戶,提供個性化的服務來提高客戶的滿意度,提高現有客戶的價值。細致而可行的客戶分類對企業的經營策略有很大益處。例如,保險公司在長期的保險服務中,積累了很多的數據信息,包括對客戶的服務歷史、對客戶的銷售歷史和收入,以及客戶的人口統計學資料和生活方式等。保險公司必須將這些眾多的信息資源綜合起來,以便在數據庫里建立起一個完整的客戶背景。在客戶背景信息中,大批客戶可能在保險種類、保險年份和保險金額上具有極高的相似性,因而形成了具有共性的客戶群體。經過數據挖掘的聚類分析,可以發現他們的共性,掌握他們的保險理念,提供有針對性的服務,提高保險公司的綜合服務水平,并可以降低業務服務成本,取得更高的收益。

2.進行客戶識別和保留

(1)在CRM中,首先應識別潛在客戶,然后將他們轉化為客戶

這時可以采用DM中的分類方法。首先是通過對數據庫中各數據進行分析,從而建立一個描述已知數據集類別或概念的模型,然后對每一個測試樣本,用其已知的類別與學習所獲模型的預測類別做比較,如果一個學習所獲模型的準確率經測試被認可,就可以用這個模型對未來對象進行分類。例如,圖書發行公司利用顧客郵件地址數據庫,給潛在顧客發送用于促銷的新書宣傳冊。該數據庫內容有客戶情況的描述,包括年齡、收入、職業、閱讀偏好、訂購習慣、購書資金、計劃等屬性的描述,顧客被分類為“是”或“否”會成為購買書籍的顧客。當新顧客的信息被輸入到數據庫中時,就對該新顧客的購買傾向進行分類,以決定是否給該顧客發送相應書籍的宣傳手冊。

(2)在客戶保留中的應用

客戶識別是獲取新客戶的過程,而客戶保留則是留住老顧客、防止客戶流失的過程。對企業來說,獲取一個新顧客的成本要比保留一個老顧客的成本高。在保留客戶的過程中,非常重要的一個工作就是要找出顧客流失的原因。例如,某專科學校的招生人數在逐漸減少,那么就要找出減少的原因,經過廣泛的搜集信息,發現原因在于本學校對技能培訓不夠重視,學生只能學到書本知識,沒有實際的技能,在就業市場上找工作很難。針對這種情況,學校應果斷的抽取資金,購買先進的、有針對性的實驗實訓設備,同時修改教學計劃,加大實驗實訓課時和考核力度,培訓相關專業的教師。

(3)對客戶忠誠度進行分析

客戶的忠誠意味著客戶不斷地購買公司的產品或服務。數據挖掘在客戶忠誠度分析中主要是對客戶持久性、牢固性和穩定性進行分析。比如大型超市通過會員的消費信息,如最近一次消費、消費頻率、消費金額三個指標對數據進行分析,可以預測出顧客忠誠度的變化,據此對價格、商品的種類以及銷售策略加以調整和更新,以便留住老顧客,吸引新顧客。

(4)對客戶盈利能力分析和預測

對于一個企業而言,如果不知道客戶的價值,就很難做出合適的市場策略。不同的客戶對于企業而言,其價值是不同的。研究表明,一個企業的80%的利潤是由只占客戶總數的20%的客戶創造的,這部分客戶就是有價值的優質客戶。為了弄清誰才是有價值的客戶,就需要按照客戶的創利能力來劃分客戶,進而改進客戶關系管理。數據挖掘技術可以用來分析和預測不同市場活動情況下客戶盈利能力的變化,幫助企業制定合適的市場策略。商業銀行一般會利用數據挖掘技術對客戶的資料進行分析,找出對提高企業盈利能力最重要的客戶,進而進行針對性的服務和營銷。

(5)交叉銷售和增量銷售

交叉銷售是促使客戶購買尚未使用的產品和服務的營銷手段,目的是可以拓寬企業和客戶間的關系。增量銷售是促使客戶將現有產品和服務升級的銷售活動,目的在于增強企業和客戶的關系。這兩種銷售都是建立在雙贏的基礎上的,客戶因得到更多更好符合其需求的服務而獲益,公司也因銷售增長而獲益。數據挖掘可以采用關聯性模型或預測性模型來預測什么時間會發生什么事件,判斷哪些客戶對交叉銷售和增量銷售很有意向,以達到交叉銷售和增量銷售的目的。例如,保險公司的交叉營銷策略:保險公司對已經購買某險種的客戶推薦其它保險產品和服務。這種策略成功的關鍵是要確保推銷的保險險種是用戶所感興趣的,否則會造成用戶的反感。

四、客戶關系管理應用數據挖掘的步驟

1.需求分析

只有確定需求,才有分析和預測的目標,然后才能提取數據、選擇方法,因此,需求分析是數據挖掘的基礎條件。數據挖掘的實施過程也是圍繞著這個目標進行的。在確定用戶的需求后,應該明確所要解決的問題屬于哪種應用類型,是屬于關聯分析、分類、聚類及預測,還是其他應用。應對現有資源如已有的歷史數據進行評估,確定是否能夠通過數據挖掘技術來解決用戶的需求,然后將進一步確定數據挖掘的目標和制定數據挖掘的計劃。

2.建立數據庫

這是數據挖掘中非常重要也非常復雜的一步。首先,要進行數據收集和集成,其次,要對數據進行描述和整合。數據主要有四個方面的來源:客戶信息、客戶行為、生產系統和其他相關數據。這些數據通過抽取、轉換和裝載,形成數據倉庫,并通過OLAP和報表,將客戶的整體行為結果分析等數據傳遞給數據庫用戶。

3.選擇合適的數據挖掘工具

如果從上一步的分析中發現,所要解決的問題能用數據挖掘比較好地完成,那么需要做的第三步就是選擇合適的數據挖掘技術與方法。將所要解決的問題轉化成一系列數據挖掘的任務。數據挖掘主要有五種任務:分類,估值預測,關聯規則,聚集,描述。前三種屬于直接的數據挖掘。在直接數據挖掘中,目標是應用可得到的數據建立模型,用其它可得到的數據來描述感興趣的變量。后兩種屬于間接數據挖掘。在間接數據挖掘中,沒有單一的目標變量,目標是在所有變量中發現某些聯系。

4.建立模型

建立模型是選擇合適的方法和算法對數據進行分析,得到一個數據挖掘模型的過程。一個好的模型沒必要與已有數據完全相符,但模型對未來的數據應有較好的預測。需要仔細考察不同的模型以判斷哪個模型對所需解決的問題最有用。如決策樹模型、聚類模型都是分類模型,它們將一個事件或對象歸類。回歸是通過具有已知值的變量來預測其它變量的值。時間序列是用變量過去的值來預測未來的值。這一步是數據挖掘的核心環節。建立模型是一個反復進行的過程,它需要不斷地改進或更換算法以尋找對目標分析作用最明顯的模型,最后得到一個最合理、最適用的模型。

5.模型評估

為了驗證模型的有效性、可信性和可用性,從而選擇最優的模型,需要對模型進行評估。我們可以將數據中的一部分用于模型評估,來測試模型的準確性,模型是否容易被理解模型的運行速度、輸入結果的速度、實現代價、復雜度等。模型的建立和檢驗是一個反復的過程,通過這個階段階段的工作,能使數據以用戶能理解的方式出現,直至找到最優或較優的模型。

6.部署和應用

將數據挖掘的知識歸檔和報告給需要的群體,根據數據挖掘發現的知識采取必要的行動,以及消除與先前知識可能存在的沖突,并將挖掘的知識應用于應用系統。在模型的應用過程中,也需要不斷地對模型進行評估和檢驗,并做出適當的調整,以使模型適應不斷變化的環境。

參考文獻:

[1]羅納德.S.史威福特.客戶關系管理[M].楊東龍譯.北京:中國經濟出版社,2002

[2]馬剛:客戶關系管理[M]大連:東北財經大學出版社,2008

[3]朱美珍:以數據挖掘提升客戶關系管理[J].高科技產業技術與創新管理,2006,(27)

篇3

Web數據挖掘技術的主要工作流程可以分為以下幾個步驟:第一步,確立目標樣本,這一步是用戶選取目標文本,以此來作為提取用戶的特征信息;第二步,提取特征信息,這一步就是根據第一步得到的目標樣本的詞頻分布,從現有的統計詞典中獲取所要挖掘的目標的特征向量,并計算出其相應的權值;第三步,從網絡上獲取信息,這一步是利用通過搜索引擎站點選擇采集站點,然后通過Robot程序采集靜態的Web頁面,最后再獲取這些被訪問站點的網絡數據庫中的動態信息,然后生成WWW資源庫索引;第四步,進行信息特征匹配,通過提取源信息的特征向量,去和目標樣本的特征向量進行匹配,最后將符合閾值條件的信息返回個用戶。

三、Web數據挖掘技術在高校數字圖書館中的應用

高校數字圖書館為師生主要提供以下功能:查找圖書、期刊論文、會議文獻等數字資源;圖書借閱、歸還等服務;圖書信息、管理制度;導航到圖書光盤、視頻資源等數據庫系統。師生時常登錄到網站中查找其需要的信息,根據師生所學專業、研究方向不同,關注目標也不同。通常這類師生會到常用的圖書館網站上,查找自己所需要的特定領域的資源;瀏覽一下有哪些內容發生變化,是否有新知識增加,而且所有改變常常是用戶所關注的內容;另外,當目標網頁所在的位置有所改變或這個網站的組織結構、層次關系有所變動時,所有這些問題只要稍加改動,容易使用戶難以找到所需內容。本課題采用Web挖掘技術與搜索技術相結合。首先允許用戶對感興趣的內容進行定制,構造數據挖掘的先驗知識,然后通過構造瀏覽器插件,捕獲用戶在瀏覽器上的行為數據,采用Web數據挖掘的方法,深入分析用戶的瀏覽行為數據,獲得用戶的信息資料集,最終為用戶提供不同的個性化服務頁面,并提供用戶對站內信息進行搜索功能,同時可以滿足師生對于圖書館資源進行查找訪問的需求,實現高校圖書館網站資源真正意義上的個性化服務。

1、為開發網絡信息資源提供了工具

數字圖書館需要的是一種可以有效的將信息進行組織管理,同時還能夠對信息進行深層的加工管理,提供多層次的、智能化的信息服務和全方位的知識服務,提供經過加工、分析綜合等處理的高附加值的信息產品和知識產品的工具。目前許多高校數字圖書館的查詢手段還只局限于一些基本的數據操作,對數據只能進行初步的加工,不具有從這些數據中歸納出所隱含的有用信息的功能,也使得這些信息不為人知,從而得不到更好的使用,這些都是對網絡信息資源的一種浪費。而通過Web數據挖掘技術科研有效的解決這一問題。這種技術可以用于挖掘文檔的隱含的有用的內容,或者可以在其他工具搜索的基礎上進一步進行處理,得到更為有用和精確的信息。通過Web數據挖掘技術科研對數字圖書關注中的信息進行更加有效地整合。

2、為以用戶為中心的服務提供幫助

通過瀏覽器訪問數字圖書館后,可被記載下來的數據有兩類,一類是用戶信息,另一類是用戶訪問記錄。其中用戶信息包括了用戶名,用戶訪問IP地址,用戶的職業、年齡、愛好等。用戶名師用戶登錄圖書館時輸入,用戶訪問IP地址通過程序獲得,其他的信息都是用戶在注冊時所填寫的,訪問記錄則是在用戶登錄時所記錄的,也是由程序獲得。對這些用戶信息進行分析可以更加有效的了解用戶的需求通過分析服務器中用戶請求失敗的數據,結合聚集算法,可以發現信息資源的缺漏,從而指導對信息資源采集的改進,讓高校數字圖書館的信息資源體系建設的更加合理。對數字圖書館系統的在線調查、留言簿、薦書條等的數據進行收集整理,并使之轉化為標準的結構化數據庫,然后在通過數據挖掘,皆可以發現用戶所感興趣的模式,同時還可以預先發現用戶群體興趣的變遷,調整館藏方向,提前做好信息資源的采集計劃。通過Web數據挖掘,可以對用戶的信息需求和行為規律進行總結,從而為優化網絡站點的結構提供參考,還可以適當各種資源的配置更加的合理,讓用戶可以用更少的時間找到自己所需要的資源。例如可以通過路徑分析模式采掘捕捉確定用戶頻繁瀏覽訪問的路徑,調整站點結構,并在適當處加上廣告或薦書條。

3、Web數據挖掘技術在圖書館采訪工作中的應用

在圖書館的工作中有一步十分的重要,這就是采訪工作,采訪工作的做的好壞程度會直接的對圖書館的服務質量產生影響。通常情況圖書館的工作人員會根據圖書館的性質、服務對象及其任務來決定采訪的內容。但是這種采訪局限性很大,很多時候會受采訪人員的主觀意識的影響,同時這種方式也會顯得死板不靈活。很多時候會出現應該購進的文獻沒有買,不應該買的文獻卻買了很多等與讀者的需求不符的現象。這些現象的產生都是因為缺乏對讀者需求的了解和分析。要解決這些問題就必須對讀者的需求進行全面的了解和分析,而Web數據挖掘則為解決該問題提供了一種較好的方法。通過對各種日志文件和采訪時獲得的數據進行分析,可以很清楚的得到讀者需要的是什么樣的書籍、不需要的又是什么樣的書籍,從而為采購提供各種科學合理的分析報告和預測報告。根據對分析還能幫組圖書館管理人員確定各種所需書籍的比例,從而確定哪些文獻應該及時的進行補充,哪些文獻應該進行剔除,對館藏機構進行優化,真正的為高校里的師生提供所需要的文獻和資料。

4、使用Web數據挖掘技術提供個性化服務

篇4

通常,數據挖掘過程包括4個步驟,即選擇數據、預處理、實施挖掘以及吸收數據。數據挖掘整個過程具有交互性,有時數據需要重新選擇,有時也要對數據預處理進行改進,也可能出現算法反復被調整現象,基于這種特征,數據挖掘時要設置反饋環。挖掘數據第1步是將管理和目標反映到1個(或多個)挖掘任務中,整個過程可主要劃分成為六種:1)評估、預測。評估包括對軟件產品、過程以及資源的屬性進行相應檢查就是整個評估過程,同時也需要根據這些屬性,賦值給未知屬性,當然這些未知屬性需要進行量化。評估工作完成后,要對屬性值進行預測。2)分類。檢查1個特定實體屬性,根據結果將其劃分到另1個類別或范疇(事先定義好)中。3)關聯發現。關聯發現能夠識別出特定內容中互相存在關聯某些屬性。如,可將找出在軟件開發屬性和產品屬性相互關聯的內容找出來。4)聚類。將1個結構不相同的群體劃分到另1個具有相同結構的子群集合中,這個過程叫做聚類,它的劃分依據是成員之間具有高度相似性。5)數據可視化。數據可視化是利用可視化描述方法來定義復雜信息。6)可視數據探察。可視化數據探察是對描述工作的相應拓展,可利用數據可視化交互控制來分析和檢視海量數據[3]。它應用具有可視化功能和數據挖掘技術來對數據進行處理。

3挖掘技術在軟件工程中應用

上文提及到軟件工程度量,部分可利用信息已在海量數據中被提取出來,但普遍認為更為有效且數量眾多的數據依然在軟件工程相關數據庫中隱藏,而沒有被發現。實際上,數據挖掘就是1種被公認為提升軟件工程度量的技術。圖1為數據挖掘在軟件工程中的應用。

3.1數據挖掘繁榮原因1)計算機硬件系統和軟件系統的基礎設施建立具備發現驅動、分析數據等功能;2)每種技術都在實際應用中不斷得到改進,其使用能力不斷提升。如,模式識別、神經網絡等有明顯進步趨勢;3)數據存儲、貯藏、集成成本不高,海量數據可輕松獲得。數據挖掘技術被人們認識,并在實踐中逐漸被重視,同時也給研究和進一步提高數據挖掘技術提供了便利條件。

3.2面臨挑戰軟件工程自身存在很多數據上的特殊性,給數據挖掘領域研究工作帶來制約和影響,主要表現在以下三個方面:1)數據復雜。軟件工程數據主要分為兩個組成部分,即結構化數據、非結構化數據。結構化數據主要包括缺陷報告、版本信息等內容,而非結構化數據則包含數據代碼、相應注釋以及文檔等內容。結構化數據、非結構化數據并不能同時適用一種算法,而且兩種數據間還存在對應聯系。如,1個缺陷報告中往往包括缺陷代碼段。而結構化數據里常常涵蓋部分非結構化信息,非結構化數據中亦是如此,這也是今后工作中需要重點解決的問題之一。2)非傳統分析存在局限。數據挖掘最終想實現的目標就是將轉化而來的信息傳達給用戶,實現信息共享。傳統數據挖掘技術在使用過程中,信息手段比較單一,如文字、圖表等表達形式。其實,軟件開發商對信息的要求很高,1個統計結果根本不能滿足其工作需求。為促進軟件開發不斷向上發展,開發人員需要相關信息作為參考依據,包括開發實際案例、編程所需模板、系統缺陷定位以及軟件結構設計等。研究數據挖掘技術,提升其實際使用功能,需要不斷提交新信息、新知識,并改進相應手方法。3)挖掘結果評價標準不夠具體。軟件工程數據挖掘尚未形成完善的結果表示體系,其評價體系也有待加強。人員在軟件開發過程中需要大量信心,這些信息非常具體且復雜,表示方法不盡相同,互相之間難以做出對比,也很難用定量方法去分析挖掘結果。

篇5

二、Web數據挖掘技術的工作流程

Web數據挖掘技術的主要工作流程可以分為以下幾個步驟:第一步,確立目標樣本,這一步是用戶選取目標文本,以此來作為提取用戶的特征信息;第二步,提取特征信息,這一步就是根據第一步得到的目標樣本的詞頻分布,從現有的統計詞典中獲取所要挖掘的目標的特征向量,并計算出其相應的權值;第三步,從網絡上獲取信息,這一步是利用通過搜索引擎站點選擇采集站點,然后通過Robot程序采集靜態的web頁面,最后再獲取這些被訪問站點的網絡數據庫中的動態信息,然后生成www資源庫索引;第四步,進行信息特征匹配,通過提取源信息的特征向量,去和目標樣本的特征向量進行匹配,最后將符合閾值條件的信息返回個用戶。

三、Web數據挖掘技術在高校數字圖書館中的應用

1、為開發網絡信息資源提供了工具

數字圖書館需要的是一種可以有效的將信息進行組織管理,同時還能夠對信息進行深層的加工管理,提供多層次的、智能化的信息服務和全方位的知識服務,提供經過加工、分析綜合等處理的高附加值的信息產品和知識產品的工具。目前許多高校數字圖書館的查詢手段還只局限于一些基本的數據操作,對數據只能進行初步的加工,不具有從這些數據中歸納出所隱含的有用信息的功能,也使得這些信息不為人知,從而得不到更好的使用,這些都是對網絡信息資源的一種浪費。而通過web數據挖掘技術科研有效的解決這一問題。這種技術可以用于挖掘文檔的隱含的有用的內容,或者可以在其他工具搜索的基礎上進一步進行處理,得到更為有用和精確的信息。通過web數據挖掘技術科研對數字圖書關注中的信息進行更加有效地整合。

2、為以用戶為中心的服務提供幫助

通過瀏覽器訪問數字圖書館后,可被記載下來的數據有兩類,一類是用戶信息,另一類是用戶訪問記錄。其中用戶信息包括了用戶名,用戶訪問IP地址,用戶的職業、年齡、愛好等。用戶名師用戶登錄圖書館時輸入,用戶訪問IP地址通過程序獲得,其他的信息都是用戶在注冊時所填寫的,訪問記錄則是在用戶登錄時所記錄的,也是由程序獲得。對這些用戶信息進行分析可以更加有效的了解用戶的需求通過分析服務器中用戶請求失敗的數據,結合聚集算法,可以發現信息資源的缺漏,從而指導對信息資源采集的改進,讓高校數字圖書館的信息資源體系建設的更加合理。對數字圖書館系統的在線調查、留言簿、薦書條等的數據進行收集整理,并使之轉化為標準的結構化數據庫,然后在通過數據挖掘,皆可以發現用戶所感興趣的模式,同時還可以預先發現用戶群體興趣的變遷,調整館藏方向,提前做好信息資源的采集計劃。通過web數據挖掘,可以對用戶的信息需求和行為規律進行總結,從而為優化網絡站點的結構提供參考,還可以適當各種資源的配置更加的合理,讓用戶可以用更少的時間找到自己所需要的資源。例如可以通過路徑分析模式采掘捕捉確定用戶頻繁瀏覽訪問的路徑,調整站點結構,并在適當處加上廣告或薦書條。

3、web數據挖掘技術在圖書館采訪工作中的應用

在圖書館的工作中有一步十分的重要,這就是采訪工作,采訪工作的做的好壞程度會直接的對圖書館的服務質量產生影響。通常情況圖書館的工作人員會根據圖書館的性質、服務對象及其任務來決定采訪的內容。但是這種采訪局限性很大,很多時候會受采訪人員的主觀意識的影響,同時這種方式也會顯得死板不靈活。很多時候會出現應該購進的文獻沒有買,不應該買的文獻卻買了很多等與讀者的需求不符的現象。這些現象的產生都是因為缺乏對讀者需求的了解和分析。要解決這些問題就必須對讀者的需求進行全面的了解和分析,而web數據挖掘則為解決該問題提供了一種較好的方法。通過對各種日志文件和采訪時獲得的數據進行分析,可以很清楚的得到讀者需要的是什么樣的書籍、不需要的又是什么樣的書籍,從而為采購提供各種科學合理的分析報告和預測報告。根據對分析還能幫組圖書館管理人員確定各種所需書籍的比例,從而確定哪些文獻應該及時的進行補充,哪些文獻應該進行剔除,對館藏機構進行優化,真正的為高校里的師生提供所需要的文獻和資料。

4、使用web數據挖掘技術提供個性化服務

篇6

1.2數據挖掘

數據挖掘技術是現代知識發現領域的一個重要技術,它是指一個從隨機的大量而不完整的模糊的實際數據中提取其中某些隱含著的具有潛在價值的實用知識與信息的過程。其具體技術有特征化、聚類、關聯和預測分析等等,涉及到的高級技術領域有統計學、機器學習、模式識別、人工智能等方面。

2基于云計算的數據挖掘平臺構架

網絡云的發展給數據挖掘提出了新的問題和時代的挑戰,同時,也為數據挖掘提供了新的計算平臺和發展機遇。基于云計算的數據挖掘系統平臺的發現,解決了傳統的數據挖掘技術出現的時代滯慢、效率較低、功能落后、成本高昂等問題。云計算是一種商業計算模式,是網格計算與并行計算及分布式計算在一定程度上的商業實現,其動態、可伸縮的計算基于云計算的數據挖掘平臺架構及其關鍵技術探討文/張瑤劉輝云計算是一種在互聯網時代中應運而生的新興的網絡技術,具有高效率、高容量、動態處理的特點,在社會的商業領域和科研領域表現出了其相當高的應用價值。將云計算應用于數據挖掘平臺的構架之中后,將能在很大程度上為現代社會中越來越海量的數據挖掘提供一個高效率的技術平臺。本文將結合云計算和數據挖掘的基本概念和現代意義,對數據挖掘的平臺構架和相應的關鍵技術做出簡要的分析探討。摘要能力使得進行高效的海量數據挖掘的目標不再遙遠。同時,云計算SaaS功能日益被理解和標準化,使得基于云計算SaaS化的數據挖掘有了理論和技術的指導,并具有了企業化與大眾化的發展趨勢。

2.1數據挖掘平臺構架

建立在關系型數據庫之上的傳統的數據挖掘技術構架在現時代數據急劇膨脹和分析需求漸增的發展下已經難以應付社會的數據處理問題。而云計算的分布式存儲與計算形式則接受了當代的數據挖掘難題,促成了適應時代的云計算數據挖掘平臺構架的形成。其包含了面向組件的設計理念和分層設計的思想方法。其構架自下向上總共分為3層,分別為底層的云計算支撐平臺層、中間的數據挖掘能力層和上層的數據挖掘云服務層。

2.2基于云計算的數據挖掘平臺構架各層意義

云計算支撐平臺層:顧名思義,該平臺層是云計算數據挖掘平臺的基礎處理平臺,其主要具有的功能是對分布式文件存儲與數據庫提供資源存儲,以及實行對數據的有關處理和計算功能。數據挖掘能力層:該平臺結構層主要是提供挖掘的基礎能力,是數據挖掘的核心支撐平臺,并對數據挖掘云服務層提供能力支撐。該平臺層包含了算法數據并行處理、調度引起和服務管理的框架,該平臺層可以提供系統內部的數據挖掘處理和推薦算法庫,亦支持第三方的數據挖掘算法工具的進入。數據挖掘云服務層:數據挖掘云服務層的主要功能是對外提供數據挖掘操作的云服務,同時也能提供基于結構化查詢的語言語句訪問,提供相關的解析引擎,以便于自動調用云服務。對外數據挖掘云服務能力封裝的接口形式多樣,包含了基于簡單對象訪問協議下的Webservice、XML、HTTP以及本地應用程序的編程接口等多種形式。另外,在必要的時候,云服務層的各個業務系統可以進行數據挖掘云服務的調用和組裝。

3基于云計算的數據挖掘平臺構架的關鍵技術探討

基于云計算的數據挖掘平臺構架的形成,離不開現代先進的科技技術,其中幾項關鍵的技術應用將在這里進行簡要的闡述:

3.1云計算技術

3.1.1分布式儲存技術

通過采用分布式存儲的方式來存儲數據,是云計算技術保證數據處理高可靠性和經濟性的重要保證。用可靠的軟件來彌補硬件的不足,是分布式存儲技術提供廉價而又海量的數據挖掘支持的重要途徑。

3.1.2虛擬化技術

在云計算的環境下,數據挖掘能實現對大量的可用的虛擬化技術的應用、整合,發展出一套全面虛擬化的運行戰略。云計算和虛擬化的共同組合,使數據挖掘實現了跨系統下的資源調度,將海量的來源數據進行IT資源匯合,動態地實現對用戶的虛擬化資源的供給,從而以高效率、海量動態的特點完成服務任務。

3.1.3并行云計算技術

并行云計算技術是一種對于高效執行數據挖掘計算任務極其重要的技術,并且它對云計算的某些技術細節做出了封裝,例如任務并行、任務調度、任務容錯和系統容錯以及數據分布等。該功能代替了用戶對這些細節的考慮,使得研發效率得到了提高。

3.2數據匯集調度中心

數據匯集調度中心的功能主要是完成對不同類型的數據進行匯集。它實現了對接入該云計算數據挖掘平臺的業務數據收集匯合,能夠解決與不同數據的相關規約問題,并能支持多樣的源數據格式。

3.3服務調度與管理技術

對于基于云計算的數據挖掘平臺,為了使不同業務系統能夠使用本計算平臺,必須要提供相應的服務調度與管理功能。服務調度解決云服務下的并行互斥以及隔離等問題,以保證安全、可靠的平臺的云服務。服務管理功能要實現統一的服務注冊與服務暴露功能,并且支持接入第三方的數據挖掘,以更好地擴展平臺的服務能力。

篇7

大數據是指數據量很大(一般是TB到PB數量級)的巨量資料,無法通過主流軟件工具,在合理時間內完成數據處理并獲取有價值的信息。數據大多以非結構化或者半結構化數據為主,大數據具有4V特點:Volume、Velocity、Variety、Veracity。大數據處理的一般思路是數據壓縮、數據抽樣、數據挖掘等。數據挖掘是一種新的信息處理技術,其主要特點是對商業數據庫中的大量業務數據進行抽取、轉換、分析和其它模型化處理,從中提取輔助商業決策的關鍵性數據。利用數據挖掘進行數據分析常用的方法主要有分類、回歸分析、聚類、關聯規則、推薦系統等,它們分別從不同的角度對數據進行挖掘。大數據挖據的數據源和處理方式對比。

3數據挖據流程和模型選取

3.1數據挖掘的主要流程

數據挖掘主要包括以下6大步驟。

(1)商業理解:確定挖掘目標以及產生一個項目計劃。

(2)數據理解:知曉有哪些數據,以及數據的特征是什么。

(3)數據準備:對數據作出轉換、清洗、選擇、合并等工作。

(4)建模:根據挖掘目標確定適合的模型,建模并對模型進行評估。

(5)模型評估:評估建模效果,對效果較差的結果我們需要分析原因。

(6)結果部署:用所建挖掘模型去解決實際問題,它還包括了監督、維持、產生最終報表、重新評估模型等過程。

3.2垃圾短信治理指標體系設計

垃圾短信用戶識別建模數據主要從信令監測系統、經營分析系統獲取,所獲取的用戶行為數據主要包括用戶通信行為信息、用戶基礎業務屬性、用戶通信業務信息等7個維度。其中,用戶通信行為信息包括活動軌跡、終端IMEI和數據業務訪問等信息。

3.3模型的選取

對白名單用戶的識別可以利用社交網絡模型與業務規則相結合的方法。利用社交網絡進行白名單用戶識別,重點考慮用戶之間發生的通信行為、增值業務交互行為等群體行為,通過對用戶之間關系的辨識。本文建模的重點著眼于垃圾短信用戶的識別及其治理。

3.3.1現有垃圾短信識別模型的優勢與不足

識別垃圾短信用戶是數據挖掘中的分類問題,數據挖掘中常用的分類算法主要有邏輯回歸、決策樹、貝葉斯網絡等算法。其中,神經網絡因本身算法的復雜性,造成模型結果解釋性較差,模型落地較困難而很少在實際項目中使用。目前識別垃圾短信的數據挖掘模型基本上為邏輯回歸模型和決策樹模型。決策樹模型主要具有以下優勢:模型非常直觀,容易讓人理解和應用;決策樹搭建和應用的速度比較快;決策樹對于數據分布沒有嚴格要求;受缺失值和極端值對模型的影響很小。但是,使用決策樹作為垃圾短信用戶識別模型主要存在以下不足。

(1)決策樹最大缺點是其原理中的貪心算法。貪心算法總是做出在當前看來最好的選擇,卻不從整體上思考最優的劃分,因此,它所做的選擇只能是某種意義上的局部最優選擇。

(2)決策樹缺乏像回歸或者聚類那樣豐富多樣的檢測指標和評價方法。

(3)容易出現過擬合。當某些自變量的類別數量比較多,或者自變量是區間型時,決策樹過擬合的危險性會增加。

(4)決策樹算法對區間型自變量進行分箱操作時,無論是否考慮了順序因素,都有可能因分箱喪失某些重要信息。尤其是當分箱前的區間變量與目標變量有明顯的線性關系時,這種分箱操作造成的信息損失更為明顯。

相比于數據挖掘建模常用的其它算法如決策樹、神經網絡、支持向量機等,邏輯回歸技術是最成熟,得到廣泛應用,邏輯回歸模型主要存在以下不足。

(1)變量之間的多重共線性會對模型造成影響。

(2)應刪除異常值,否則它會給模型帶來很大干擾。

(3)邏輯回歸模型本身不能處理缺失值,所以應用邏輯回歸算法時,要注意針對缺失值進行適當處理,或者賦值,或者替換,或者刪除。

3.3.2垃圾短信識別預測模型選取

鑒于目前研究者對垃圾短信識別使用的決策樹和邏輯回歸模型存在較多不足之處,本文從模型算法上對其進行改進,力求得到更加科學合理的垃圾短信識別預測模型。本文使用的數據挖掘模型為隨機森林模型。

3.3.2.1模型簡介

隨機森林(RandomForest)算法是一種專門為決策樹分類器設計的優化方法。它綜合了多棵決策樹模型的預測結果,其中的每棵樹都是基于隨機樣本的一個獨立集合的值產生的。隨機森林和使用決策樹作為基本分類器的Bagging有些類似。以決策樹為基本模型的Bagging在每次自助法(Boostrap)放回抽樣之后,產生一棵決策樹,抽多少樣本就生成多少棵樹,在生成這些樹的時候沒有進行更多的干預。而隨機森林也是進行許多次自助法放回抽樣,所得到的樣本數目及由此建立的決策樹數量要大大多于Bagging的樣本數目。隨機森林與Bagging的關鍵區別在于,在生成每棵樹的時候,每個節點變量都僅僅在隨機選出的少數變量中產生。因此,不但樣本是隨機的,就連每個節點變量產生都有相當大的隨機性。隨機森林讓每棵樹盡可能生長,而不進行修剪。隨機森林算法主要包括決策樹的生長和投票過程。隨機森林中單棵樹的生長可概括為以下幾步。

(1)使用Bagging方法形成個別的訓練集:假設原始訓練集中的樣本數為N,從中有放回地隨機選取N個樣本形成一個新的訓練集,以此生成一棵分類樹。

(2)隨機選擇特征(指評估指標,以下同)對分類樹的節點進行分裂:假設共有M個特征,指定一個正整數m<M,在每個內部節點,從M個特征中隨機抽取m個特征作為候選特征,選擇這m個特征上最好的分裂方式對節點進行分裂。在整個森林的生長過程中,m的值保持不變。

(3)每棵樹任其生長,不進行剪枝。Bagging方法形成新的訓練集和隨機選擇特征進行分裂,使得隨機森林能較好地容忍噪聲,并且能降低單棵樹之間的相關性;單棵樹不剪枝能得到低偏差的分類樹,同時保證了分類樹的分類效能(Strength),分類樹的分類效能是指分類樹對新的測試數據的分類準確率。

3.3.2.2隨機森林分類預測模型的主要優勢

(1)隨機森林的預測精度高,它可以產生高準確度的分類器。

(2)可以處理相當多的輸入變量。隨機森林不懼怕很大的維數,即使有數千個變量,也不必刪除,它也會給出分類中各個變量的重要性。

(3)當在構建隨機森林模型時候,對GenerlizationError估計是無偏估計。

(4)隨機森林在設計上具有很快訓練速度,訓練出結果模型不必花費大量時間。

(5)對缺失值和極端值具有很強容忍能力,即使有較多缺失數據仍可以維持準確度。

(6)當遇到分類數據不平衡時,可以較好地平衡誤差。

(7)隨機森林算法并不會導致過擬合。定義組合分類器的總體分類效能s為:s=Ex,ymg(x,y)。若用ρ表示每棵分類樹之間相關度的均值,則隨機森林的泛化誤差PE的上界可由下式給出:PE*≤ρ(1-s2)/s2。當隨機森林有相當多的分類樹時,隨機森林的泛化誤差幾乎處處收斂于一個有限值。因此,隨著森林中分類樹數目的增長,隨機森林算法并不會導致過擬合。

(8)隨機森林在模型訓練過程中,能夠對特征之間的相互影響行為做出檢測。隨機森林算法具有以上優勢,在垃圾短信治理預測中具有應用的優勢,本文采用隨機森林模型作為垃圾短信用戶的分類預測。綜上所述,隨機森林模型主要在不會出現過擬合、訓練精度高、能處理大量輸入變量并輸出變量重要性3個方面優越于決策樹模型;在容忍缺失值和極端值方面明顯優越于邏輯回歸模型。隨機森林模型在算法設計上有效彌補了決策樹和邏輯回歸模型的不足之處,在垃圾短信識別分類預測中具有較好的應用價值。

3.3.2.3垃圾短信數據挖掘模型構建

通過前述的商業理解確定了垃圾短信識別業務需求,并進行數據理解構建了垃圾短信識別指標體系,再抽取需要的數據,并進行數據清洗、轉換、衍生變量計算等步驟,具備了建模的目標數據,接下來的任務就是通過隨機森林模型構建垃圾短信分類預測模型,對垃圾短信用戶進行識別。

3.4用戶分類治理策略

通過隨機森林模型的識別,根據用戶是垃圾短信發送者的可能性評估,制定不同的治理策略,如圖3所示。實際的執行過程中,需要根據清單的范圍大小,適當的調整預測概率門限,以保證策略執行的效果,同時避免過多的正常用戶的業務感知受到影響。

4垃圾短信治理平臺的實現

4.1系統架構

垃圾短信治理平臺的數據來源較多,需要處理的數據量也非常大,因此,數據采集和數據處理過程是相互影響的過程。垃圾短信治理平臺的系統架構圖如圖4所示。

(1)數據采集層:是垃圾短信治理平臺與多個數據庫來源的安全訪問接口,通過數據采集層實現數據挖掘和分析所需要的基礎信息:用戶屬性信息、用戶卡號信息、用戶業務記錄、用戶的位置信息和消費記錄。

(2)數據處理層:需要根據數據挖掘的需求,將采集的基礎數據轉換為業務服務層可以使用的數據,通過對基礎數據進行整形、清洗和預處理,為后續的數據挖掘做好數據準備。

(3)業務服務層:主要包括應用和安全服務兩個部分,應用包括數據查詢統計服務、用戶查詢服務和GIS應用服務,同時,補充報表服務和文件管理服務以方便日常的工作。通過外部接口服務,可以部署相應的權限管理、數據管理維護以及注冊服務等,降低系統的風險,保證信息的安全傳遞。

(4)功能模塊:主要是根據客戶需求,定制開發的功能單元,功能模塊的個數以實際部署的情況為準。以圖4垃圾短信治理平臺的系統架構圖某省公司的定制模塊為例,主要包括指標查詢模塊、垃圾短信治理模塊、用戶綜合信息分析模塊和市場支撐應用模塊4個部分。

4.2效果展現

針對不同的部門或用戶,垃圾短信治理平臺展現不同的數據,主要包括以下的結果展現方式。

(1)治理效果掌控:通過指標查詢系統,及時掌握垃圾短信的治理效果,發現工作的成果和風險,達到及時發現問題并快速響應的目的。

(2)治理效率提升:通過垃圾短信治理模塊,快速準確識別垃圾短信源頭并定位區域,下發至地市公司快速處理,減小垃圾短信帶來的不良社會影響。

(3)實現預先管控:通過用戶綜合信息分析模塊,可以對潛在的具有垃圾短信源頭特征的風險終端進行監控、通過外呼、資費信息等情況,提前發現和治理潛在垃圾短信源。

篇8

2.1采集有效數據

數據采集是動態取證重要的環節之一,只有做好數據采集工作,才能保證取證的質量以及完整性,在當前網絡患者下,為了保證數據庫中數據的充足性,需要提高數據采集的效率。在網絡數據獲取時,需要注意三點內容,首先,要保證數據的完整性,在采集的過程中,不能對數據進行修改或者破壞;其次,數據采集系統不能受到網絡流量的影響;最后,數據采集獲取的過程中,要具有較高的透明度,要保證被檢測的網絡不會受到外界因素的影響。

2.2數據存儲

動態取證技術是公安部門應用比較多的技術,與NIDS技術相比,其不但可以對特殊文字以及詞匯進行摘錄,還可以對數據進行完整性記錄,通過對數據模塊的分析,可以追查到相關內容。利用動態取證技術,可以將需要的報文完整的保存起來,還可以對網絡流量進行詳細的記錄,可以確保系統不會丟失文件,另外,當系統遭到黑客的入侵或者破壞后,動態取證技術還可以進行實時恢復,所以,這項技術具有一定防御以及反擊作用。在應用動態取證技術時,需要保證系統存儲空間的容量。

2.3數據分析

數據分析是動態取證中一項關鍵的環節,通過分析可以辨識不良入侵,是保證數據庫安全的有效措施。在網絡還原或者重建的過程中,利用數據分析技術還可以將損失降到最低。網絡數據分析有兩種方式,一種是基本分析,另一種是深入分析,如果取證問題比較簡單,則利用基本分析方法就可以解決,但是如果取證比較復雜,并且要求比較高,則必須進行深入數據分析。深入分析需要對重組網絡數據以及來源進行分析,還需要對數據間的關聯性進行分析,通過數據分析還可以還原與模擬網絡事件現場。動態取證技術也具有一定缺點,在取證的過程中存在漏報或者誤報的情況。

3數據挖掘技術在動態取證系統中的應用

基于數據挖掘的計算機動態取證技術,與傳統的動態取證技術相比,有著較大的優勢,其可以對海量收集的數據進行實時取證分析,而且準確性比較高,其具有關聯分析的特點,可以對與案件有關的信息或者電子證據進行快速的查找。這一過程需要利用數據分析模塊,在對數據進行分析時,需要對犯罪證據進行篩選,動態分析最大的優點是可以對實時數據進行獲取,在黑客對原始數據進行篡改或者刪除時,這項技術可以對這些犯罪過程詳細的記錄下來。基于數據挖掘的動態取證技術具有高效性以及可擴展性,利用數據挖掘技術,可以對海量的、不完全或者模糊的數據進行潛在價值的分析。基于數據挖掘的計算機動態取證技術主要有:

3.1關聯分析

關聯分析是基于數據挖掘的計算機動態取證技術一大特征,利用關聯規則,可以對相關數據進行深層挖掘,通過關聯分析可以掌握犯罪行為的關聯性特征,這些特征有些已經經過了預處理,所以,相關工作這需要做好審查以及審計工作,要通過相關規則對用戶犯罪特征以及規律進行總結。為了保證數據動態取證的安全性,需要在系統中設置加密軟件,還要將入侵信息反饋到檢測系統中,這樣可以提高數據分析的效率,還可以實現實時動態取證。

3.2分類分析

分類分析就是通過對分析示例數據庫中的相關數據進行分析,準確描述出每個類別的特征,建立分析模型,挖掘出分類的規則,將其它數據庫中的記錄傳送到分類規則中,在動態取證系統的數據采集模塊收集了用戶或程序足夠數據后,在取證的數據分析階段,應用分類的相關規則來判斷用戶或程序是否非法。應用分類樣品數據來訓練數據分析器的學習,還預測一些未知的數據是否具有犯罪證據。

篇9

挑選中國知網數據庫,以“知識管理”為主題關鍵詞進行精確檢索,共找到 31,324 篇文獻,其中 2004 年至2014 年間共發表文獻 24,895 篇,近十年是知識管理領域研究的高峰期。以“高校知識管理”或“大學知識管理”為主題關鍵字進行精確檢索,得到 248 篇相關文獻,可發現針對高校的知識管理研究較少。針對結果進行二次檢索,增加主題關鍵詞“數據挖掘”得到相關文獻 3 篇,表明對高校知識管理與數據挖掘技術結合的研究較少,所得文獻主要觀點包括:1.數據挖掘技術可用于高校知識發現;2.數據挖掘對知識管理體系建設有推動作用;3. 高校知識管理成果可通過數據挖掘技術進行評價。對國外學者的研究情況進行分析,挑選 Web ofScience 數據庫。以“knowledge management”為主題關鍵字進行檢索,共得到 62,474 篇文獻,以“knowledgemanagement of college”為主題關鍵字檢索,得到 647篇文獻,再結合關鍵詞“Data mining”,共得到文獻 5 篇。由此可見,國外相關研究比國內多出近一倍,并且研究的程度深、范圍廣。但關于高校知識管理與具體信息技術結合應用的文獻仍較少,且發表日期多為 2010 年后。

3、知識管理與數據挖掘結合的軟件要求

知識管理與數據挖掘技術的結合運用對高校相關設備提出了一定的要求,包括對服務器、客戶端計算機的硬件要求以及對知識管理平臺、數據挖掘工具的軟件要求,本文中將重點敘述軟件要求。

知識管理平臺要求

知識管理平臺是高校知識管理的實施基礎,它為高校人員提供了可視化的操作界面,其應實現的基本功能包括:1.數據接口;2.工具接口;3.數據挖掘(內置或外接);4.知識倉庫;5.知識索引、推薦;6.信息檢索;7.組織內交流;8. 管理評價。一個知識管理平臺應分為:表現層、服務層、處理層、存儲層。表現層是面向用戶的可視化界面,用于人機交互,接受用戶的任務;服務層對任務進行調度、處理,直接執行無需數據挖掘的任務并反饋至表現層,調度需要數據挖掘的任務至處理層;處理層負責數據預處理、數據挖掘、知識發現等功能;存儲層包括校方數據庫及知識倉庫。具體層次如圖 1 所示。根據高校組織的特征,知識管理平臺應在實現基本功能的前提下具有以下特點:1. 接口質量高。高校集行政、科研、社會服務等任務于一體,需要處理海量數據,應提供接口以使用專業處理工具處理復雜任務,保證數據處理的效率與深度;2. 內置數據挖掘功能。高校所含數據種類多、范圍廣,對結構簡單、數據量小的數據可直接使用內置數據挖掘功能處理,節省時間;3. 交流功能強。高校為知識密集型組織,其學科、職能間存在交叉,優秀的交流功能保證了知識的共享及創新。4. 完善的激勵體系。激勵體系不僅體現在平臺的評價功能中,更體現在管理人員的管理中,通過提高人員的積極性促進知識管理進程的實施。

數據挖掘工具要求

高校所含知識從相關對象分類可分為兩類:1. 管理知識,指高校各部門(教學、后勤部門等)用于高校管理的知識;2. 科研知識,指各學科的專業知識。前者主要與高校行政、管理人員相關,后者則與高校學者、教授關系更大。針對不同的用戶,知識管理與數據挖掘的結合運用對數據挖掘軟件提出了不同的要求。高校行政、管理人員所面對的數據多來自高校各類信息系統的記錄,如:校園卡消費信息、機房上機信息,具有量大、范圍廣、結構一致等特點。用于該類數據挖掘的挖掘工具可內置于知識管理平臺中,便于數據存取,提高挖掘速度。常用功能為預測、分類、評價三項,主要方法可選用回歸分析、趨勢外推、特征分類、層次分析、模糊綜合評價法等。結合使用者特點,該類挖掘工具應提供獨立的、具有既定模式的工作界面,減少用戶與算法的接觸,挖掘結果應具有較強可視性,提供圖、表界面,以便用戶理解。高校科研知識主要來自于學者、教授的科學研究,包括:實驗數據、主觀推測描述等,具有專業性強、層次深、結構復雜等特點。針對挖掘要求較低的數據,可使用知識管理平臺中的內置挖掘工具,而針對挖掘要求高的數據,可選用專業數據挖掘軟件,如:Intelligent Miner、QUEST 等,通過知識管理平臺的接口進行對接。

4、知識管理與數據挖掘結合的具體策略

知識管理的基本職能可概括為外化、內化、中介、認知四大部分,其中前三項職能對信息技術的依賴較強,可用數據挖掘技術進行輔助。數據挖掘的過程分為條件匹配、選擇、激活、應用四部分,即對數據進行預處理后,選擇相關數據記錄,根據用戶要求選擇相應技術進行數據挖掘,得出并解釋數據挖掘結果,最終將這些記錄應用于實踐中。兩者的具體結合策略如下:

輔助知識管理體系建設

知識管理本質是一個周期性管理過程,在這一過程中實現組織知識共享、創新等,最終提升組織綜合實力,其中知識管理體系建設是實現知識管理的宏觀條件。知識管理體系建設是一個系統、全面的工程,包括組織結構調整、確定激勵制度、知識管理文化培養、成效評估等任務。數據挖掘技術,可以為知識管理體系建設提供依據,保證相關決策的科學性。數據挖掘對知識管理體系建設的幫助主要體現在以知識主管為主的知識管理部門對高校的管理、決策當中。知識管理部門收集并預處理外校、本校知識管理體系建設的相關數據,完成輔助決策的數據倉庫的建設。管理人員可根據要求,從數據倉庫中選擇數據,利用對應模型完成挖掘,通過挖掘結果對決策做出幫助。以制定激勵制度為例,管理人員選擇與高校人員喜好相關的數據,如至少包含“部門”、“喜好”、“性別”字段,利用關聯算法對其進行計算,即可得出各部門工作人員的喜好,以此為據制定相應激勵制度。

知識外化

知識外化是指組織從組織外部獲取與本組織相關的知識、發現歸集組織內部存在的知識并進行存儲以備用的過程。完成知識外化的關鍵即知識發現,其較為常用的方法包括主觀歸納、隱性知識外顯等。目前學界中較為認可、使用較普遍的方法即數據知識發現(KnowledgeDiscovery in Database, KDD),指從數據集中識別出表明一定模式的、有效的、潛在的信息歸納為知識的過程。這是數據挖掘與知識管理結合應用的最重要部分。同時,數據挖掘技術只給定挖掘目標,不給出假設、前提,因此在使用數據挖掘的過程中可獲取一些計劃外的知識,為知識管理提供一個可靠的知識源。此處存在兩個前提:第一,知識發現不能僅僅依靠信息技術,更需要人員對挖掘結果進行主觀歸納,解釋其語義以完成知識的推理;第二,挖掘對象需進行預處理,并轉化成邏輯數據。利用數據挖掘技術進行知識發現有多種可用方法:利用分類和聚類分析可提供知識索引和發現特殊情況下的離群值和孤立點,知識索引可細化知識所屬領域和確定挖掘范圍,離群值和孤立點可為挖掘人員提供歸納的線索,若其存在一定規律則可得出模型、規則;使用模糊技術、統計方法可得出對高校決策的評測分析,判斷方案的有效性,并得出模式,用于同類決策處理;使用粗糙集和主成份分析法定義知識發現中的主要特征,結合已有知識庫對不確定、不精準的知識進行細化;使用關聯規則發現大量數據集各字段中潛在的聯系。以關聯規則的使用為例,選擇 Apriori 算法,挖掘目的是發現學生學習情況中的潛在知識。首先從數據倉庫中選出與學生課程成績相關的數據集,包括姓名、院系、性別、課程號、課程類別、成績等字段,進行預處理,將字段中的取值轉化為邏輯值,代表不同語義,如:性別字段,男設值 1,女設值 2。操作人員設置最小支持度、置信度,通過數據挖掘工具進行挖掘,得出關聯規則并進行解釋。若結果顯示 XX 院系、男生、A 類別 => 成績優秀構成管理規則,則表示XX院系的男生對于A類別科目較感興趣,學習成績優秀,可在歸納后存入知識倉庫。

知識內化、中介

知識內化是發現特定人員知識需求,并為其提供相應知識的過程,內化的關鍵是對知識的聚類、對人員的興趣挖掘。知識中介是指組織中存在一定量無法編碼儲存的知識,針對這些知識,通過一定手段,將知識的需求者與知識來源進行匹配,為兩者提供交流的途徑。數據挖掘在知識內化、中介中所起的作用主要是對高校人員特征的挖掘。在利用數據挖掘技術發現知識后,通過知識管理平臺進行分類存儲、添加索引,作為備選。對高校人員數據庫中數據進行挖掘,可利用聚類分析、預測模型等,得出特定人員的特長領域、興趣愛好,從而根據先前設置的知識索引為其提供信息。若定期對人員特征數據進行挖掘,并根據結果為高校人員推送相關知識、信息,即可實現個性化推送,其推送內容由人員特征數據決定。高校組織中擁有大量教授、學者,其所擁有的知識是一筆巨大財富,加強相關領域間人員的交流、溝通,可以促進知識共享、創新,提升組織綜合實力,這正是知識管理中介職能的作用。通過上文中相同的挖掘方法,在對教授、學者特征進行挖掘后,對他們的研究方向進行聚類分析,由挖掘結果,為相關人員提供合適的建議、利用知識管理平臺為特征相似或同一聚類中的教授、學者提供交流的途徑,進而促進知識的共享。

數據挖掘技術推動圖書館管理

圖書館是高校組織中的特殊資源,含有大量精確或模糊、成型或不成型的知識,是一種實體的知識倉庫。對圖書館的有效管理有助于高校知識管理的實施。目前,已有不少圖書館專家將數據挖掘技術引入圖書館管理,提出了針對圖書館的數據挖掘應用理論。圖書館數據挖掘對象主要包括三個:1.圖書信息;2.讀者信息 3. 讀者借閱信息。通過對三者挖掘結果的綜合,可為圖書館資源建設、讀者服務、個性化服務提供幫助。根據挖掘結果分析,可做到客觀、合理引入資源,做到讓數據說話而不是讓管理人員說話,減少了管理人員個體的主觀影響,使高校圖書館經費發揮最大效用;提升讀者服務質量,在讀者進行檢索時減少等待時間,改變以往被動檢索的情況,通過用戶數據挖掘為用戶提供主動的信息推送;提供個性化服務,以挖掘結果為依據,針對不同用戶提供不同服務,比如不同的圖書館系統管理界面。

充分發揮管理職能

知識管理是一個系統工程,包含平臺開發、體系構建、文化培養等,其在實踐中設計大量的數據操作。數據挖掘技術可在知識管理的實踐過程中為各項信息處理工作提供支撐,從而為操作人員提供便利,間接縮短知識管理的周期時間。將高校知識管理與數據挖掘技術相結合可有效促進知識管理具體操作中的工作效率。兩者的結合對高校人員管理具有積極作用,數據挖掘與知識管理在實踐中相互影響,提升操作人員素養。數據挖掘需要專業人員進行操作,操作人員的綜合素養將決定挖掘成果的質量。知識管理可有效促進數據挖掘人員對知識的認知,使操作人員對不同要求所對應的挖掘技術、模型的選擇更為準確,提升挖掘成果的質量,使知識更加清晰、獨立、可接受。

篇10

1 概述

在面對海量的情報信息資源時,如何高效、準確的開展分析工作,為管理決策人員提供支持,已成為當今科技工作的重要組成部分。可以說,情報分析方法和相關工具的合理使用決定了情報獲取的準確性和有效性,并將直接影響制定戰略決策的有效性和科學性。

技術情報分析系統主要進行與技術相關科技論文、專利、互聯網情報數據的分析,實現分析方法、算法、分析結果的表現形式以及分析報告自動生成等技術。該情報分析系統除了基本的維度統計分析外,更多的側重于利用知識發現、數據挖掘等技術進行情報數據的深度處理與分析。通過情報分析系統開發設計,結合數據挖掘等技術的合理使用,使得系統使用者能夠快速、有效、全面地獲取技術的情報信息。

2 系統的設計與功能描述

2.3 數據挖掘技術設計

2.3.1數據文本特征表示

在進行文本挖掘時,對文本特征進行處理,實現對非結構化的文本向結構化轉換。情報分析系統采用向量空間模型(Vector Space Model,VSM)進行文本的表示,并利用倒排文檔頻率TFIDF進行專利文本的特征提取,以此作為論文、專利文本挖掘的基礎。

2.3.2關聯算法

在挖掘論文專利作者之間、機構之間、國家之間的研究內容關聯性上,采用了基于文本挖掘的關聯算法。通過對技術關鍵詞的共生關系(Terms Co-occurrences)計算來識別、確定一組文獻內部所包含的技術組(群)。

2.3.3 層次結構可視化算法

情報分析系統中關于論文和專利的引證分析、專利同族分析采用了層次結構可視化算法Hyperbolic Tree,即雙曲樹算法。其主要原理是將樹結構在雙曲空間進行布局,然后映射到歐式空間的龐萊卡圓盤進行顯示。歐式空間中兩個相同大小的區域離龐萊卡圓盤中心越近,在雙曲空間中所占用的空間越小;反之,雙曲空間中兩個大小相同的區域離原點越近在龐萊卡圓盤中所占用的空間越大。

4 結論

本文提出運用數據挖掘方法實現對大量數據的分析和判斷,可有效幫助科技情報機構和人員提高綜合情報分析能力和決策的質量。同時,該方法可按照不同需要進行功能拓展,實現向更多的技術情報領域延伸。

參考文獻

[1]Dongpeng Yang. Application of Data Mining in the Evaluation of Credibility, 第十一屆亞太地區知識發現與數據挖掘國際會議(PAKDD),IOS Press出版, 2007.

[2]樂明揚.公安情報分析中的數據挖掘應用研究.信息與電腦.2012(8).

篇11

一、數據挖掘和客戶關系管理含義

數據挖掘技術(Data Mining可以簡稱為DM),簡單來說,就是一種把隱藏在大型數據庫或者數據倉庫中所需要的有用信息提取出來的新技術,這是一個對數據庫進行研究的非常有價值的領域。數據挖掘技術可以幫助用戶從數據庫中準確的提取出有用的商業信息,為用戶在進行決策時提供重要的支持。

客戶關系管理(Customer Relationship Management可以簡稱為CRM),也有人稱之為“顧客關系管理”,關于客戶關系管理的定義,目前有兩種說法:一,最早的Gartner Group定義為一種商業策略,就是把客戶進行分類,并依據分類情況來對企業的資源進行有效的組織,進而企業的業務流程實施以及經營活動都要以客戶為核心來進行,以此來提高企業的盈利能力以及客戶滿意度,取得最大利潤;二、是由CRMguru.com給出的定義,客戶關系管理就是一個在企業的營銷、銷售以及服務的業務范圍內,把企業現有的客戶以及潛在客戶,還有業務伙伴多渠道進行管理的過程,或者說技術。

二、數據挖掘在客戶關系管理中的應用

隨著社會經濟的不斷發展,市場競爭力也在逐步的增大,商家想要獲得最好的利益,就必須對市場的變化迅速的做出反應,能夠引起市場變化的重要因素就是客戶需求的變化,也就是說,企業必須集中注意力,觀察客戶需求的每一變化,并把這些資料收集在一起,作為企業發展的寶貴資源進行管理。在企業管理客戶信息的過程中,就需要應用到了數據挖掘技術。

數據挖掘技術在客戶關系管理中的應用過程中,主要方法有:神經網絡法、遺傳算法、決策樹法、粗糙決算法以及可視化技術、K—最近鄰技術等,每個公司的客戶關系不同、需求也不同,所以要用到的方法也不同。

數據挖掘技術主要應用于客戶關系管理中的這幾個方面:(1)挖掘新客戶,數據挖掘技術可以對現有的客戶信息和市場環境進行統計總結以及歸納,準確的確定潛在客戶以及市場目標。因為數據挖掘技術具有統計、聚類和關聯的作用,比如說,數據挖掘技術在數據庫中發現了這樣一個信息“某客戶在購買A商品之后,過了一段時間又購買了B商品,最后還購買了C商品”那么數據挖掘技術就會通過次序關聯,把這個信息形成“A—B—C”的行為模式。(2)可以保持優質客戶。現在社會競爭相當激烈,企業客戶更是企業發展的重要因素,優質客戶對每個企業來說就更加的重要。數據挖掘技術可以對數據庫中的流失客戶信息進行分析,并且對流失客戶的特征進行準確的描述,然后利用關聯、近鄰的方式對整個數據庫中的消費客戶信息進行分析,分析出容易流失的客戶,隨后就需要采取相應的措施來減少這些客戶的流失,尤其是那些可能流失的優質客戶,更要采取有力的措施來進行挽留。(3)可以提升客戶價值。目前提升現有客戶的價值的方式有兩個:一是提供特色服務或者產品;二是銷售新產品或者服務。想要準確的提升客戶價值,就需要數據挖掘技術的幫助了,他可以把之前的客戶信息研究分析,并依據新產品或者服務的特征,發現和客戶的已購買產品之間的關聯,因而準確的找到具有最大購買趨勢的客戶。

三、加強客戶關系管理中數據挖掘的意義

應用數據挖掘技術對客戶關系進行管理,可以有效的提高企業的核心競爭力,現代社會的激烈競爭,也就是對客戶的競爭,數據挖掘技術對企業的客戶關系進行詳細的分析,并為企業提供有價值的商業信息,為企業的重大決策提供了重要的參考依據,進而有力的提高了企業的核心競爭力;可以有力的增強企業的執行力,利用信息技術對客戶關系進行管理,降低成本,并簡化執行任務,有效的實現了資源共享,大力的提高了企業的自動化水平,企業職工的執行能力也進一步得到了提高,也就是增強了企業的執行力[3];可以為企業的下一步戰略發展提供幫助,數據挖掘技術對現今的市場環境進行分析,可以預測到每個業務的發展狀態,以及每個業務與發生過的商業行為之間的關系,有了這些信息,可以準確的制定企業未來的發展戰略,并且可以制定與市場環境相適應的營銷策略。

綜上所述,目前數據挖掘技術是企業進行客戶關系管理的最有效的工具,準確的掌握了客戶信息,就是準確的把握了市場需求,可以為企業制定完全適應于市場的發展方向。數據挖掘技術的關鍵作用就是找出潛在客戶,保留忠誠客戶,并利用企業有限的資源,對這些客戶提供最好的服務,促進企業的不斷發展。

參考文獻:

篇12

隨著科學技術的突飛猛進,社會信息化的快速發展, 以信息技術為主要標志的高新技術革命已經引起了社會各個領域的深刻變革,網絡已經成為社會生活不可分割的一部分。每天有數以億計的網民在互聯網上瀏覽、信息,互聯網已經成為信息時代最為重要的信息集散地。對于邊防情報部門而言,研究如何通過互聯網和公安網快速高效地進行情報收集,使各項工作都圍繞收集、運用情報而展開,已經成為當務之急。Web數據挖掘技術的興起,為邊防情報部門開展工作提供了高效的工具與手段。

一、Web數據挖掘技術

Web數據挖掘技術是由傳統數據庫領域的數據挖掘技術演變而來。數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的原始數據中,提取隱含在其中的、事先未知的、但又潛在有用的信息的過程;它是從數據倉庫中提取出可信的、新穎的、有效的,并能被人理解的模式的高級處理過程。數據挖掘出現于20世紀80年代,它不僅面向特定數據庫的簡單檢索查詢調用,而且要對這些數據進行深入的統計、分析和推理,發掘數據間的相互關系,完成從業務數據到決策信息的轉換。數據挖掘技術把人們對數據的應用,從低層次的末端查詢提高到為決策者提供決策支持。隨著互聯網的蓬勃發展,數據挖掘技術被運用到網絡上,并根據網絡信息的特點發展出了新的理論與方法,演變成為Web數據挖掘技術。Web數據挖掘是指從與WWW有關的資源和行為中抽取人們感興趣的、有用的模式和隱含信息,所挖掘出的知識能夠用于信息管理、查詢處理、決策支持、過程控制等方面。Web數據挖掘已經成為對互聯網信息進行深度分析、開發與利用的重要手段。

二、Web數據挖掘的分類

(一)Web內容挖掘

Web內容挖掘是指從互聯網上檢索資源,從相關文件內容及描述信息中獲取有價值的潛在信息。根據處理對象的不同,Web內容挖掘分為文本挖掘和多媒體挖掘。網上信息形式多以文本信息的形式存在。文本可以被看作是一種順序數據,目前有許多適合于順序數據的挖掘方法。Web文本信息挖掘的主要任務一般限定在文本特征的表示、文本的總結,以及文本的分類和聚類等方面。互聯網現有大量多媒體信息。對該類信息進行分析挖掘,找出合適的描述模式,闡述并理解其中的意義,可提高該類信息的識別度及檢索效率,也是Web多媒體挖掘的目標。論文大全。目前此方面應用的技術手段主要是語音信息的理解及識別、圖形圖像信息的理解及識別,以及信息檢索等。

(二) Web結構挖掘

Web結構挖掘的目標是Web文檔的鏈接結構,目的在于揭示蘊涵于文檔結構中的信息,主要方法是通過對Web站點的結構進行分析、變形和歸納,將Web頁面進行分類,以利于信息的搜索。對Web頁的鏈接結構進行分類,可以識別判斷頁面與文檔間的各種屬性關系。由于Web頁的內外部存在具有各種屬性關系的結構信息,通過研究Web結構信息,可得到相關主題、相關分類的頁面集合,生成關于某個Web站點的結構和頁面結構的概括信息。因此,結構挖掘的重點在于鏈接信息。

(三) Web日志挖掘

Web日志挖掘是從服務器訪問日志、用戶策略、用戶對話和事物處理信息中得到用戶的訪問模式和感興趣的信息,并盡可能預測用戶的行為。通過對用戶所訪問頁面、文檔等的技術分析,Web日志挖掘可以找出相關主題間、相關內容間的聯系規律。訪問分析又稱使用分析,主要使用用戶基本信息如IP、ID、URL、日期、時間等進行處理。由于Web服務器的Log日志存在完整的結構,當用戶訪問Web站點時,相關的頁面、文檔、鏈接等信息在日志中都做了相應的記錄。Web日志挖掘不僅要找出用戶經常訪問的URL路徑,而且也要找出用戶有可能要訪問的相關站點的鏈接。利用這種方法,可以獲知互聯網使用者的行為偏好。

三、Web數據挖掘的主要方法

(一)統計分析方法

統計分析(statistical)方法是通過對總體中的樣本數據進行分析,從而描述和推斷能夠揭示總體中的內部規律的信息和知識的方法。為了適應復雜信息的挖掘需求,往往依賴有明確目標和任務的概率模型。數據挖掘的統計模型要適合于所要提取的對象。利用統計分析技術可以對我們感興趣的內容進行蘊含信息的挖掘。如對互聯網日志進行統計可以獲得有關站點使用的基本信息,包括頁面訪問次數、日平均訪問人數、最受用戶歡迎的頁面等。除此以外,還可以進行錯誤分析,如非法用戶登錄等。這些統計數據都是基于用戶瀏覽頁面的時間、用戶的瀏覽路徑和路徑長度等信息。這些統計數據對于提高系統的性能、安全性以及優化站點結構大有幫助。目前已有許多互聯網流量分析工具實現了這些基本的統計功能。

(二)關聯分析方法

關聯分析(associationanalysis)用于發現關聯規則,所謂關聯規則是指在大量的數據中所隱含的項集之間的關系以及項集的頻繁模式。用戶在瀏覽網頁時,經常會在同一次訪問中瀏覽一些無順序關系的頁面集合,挖掘發現的這些頁面之間內在的聯系,就是就表現為它們之間存在一定的關聯。如果關聯規則中的頁面之間沒有超鏈接,則應該引起我們的特別關注。通常使用可信度、支持度、期望可信度和作用度這四個參數來描述關聯規則。

(三)分類方法

分類(classification)是找出描述并區分數據類或概念的模型(或函數),以便能夠使用模型預測類標記未知的對象類。分類不同于聚類,聚類無須事先制定標準,而能從信息本身出發,利用算法自動分類;而分類的準則是事先定好的。在Web數據挖掘中,分類主要是將用戶配置文件歸屬到既定的用戶類別,網頁根據內容的屬性分類等。分類技術要求抽取關鍵屬性描述已知的信息,可以通過指導性歸納學習算法進行分類,主要包括決策樹分類法、貝葉斯分類法、最近鄰分類法等。

(四)聚類分析方法

聚類(clustering)就是將數據對象分組成為多個類或簇,在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大。聚類分析能夠將一批數據按照它們在性質上的親密程度,在沒有先驗知識的情況下自動進行分類,每一類都是大量具有相似性個體的集合,不同類之間具有明顯的區別。聚類分析是一種探索性分析,在分類過程中,人們不必事先給出一個分類的標準,聚類分析能夠從信息本身出發,自動進行分類。例如在Web日志挖掘中,聚類分析主要集中于用戶聚類和頁面聚類。用戶聚類將具有相似瀏覽行為的用戶歸類;頁面聚類則是將內容相關的頁面歸類,搜索引擎可以利用這些信息為某個查詢提供用戶感興趣的相關超鏈接。

四、Web數據挖掘在邊防情報工作中的應用模式

(一)Web數據挖掘在建立公安網搜索引擎中的應用

目前,邊防情報部門所需的公開信息大部分來源于互聯網和公安網,情報人員通過使用搜索引擎來快速查詢需要的信息,然而公安網的搜索引擎存在較大局限性,搜索出來的結果存在大量冗余信息,不能滿足情報人員的需求。因此,在搜索引擎中通過借鑒Web數據挖掘技術可以有效地提高查準率和查全率,從而給情報人員提供較有準確的信息。具體應用方法如下:

1.根據公安網的頁面內容,自動形成摘要

目前,使用公安網搜索引擎進行檢索,檢索的結果文檔是以簡單摘要形式出現的,它表現為機械地提取網頁內容取前幾句為摘要,這種僅通過位置進行自動摘要是很難真正反映出網頁中的信息內容。論文大全。在文本挖掘中的文本抽取技術是指從文檔中抽取出關鍵信息,然后以簡潔的形式對文檔的信息進行摘要或描述,即文本抽取技術是根據Web文檔本身的內容,從Web頁中提煉出重要信息形成文檔摘要,而不是根據位置來進行文本內容的概括,因此它更能夠反映出Web文檔中的真正信息。論文大全。這樣,情報人員通過瀏覽關鍵詞就可以了解網頁的大致內容,從而決定是否使用該信息。

2.根據檢索結果,自動進行文檔聚類

文本聚類是文本分類的逆向過程,是指將文檔集中的文檔分為更小的簇,要求同一簇內文檔之間的相似性盡可能大,而簇與簇之間的關系盡可能小,這些簇相當于分類表中的類目。情報人員在使用搜索引擎時,會得到大量的返回信息組成的線性表,而其中很大一部分是與其查詢請求不相關的,于是通過對檢索結果的文檔集合進行聚類,可以使得與用戶檢索結果相關的文檔集中在一起,并遠離那些不相關的文檔。再將處理以后的信息以超鏈接結構組織的層次方式可視化地提供給情報人員,從而大大減短瀏覽時間。

(二)Web數據挖掘在建立公安網站中的應用

公安網網站是公安網信息的容納處,我們可以利用Web數據挖掘技術有效地組織網站信息,建立一個資源優化的網站,也就是說通過對網站內容的數據挖掘,主要是對文本內容的挖掘,如采用自動歸類技術實現網站信息的層次性組織;以及結合對用戶訪問日志記錄信息的挖掘,把握用戶的興趣,開展網站信息推送服務。

1.采用自動歸類技術,實現公安網網站信息層次化

一般而言,網站提供給訪問者的信息和服務應該是按優先次序進行排列,網站維護人員應該把重要的信息放在醒目的位置,因此在網站維護時,通過對網站內容挖掘和Web日志挖掘,可以有效地組織網站信息。例如:采用自動歸類技術實現網站信息層次化;分析訪問者的訪問行為,可為用戶提供智能化、個性化服務。還可根據訪問者的訪問興趣、訪問頻度、訪問時間,動態地調整頁面結構。

2.采用日志挖掘技術,實現公安網網站信息推送服務

網站可以根據訪問者的瀏覽情況,發現訪問者的興趣,定期為注冊用戶提供相關信息,并且調整網站中網頁的鏈接結構和內容,為訪問者提供個人定制服務。具體步驟為:首先將日志文件中的數據經過預處理,形成原始數據庫;然后獲取用戶的訪問模式,放入用戶訪問模式數據庫;再通過數據挖掘和模式分析形成知識數據庫,Web服務器自動更新知識數據庫,采用動態主頁設計方法,根據用戶的知識信息,提供相應的個性化主頁。在數據預處理過程中會話識別是重要的一步,它取決于用戶訪問模式的有效性和準確性。為提高準確性,可采用Cookie法進行會話識別。在呈現個性化主頁時,利用用戶的IP地址和Cookie值查詢知識數據庫,發現用戶頻繁訪問的路徑,并自動形成相應鏈接,根據相似用戶群和相關Web頁推薦給用戶。由于是經過挖掘和分析后所產生的動態主頁,相對于一般的主頁,其針對性更強,更受用戶的歡迎。

參考文獻:

[1]葉鷹.情報學基礎教程[M].科學出版社,2006

[2]栗湘等.Web挖掘應用研究[J]情報理論與實踐,2005,(6)

[3]曼麗春等.Web數據挖掘研究與探討[J].現在電子技術,2006,(8)

篇13

計算機網絡技術的普及與應用給人們的生活帶來了翻天覆地的變化,同時在網絡上產生了大量雜亂無章的數據。而網格技術、Web技術的發展,為人們從分布的網絡資源中尋找有價值的信息提供了新的技術支持,同時也產生了許多基于網格的數據挖掘系統。而數據挖掘算法又是決定一個數據挖掘系統性能的主要衡量指標。任何軟件系統的設計都離不開算法,數據挖掘技術的執行效率也與數據挖掘算法有關,隨著數據庫技術與數據挖掘技術的成熟與發展,像分類、聚類、決策樹、關聯等等數據挖掘算法已相當成熟,可以研究借鑒現有數據挖掘方法、數據挖掘模式、數據挖掘流程,建立一個基于網格的數據挖掘系統。筆者以眾多數據挖掘算法中的聚類分析算法為例,介紹基于GT4(Globus Tookit 4.0的簡稱,GT4的核心開發工具包(Java Web Service Core))的數據挖掘算法的設計過程。

聚類分析(Clustering Analysis)是一個應用比較廣泛的數據挖掘算法,算法的理論研究與實踐應用都已經很成熟,把這一成熟的理論應用于基于網格的分布式系統中,會大大提高數據挖掘的效率。本文主要研究如何將聚類分析的CURE(Cluster Using Representation)算法和K-平均方法算法應用于基于GT4數據挖掘系統中。

2.系統結構設計

基于GT4數據挖掘系統的數據源是分布式數據源,分布式數據源是指在物理上分布而邏輯上集中的數據源系統。在該系統中,處在這個網格中的每臺計算機就是這個網格的一個節點,稱之為網格節點。在眾多的節點中,要有一個網格節點來控制和管理其他的節點,這個節點就叫做網格中心控制節點,決策支持都是由網格中心控制節點完成的。如果要完成某個數據挖掘任務,則可以由空閑的網格節點先按挖掘需求來完成本節點的挖掘任務,再由網格中心控制節點來匯總每個節點的數據挖掘情況。局部網格節點管理的信息具有局限性,涉及的范圍較小,主要完成單個節點數據的管理,對局部的數據挖掘結果進行匯總分析,但是這些局部節點的數據與全局節點的數據又是有一定關聯的。根據以上的分析可知,網格平臺下的數據挖掘任務由全局數據挖掘與局部數據挖掘共同完成。

3.算法的Web Service設計

3.1 全局聚類算法的Web Service設計

網格環境下的全局控制網格節點與局部網格節點間的關系我們可以理解為上下層的關系,這樣就可以借鑒基于層次的聚類分析算法,按照層次的自底向上的聚類方式,把全局控制節點當成是層次聚類的頂層。本課題全局聚類算法借鑒傳統的利用代表點聚類算法CURE。

CURE算法將層次方法與劃分方法結合到一起,選用有代表性的、固定數目的空間點來表示一個聚類。算法在開始時,每個點都是一個簇,然后將距離最近的簇結合,一直到簇的個數為要求的K。首先把每個數據點即局部網格節點看成一個聚類,然后再以一個特定的收縮因子向中心收縮它們。

CURE算法的主要執行步驟如下:

(1)從數據源樣本對象中隨機抽取樣本集,生成一個樣本集合S;

(2)將樣本集合S分割為一組劃分,每個劃分大小為S/p;

(3)對每個劃分部分進行局部聚類;

(4)通過隨機采樣剔除聚類增長太慢的異常數據;

(5)對局部聚類進行聚類,落在每個新形成的聚類中的代表性點,則根據用戶定義的收縮因子收縮或移向聚類中心;

(6)用相應的標記對聚類中的數據標上聚類號。

有了數據挖掘算法,就可以完成數據挖掘任務了。全局聚類算法的主要功能是響應用戶的數據挖掘請求,將對應的請求發送給局部網格節點,將局部網格節點的挖掘結果整理輸出。全局聚類算法Web Service資源的結構包括算法Web Service接口、算法資源屬性文檔、算法功能實現和算法功能四個部分。

利用傳統的聚類算法完成全局的數據的并行挖掘最重要的一步就是將全局聚類算法部署到GT4中,完成全局聚類算法的Web Service設計要經過過以下幾步:

第一步:用WSDL(Web Service描述語言,是Web Service提供的XLM語言)來描述數據挖掘服務接口,該服務接口可以用Java來定義,利用Java-to-WSDL工具把Java定義的接口轉為WSDL文件。

第二步:用Java編寫全局聚類算法(CURE)代碼;

第三步:用WSDD配置文件和JNDI(GT4自帶文件)部署文件;

第四步:用Ant工具打包上面的所有文件,生成一個GAR文件;

第五步:向Web Service容器部署全局數據挖掘服務。

3.2 局部聚類算法的Web Service設計

局部聚類算法的主要功能是完成局部網格節點的數據挖掘任務,并把數據挖掘結果上傳到全局控制節點。局部網格節點的數據挖掘任務與傳統的單機數據挖掘任務類似,本課題局部聚類算法使用傳統的聚類算法K-平均方法,以K為參數,把N個對象分為K個簇,簇內具有較高的相似度,而簇間的相似度較低[34]。本論文的數據挖掘任務主要是由局部網格節點實現的,下面就詳細的介紹K-平均算法的主要執行過程如下:

(1)從數據集中任意選擇K個對象作為各個簇的初始中心。

(2)根據現有的簇中心情況,利用距離公式計算其他對象到各個簇中心的距離。(可選的距離公式有:歐幾里、行德公式、距離公式、曼哈坦距離公式、明考斯基距離公式)。

(3)根據所得各個對象的距離值,將對象分配給距離最近的中心所對應的簇。

(4)重新生成各個簇的中心。

(5)判斷是否收斂。如果收斂,即簇不在發生變化,那么停止劃分,否則,重復(2)到(5)。

K-平均算法是一個經典的聚類算法,將K-平均算法部署到GT4中,完成局部聚類算法的Web Service設計,部署方法與全局算法相似。

4.結論

基于GT4的數據挖掘系統中的數據挖掘服務資源有網格的中心控制節點(即全局節點)進行統一的管理,在局部網格節點挖掘過程中,根據其處理能力分配最佳的數據集給局部節點,從而使整個系統的計算負載相對均衡。其數據挖掘系統的規模可隨著服務的多少動態伸縮。當系統要增加新的局部挖掘節點時,只需部署局部Web Service資源即可。將網格應用到分布式數據挖掘系統中,建立一個基于網格的數據挖掘系統,必將使其在各個領域都得到廣泛的應用。

參考文獻

主站蜘蛛池模板: 永吉县| 门源| 通州市| 霍城县| 富蕴县| 通山县| 泽普县| 凌海市| 保康县| 元阳县| 方城县| 临颍县| 台前县| 马山县| 沙坪坝区| 罗源县| 鹤峰县| 南京市| 吴旗县| 东源县| 南宁市| 海南省| 滨州市| 屏山县| 江门市| 双桥区| 大安市| 临洮县| 岳池县| 旌德县| 黔西县| 金山区| 沙坪坝区| 临沂市| 贞丰县| 施秉县| 江安县| 英德市| 防城港市| 桦甸市| 汉中市|