日韩偷拍一区二区,国产香蕉久久精品综合网,亚洲激情五月婷婷,欧美日韩国产不卡

在線客服

聚類分析論文實用13篇

引論:我們為您整理了13篇聚類分析論文范文,供您借鑒以豐富您的創作。它們是您寫作時的寶貴資源,期望它們能夠激發您的創作靈感,讓您的文章更具深度。

聚類分析論文

篇1

1.3數據來源與處理文中的數據資料,來自于2011年《中國統計年鑒》、2011年《中國城市統計年鑒》、2011年《中國城市競爭力年鑒》、2011年《中國城市能源統計年鑒》等,部分數據是整理計算后得出的結果。

1.4評價方法文中首先采用因子分析法,對我國31省級行政區域的環境友好型社會水平進行綜合評價。因子分析在SPSS17.0軟件環境下進行。其次,在因子分析的結果基礎上,對各省市區域的環境友好型社會發展狀況進行聚類分析。采用HierarchicalCluster的聚類方法,運用離差平方和法(Ward'smethod)計算類與類之間距離,選擇歐式距離的平方(SquaredEuclideanDistance)進行聚類,最終得出聚類分析結果,并用Arc-GIS9.2軟件呈現空間差異。

2結果與分析

2.1因子分析通過對評價對象的3個二級指標下的23個三級指標進行環境友好型社會程度綜合評價。

2.2聚類分析與空間分異在因子分析基礎上,進行樣本聚類分析,并利用ArcGIS9.2軟件顯示量化分類結果的空間分異特征。聚類方法選擇Ward法,距離測試采用歐氏距離平方法,利用SPSS的系統聚類法進行聚類分析。根據聚類結果,可以將31個省市區域劃分為3-8類如果劃分太少的類別(如分為3類或4類),則無法考察類別之間的具體差異,如果選擇較細的類別劃分(如分為7類或8類),則某一類別中含有的省份過少,更多地表達了特殊性。為了體現類型之間的差異性,又保證不同類型包含省份的均勻性,本課題將31個省份分為5類,并用ArcGIS9.2軟件分析得出空間差異

3討論

(1)為了解決環境友好型評價指標體系缺乏針對性的問題,文中在環境友好型社會概念基礎上,從環境影響總量、環境影響發展和環境保護潛力等三個方面,提出了由23個既相互聯系又相互獨立并能進行量化的指標構成的環境友好型社會綜合測度指標體系。通過采用2011年度中國統計年鑒和各行業和能源產業統計年鑒數據基礎上,對中國31個省級行政區的環境友好型社會發展狀況進行了綜合評價和聚類分析,研究結果與當前中國環境生態質量的現狀有較好的一致性,這也說明了該指標體系具有一定科學性和完備性。

(2)盡管文中的研究為我們客觀評價環境友好型社會提供了一種思路并具有一定的可操作性,但在選擇環境影響總量、環境影響發展和環境潛力等具體指標時,大多是建立在數據的可獲得性和以往的研究文獻基礎上,仍存在一定的主觀性。并且所選用的統計分析方法也可以是多種多樣的,也不僅僅是文中所提到的主成分因子分析法,還可以是諸如物元法、模糊評價法、神經網絡法和層次分析法等,不同的分析方法勢必會有不同的優點和不足之處,這需要后續學者做進一步探索。另外,從評價對象上看,文中選用的是省級空間分布尺度,這種尺度分類仍較為粗略,未來的研究可以進一步深化,比如縣域等。

(3)從研究結果看,中國31個省級行政區的環境友好型社會發展狀況可以劃分為五類;在空間分布上,環境友好型社會程度相對較高的省份大多位于東部沿海地區和西部國界線附近的不發達地區,而環境友好型社會程度相對較弱的省份大多位于京津唐冀和晉等省份和地區,這一研究結果與張墨寧的調查結果相一致。造成這種現象的原因,或許與中國所處的發展階段、區域主導產業結構和在很大程度上繼續沿用以往粗放型經濟發展模式有關,并值得相關政府決策部門的重視。

篇2

2農村環境污染物排放的核算

2.1農村環境污染物具體排放量的計算研究得知,各污染源污染實物的排放量多少是和流失系數、產污系數等密切相關的。而農村環境污染具有極其明顯的地域性,所以我們計算中需要的參數值必須通過對某一地區內各種相關聯的因素進行測定和綜合分析才能得出。目前,得出這些參數的方法一般有兩種,一是通過特定地區的污染發生學實驗研究來得出,二是通過相關的文獻進行篩選、調研。

2.2農村環境污染敏感性的調研這里提到的敏感性主要是指調研區域地表水環境對農村各種社會經濟活動的反應的敏感程度。可以反映產生地表水水體富營養化的概率的大小,敏感性分為5級,即不敏感、輕度敏感、中度敏感、高度敏感、極敏感。根據相關的調查,對農村環境污染的敏感性評價可以采用污染物(COD、TN、TP)的排放濃度結合水質評價模型進行評定。具體可有以下3種方法。①單向水質指數法。在確定各基本單元的基本指數后,用污染物(COD、TN、TP)的水質指數作為變量,進行全面的聚類分析,然后根據分析結果,劃分敏感級別。②加權指數法。運用加權指數法可以反映出污染物(COD、TN、TP)在不同地區對環境污染的影響。首先要確定影響農村環境污染敏感性發熱污染物(COD、TN、TP)的排放濃度,然后再依據加權指數法計算出各基本敏感單元的敏感性數值。③內梅羅綜合指數法。如果單項水質指數的數值變化很大,為了更加有效的突出各個高值的影響,就可以采用內梅羅平均值法。同樣,在確定了各基本單元的內梅羅指數后,以其指數為變量。進行綜合的聚類分析,然后根據分析結果劃分敏感性等級。

3污染程度的區分

首先確定環境污染中的主要污染物、總污染負荷,然后與區域相結合確定重點污染區域,進而確定其污染程度。

3.1水質系數和排放濃度要想全面的反映出區域污染的狀況,要從排污總量和排污濃度兩方面上來進行考慮,水質系數反映評價標準和污染物濃度之間的關系,其中:污染物水質指數=該污染物排放濃度/該地環境質量標準

3.2聚類分析進行聚類分析要運用SPSS軟件,采用Q型聚類,通過對農村環境污染源等標污染的負荷率進行綜合的聚類分析,然后來區分不同區域的主要污染類型,比如種植污染型、養殖污染型、綜合污染型、生活污染型等。

篇3

一 引言

聚類分析是數理統計中研究“物以類聚”的一種方法。聚類分析是一種無監督分類工具,其目的是在沒有先驗知識的前提下基于某個相似性度量找出屬于同一屬性集的數據,繼而將數據對象集合分成不同的類,因此它是挖掘數據未知的、具有潛在應用價值的信息的一種很好的方法。介于其在海量數據處理中顯現出的優勢,使得它在數據挖掘、模式識別、圖像處理、經濟學(尤其是市場研究方面)等領域得到了廣泛的應用。免費論文。然而,正是由于聚類分析的無監督特性,導致了數據最佳的聚類數很難確定,這就是聚類分析面臨的最主要的問題。免費論文。

二 FCM方法

經典分類學是從單個因素或有限幾個因素出發,憑經驗和專業知識對事物分類,這種分類具有非此即彼的特性,分出的類別界限很清晰。免費論文。隨著認識的深入,發現這種分類不適用于具有模糊性的分類問題,如圖像中的區域之間的邊界就往往是模糊不清的。1965年,Zadeh提出了著名的模糊集理論,創建了一個新的學科—模糊數學。

用普通數學方法進行分類的聚類法稱為普通聚類分析,而把應用模糊數學方法進行分析的聚類分析稱為模糊聚類分析。。。在實際中應用最為廣泛的是模糊C一均值算法(FCM:Fuzzy C-Means)。。FCM算法首先是由為Ruspini提出的,但真正有效的方法是由Dunn給出的。1974年Dunn將硬C--均值聚類算法推廣到模糊情形,同年Bezdek將Dunn的方法一般化,給出了基于目標函數模糊聚類的一般描述:

其中,表示隸屬第類的隸屬度函數,表示與的距離,為平滑指數.聚類準則為取為極小值.

1980年Bezdek證明了模糊C-均值聚類算法的收斂性并討論了模糊C一均值聚類算法與硬C一均值聚類算法的關系。從此,基于目標函數的模糊聚類方法蓬勃發展起來。

三 模糊聚類有效性函數

不少學者為估計數據集存在的最佳聚類數進行了大量地研究,基于模糊聚類分析的最佳聚類數的研究,也取得了豐富的成果。1974年,Dunn給出了如下的有效性判別函數:

其中,

1974年,Bezdek給出了如下有效性判別函數:

1991年,X.L.Xie和G.Beni定義了如下有效性判別函數,在實際應用中取得很好的效果。

四 一種新的聚類有效性函數

2000年, Tibshirani R等提出了Gap統計量,并用它來估計最佳聚類數。方法通過引入一個參考分布,用gap統計量刻畫樣本觀察值與它們在這個參考分布下的期望值之間的差異,最后通過這個統計量得到最佳聚類數的估計。

其中,表示在某參考分布下的期望,一維情況下通常取均勻分布為參考分布,最佳聚類數即出現在取最大值時。

實驗證明應用Gap統計量確定最佳分類數取得比較好的效果,但同時我們注意到Gap統計量方法只考慮了數據的幾何特征,沒有考慮到數據分類的模糊性,所以我們對Gap統計量的方法加以改進,引入數據的模糊特性,從而使分類數的確定更加合理準確。具體方法如下:

令,其中是隸屬第i類的隸屬度函數,是第i類的質心(均值)。從而定義函數:

表示在某參考分布下的期望,一維情況下通常取均勻分布為參考分布。這樣最佳聚類數出現在取最大值時。

參考文獻:

1. 黃陳蓉 張正軍 吳慧中. 圖像分割的Gap統計模型[J]. 計算機科學.2005.

2. 張正軍 李建軍 劉力維. 標準化水平的Gap統計量的零件圖像分割數估計[J]. 中國制造業信息化.2007

3. 李娜 劉力維 張正軍. 基于GS方法的圖像最佳分割的研究. 南京理工大學碩士學位論文.2006

篇4

論文的關鍵詞是文章內容的提煉及核心思想,在某一學科中,如果某些關鍵詞在眾多的論文中反復出現,就說明這些關鍵詞是該學科的研究熱點。因此本文以教育技術學專業為例,將研究生學位論文和論文關鍵詞作為研究對象,對教育技術學的研究熱點和發展趨勢進行探析,并從中得到一些啟發,以期探討進步。

1.研究過程

1.1主要的分析工具

論文分析需要定性和定量相結合,離不開相應軟件的輔助。本研究中主要使用書目共現分析系統(Bicomb)抽取論文中的關鍵字段,形成高頻詞一論文矩陣,Python進行聚類分析,Excel作為Python的輸入,以及進行簡單的統計。

1.2數據采集和處理

中國知網上收錄的論文數量較多,故將其作為研究對象的數據來源。通過本校數字圖書館訪問中國知網,選擇“博碩士”類型,并以“教育技術學”為“學科專業名稱”進行檢索,共獲得研究樣本7937篇研究生學位論文,然后按照NoteFirst格式采集研究生學位論文的題錄信息。使用書目共現分析系統,將論文的發表年份和關鍵詞提取出來,輸出成EXCEL格式。

共詞聚類分析的主要有如下幾個步驟:首先選定參與共詞分析的高頻關鍵詞并構建共詞矩陣,然后將共詞矩陣轉化為相似矩陣,然后進行聚類分析,最后對結果進行解釋。關鍵詞的選擇,目前有TOPN,正太分布法,齊普夫第二定律等幾種常見的方法。

經過統計分析,本文樣本數據不符合正態分布,故本文選擇累積百分比20%的關鍵詞作為高頻關鍵詞,生成如表1所示的共詞矩陣。

為了消除頻次懸殊造成的影響,用Ochiia系數將共詞矩陣轉化成相似矩陣,即將矩陣中的每個數字都除以與之對應的兩個關鍵詞總頻次開方的乘積,該矩陣主對角線上的數據均為1,代表高頻關鍵詞自身的相關程度,如表2所示。

2.研究結果

2.1關鍵詞的詞頻分析

詞頻分析法通過對關鍵詞中高頻詞匯的分析,能夠確定某一學科的研究熱點及其變化。本研究共收集到7937篇研究樣本,對所有關鍵詞進行統計排序后,得到排名靠前的20個關鍵詞,表3提供了前10個關鍵詞。

觀察上表數據,可以發現,教學設計出現頻次遠超其他關鍵詞,在教育技術學中占據著核心地位;信息技術和網絡課程占據第二和第三名次,說明教育技術學對信息技術和網絡的應用比較深入和頻繁。

為了進一步探究教育技術學的發展歷史,故對各年度所的關鍵詞進行統計,可以得出各年度頻次排名前10的關鍵詞表,具體見表4。

表4顯示了高頻詞的變遷過程。觀察上表可以發現,首先歷年排名靠前的關鍵詞都有教學設計和網絡教育,穩定性比較好,正體現出教育技術學交叉學科的特點,同時也可以看出,2000年后的“技術”,主要指網絡技術。其次教育技術已經處于信息化教育研究階段,這一階段的核心關鍵詞主要有遠程教育、信息技術、網絡學習、教育游戲、移動學習等。從這一階段的研究熱點可以看出,隨著信息化時代的到來,教育活動的數字化、網絡化、智能化等現象已成為研究熱點,這一時期研究者關注的對象不再僅限于媒體本身,而是從信息化學習方式人手,考察技術、人和教育三者間的關系。

2.2關鍵詞的共詞聚類分析

聚類分析是根據研究對象的特征對其進行分類的多元分析技術的總稱,基本思想是基于研究對象的樣本或變量指標間存在著不同程度的相似性或親疏關系。

層次聚類按照距離度量的不同分橐韻錄咐啵single-linkage、complete-linkage、average-linkage、ward-linkage。現有同類型的論文中,均采取層次聚類法對共詞矩陣進行聚類分析,但是并沒有針對上述不同情況給出對比分析,本文使用Python第三方庫scipy中的層次聚類函數以及dendrogram方法,對多種度量的聚類方法進行了對比實驗,發現ward-linkage方式的聚類效果最好,具體聚類樹如下圖所示。

觀察該層次聚類樹狀圖可以發現,研究生學位論文高頻關鍵詞大致聚為5類,具體分類如下:

第1類:學習方法研究,關鍵詞包括知識管理、大學生、網絡學習、虛擬學習社區、策略、非正式學習、知識構建等。該類研究主要以如何提高學習的效果為目的,尋找和對比多種學習方法,為后續的教育教學方法提供參考。

第2類:教師與教育技術研究,該類研究主要由教育技術、教師專業發展、教育技術能力、現代教育技術、師范生、教師培訓、中小學教師等關鍵詞構成。這一主題的研究主要圍繞教師與教育技術的關系,著力提高教師運用新型教育技術的能力和水平,從而更好地從事教學活動。

第3類:網絡教育教學研究,主要由網絡課程、移動學習、網絡、網絡學習、自主學習、遠程教育、網絡環境網絡教學、現代遠程教育等關鍵詞構成。網絡教育以互聯網為載體打破了空間和時間的限制,涌現出在線教育和MOOC等新型教學方式。

第4類:信息技術條件下的教育模式研究,主要包括信息技術、教學模式、信息素養、教育信息化、信息技術與課程整合、行動研究、翻轉課堂等關鍵詞。隨著信息技術的不斷進步,越來越重視信息技術與教育教學的結合,碎片化學習、翻轉課堂等都成為該學科內的研究趨勢。

第5類:設計與開發應用研究,主要由設計、應用、對策、開發、現狀和應用研究等關鍵詞構成。教學設計與應用是教育技術學的核心目標和價值體現,不論采用何種技術手段,最終的落腳點都是教育教學方案的設計及應用實踐。

3.研究結論

3.1發展趨勢

第一,研究熱點保持穩定。從關鍵詞詞頻分析中可以看到,不論是全量數據的統計,還是歷年關鍵詞數據的統計,出現頻率較高的關鍵詞都是信息技術、教學設計、遠程教育等。這些核心關鍵詞,包括教學效果,教育信息化等其他高頻關鍵詞在內,都顯示出中國教育技術牢牢把握學科定位與目標,重視教與學的應用與研究,而且應用信息技術進行教與學是中國教育技術領域近20年研究的熱點。

第二,教育技術學在走向融合。主要包括三個層面上的融合,即教育理論層面、技術層面、理論和技術結合的層面。在前文的分析結果中可以看到由何克抗教授正式倡導的混合式學習概念,更是最好的證明。一是教育理論層面,主要體現在教育理論基礎的變化上。教育技術學研究的焦點,已經由建構主義轉向混合式學習。在詞頻分析中的歷年高頻關鍵詞中,可以看到建構主義的排名在2004年以后,就比較靠后了。二是技術層面,教育技術已經從基礎的視聽技術,發展到了網絡信息技術為主,多種基礎技術為輔的階段。但就像網絡沒有取代報紙一樣,粉筆和黑板也依然存在著。各種不同的教學技術相輔相成、相互作用,它們以整體融合的形式,出現在各種教育教學活動中。三是理論和技術相結合層面,不同的教育與學習理論,需要各種不同的技術作為支撐,而各種技術的最終目的,是要為優化教學效果而服務。共詞聚類分析中發現的信息技術下的教學及學習模式研究,說明教育技術工作者已經開始關注適應性學習和協作學習環境的創設。

3.2啟發

第一個啟發是要自信。有人說,教育技術學專業學生的教育理論水平不如教育學相關專業的學生;論信息技術能力不如計算機相關專業的學生。多數人都看到了這個現象,但如果因為這個原因,變得不自信和迷茫,那就有些妄自菲薄了。因為教育技術學是交叉學科,本專業的學生跟其他專業的學生比的就是教育理論與信息技術相結合的“綜合實力”,這才是教育技術學特色和優勢的所在。本專業的學生在平時的學習和研究中,可以遵照南國農老前輩的指導,堅持現代教育理論與現代信息技g的融合,并牢記二者“相乘”的關系,雙翼齊飛,同時努力探索教育技術的中國道路。

第二個啟發是要并重。包括電教并重和教學并重,主要是為了解決目前教育技術學出現的誤區和問題。電教并重是指要認清教育技術姓“教”不姓“電”,信息技術只是教育技術的一種支撐,教育技術所研究的是在教育理論的指導下,如何有效利用各種信息技術為教學活動提供支持,以達到最優化的教學效果。教學并重是指教與學是相輔相成的統一整體,而且其立足點在學而不在教,因為教育教學活動的根本目的是學生的學習與發展。

第三個啟發是要融合。不僅是教育技術學內部的融合,還有借鑒其他學科的精華,如計算機、心理學和傳播學,才能更好地體現出交叉學科的特點和優勢。舉例來說,目前計算機領域,機器學習和人工智能正在如火如荼的進行,雖然教育技術領域已經在進行虛擬現實和數據挖掘技術的相關研究,但深層次的融合,結合教育教學活動進行落地的嘗試,還需要盡快開展和總結。

篇5

1 前言

隨著中國信息化進程的加速,各行各業每天都產生大量的數據,如何充分利用這些數據,更好地為人類生產和生活更好地服務?數據挖掘是一種不錯的方法,數據挖掘又稱數據庫中的知識發現,是指從數據庫的大量數據中揭示出隱含的、先前未知的并有潛在價值的信息的非平凡過程。知識發現過程由以下三個階段組成:(1)數據準備;(2)數據挖掘;(3)結果表達和解釋。

聚類分析(Cluster Analysis)是一種數據挖掘方法,是根據“物以類聚”的道理,對樣品或指標進行分類的一種多元統計分析方法,它們討論的對象是大量的樣品或數據,要求能合理按各自的特性來進行合理的分類,沒有任何模式可供參考或依循,即是在沒有先驗知識的情況下進行的。目前在文獻中存在大量的聚類算法,算法的選擇取決于數據的類型、聚類的目的和應用。大體上聚類分析主要的算法可以分為:(1)劃分方法;(2)層次的方法;(3)基于密度的方法;(4)基于網格的方法;(5)基于模型的方法。如果聚類分析被用作描述或者探查的工具,可以對同樣的數據嘗試多種算法,以發現數據可能揭示的結果。聚類方法廣泛應用于各行各業。

人口是基礎數據,是制定各項政策的依據。人口區劃根據自然、經濟、人口特征及相應的指標體系,對全國人口分布狀況分區劃片,并提出各區人口發展合理目標及相應的人口政策和措施,為全國和分區人口發展規劃提供科學依據,并為國民經濟計劃和經濟區劃服務。20世紀80年代初,中國學者胡煥庸根據自然地理特征、人口密度、人口自然增長、人口遷移、耕地、糧食產量、勞動力等指標,將中國劃分為人口區,即:黃河下游區,遼吉黑區,長江中下游區,東南沿海區,晉陜甘寧區,川黔滇區,蒙新區,青藏區。隨著中國經濟的迅猛發展人口分布呈現出許多新的特征,為了適應新的趨勢,有必要重新定位和再研究。

2 數據與方法

2.1 數據來源與指標選擇

本研究的數據采用2011年全國31個省及直轄市的統計數據,人口數據來源于《中國人口統計年鑒》,各省人均可支配收入來源于經濟信息網。因研究的是各省的人口及經濟指標聚類,研究區域很大,信息粒度較大,因此選擇了有代表性的綜合性人口數據指標,人口(總量)、人口密度、人口自然增長率、第六次人口普查數據、人均可支配收入、人均GDP、遷移數據。其中人口自然增長率為(人口出生率-人口死亡率)/人口均值*1000%,遷移數據=第六次人口普查數據-人口(常住人口)。各省及直轄市的基礎數據如表1所示。

2.2 聚類分析原理

3.2 二維聚類

以人均GDP和人口自然增長率進行聚類,數據進行標準化處理后,得到的結果有五類,如表5如示。

從以上聚類結果看,第一類是沿海地區,經濟較為發達,人口增長正常;而第二類內陸地區,人均GDP較低,人口自然增長優率較為正常;第三類為東北三省,人均GDP中等,人口增長率低;第四類為人均GDP高,為三個直轄市;第五類為人均GDP低,而且人口增長快的區域。

3.3 多維聚類

多維聚類時,采用K均值法進行聚類,得到的聚類結果如表6。

根據多維數據聚類,共分為六類,其中第一類屬于人口少,但較為富裕的北京和上海,而第六類為天津,自成一類,主要是流動人口及可支配收入較第一類差一些;第四類為經濟發達的廣東、江蘇和浙江;第二類為經濟較好,人均收入中等,流動人口較少的地區;第五類為經濟欠發達,人口保持較高增長率的省份;第三類則是大部分的內陸地區。

4 結論與討論

本文通過采用聚類分析的手段分析全國31個省市人口的發展規律,揭示了不同省市在人口發展之間的相似性和差異性,研究得出合理聚類結果,為政府和各職能部門在制定人口及各項地方性經濟發展政策提供依據。

聚類分析結果表明,一維、二維和多維聚類分析方法有各自的典型特征有用途。一維聚類分析簡潔地表明各省人口自然分布規律,可為國家對不同各省份的人口政策提供科學依據;二維聚類分析直接反應了不同省份人口與經濟等指標的相互關系,如論文中對人均GDP和人口自然增長率的二維聚類分析,分類結果合理的體現了當前我國各省經濟發展與人口特征。多維聚類分析方法適用于對各省綜合分類,論文中采用了與人口有關的5個指標進行的多維聚類分析,分類結果有較強的綜合性,與當前各省公眾認識的綜合分類一致。

解決了傳統的經驗分類方法導致的客觀性缺乏等問題。為人口的分類管理實踐提供了理論依據和技術手段。

(本論文為院級大學生實踐創新訓練計劃項目2011XYCXXL14資助項目)

參考文獻:

[1] Jiawei Han,Micheline Kambe.數據挖掘概念與技術[M].北京:機械工業出版社,2012.

[2] 陳志泊.數據倉庫與數據挖[M].北京:清華大學出版社,2009.

[3] 陸學藝.可持續發展實驗區發展歷程回顧與建議[J].中國人口資源與環境,2007,17(3):1-2.

篇6

1.問題及背景

世界農業的發展歷史已經證明:農業機械化是建設現代農業的必然過程,是農業現代化不可逾越的階段。農業的機械化程度是衡量一個地區農業發展水平的一個重要指標,而不同地區的機械化水平又是不平衡的,以往對農業機械化水平的研究只是停留在對各地農用機械的絕對擁有量的描述上的,《2005年江蘇省農業機械化管理統計分析江蘇農機化論文》【1】只給出了絕對的統計數據并簡單的編制了一些指數,各地區的差異從中表現的并不很明顯。本文擬采用因子分析和聚類分析兩種方法對吉林省9個地市2005年和2009的農業機械化水平進行排名分類研究。

表1 吉林省農業機械總量及增長率

 

年份

農用機械總動力(萬千瓦)

大中型農用拖拉機(臺)

農用小型及手扶拖拉機(臺)

大中型機引農具(部)

農用排灌動力機械(臺)

糧食加工機械(臺)

2005

1471.30

90750

538024

171632

416968

101088

2009

2001

245162

589961

480785

469501

113467

增長率(%)

36.00

170.15

9.65

篇7

一、引言

河北省憑借其區位優勢和國家及省內政策的支持,經濟獲得了持續的高速發展。但伴隨而來的是省內地區間、城鄉之間在經濟增長、生產力分布、生活水平等方面出現了明顯的差距,并且這些差距還有逐步擴大的趨勢。而資本作為一種流動最頻繁、最基本的貨幣化的生產要素,對區域經濟的發展具有重要的影響。要促進一個區域的發展就必須建立一種有效機制,促進資本的合理流動,提高資本利用效率。而如何從資本流動方面實現河北地區的經濟增長就成為當務之急。

資本在地區之間的流動,能夠帶動其他生產要素在各地區之間的有效配置,從而更有力地促進區域的經濟增長。影響區域資金分布的原因有多方面聚類分析,區域經濟基礎差異,存貸款的區域配置以及市場發育不平衡等因素使資本在區域間的流動大多體現為向經濟活躍、資本收益率高的區域流動論文開題報告范例。另一方面政府為縮小區域之間的差距,通過制定經濟發展政策,積極引導資本由經濟發達的區域向經濟落后的區域流動。資本流動的區際流動不僅可以給各地區帶來效益、加強不同發展條件下的區域的相互聯系,而且可以協調區域發展。由此可見,資本作為一種最基本、最重要的生產要素無疑是河北省發展和提高自身造血功能的必然選擇。

二、河北省區域經濟發展差異的聚類分析

對于區域經濟發展差異的分析,本文側重于對河北省現狀的研究,故在研究過程中選取2009年為當前時間節點,對河北省各市的經濟發展水平進行橫向比較,從而獲得當前的河北省區域經濟差異的空間分布特征。研究方法是首先選擇能夠綜合評價河北省經濟發展水平差異的指標,運用因子分析提取公因子,最終得出各市的因子得分,在此基礎上根據因子得分進行聚類分析。

1、因子分析

因子分析法旨在減少分析指標的同時,盡量減少原指標所包含信息的流失,對所搜集的資料做全面的分析。由第一部分分析可知,固定資產投資額、政府財政補貼、銀行存貸款情況均與當地的經濟增長密切相關。據此選擇的描述經濟發展水平的指標有GDP、人均GDP、固定資產投資額、人均固定資產投資額、地方財政一般預算內收入、人均地方財政一般預算內收入、地方財政一般預算內支出、人均地方財政一般預算內支出、外商實際投資額、城鄉居民年末人均儲蓄存款余額、年末金融機構貸款余額。根據2010年《河北經濟年鑒》以上各指標的數據聚類分析,將各變量標準化,然后運用SPSS18.0統計軟件進行因子分析,最終提取出兩個公因子,旋轉后的因子載荷陣中可以看出兩個公因子可歸結為經濟規模因子和人均水平因子。根據因子得分系數矩陣和原始變量的標準化值就可以計算每個觀測值的各因子得分,具體得分如表1。

表1河北省區域經濟發展總體發展水平綜合得分

 

城市

公因子1得分

公因子2得分

合計

排名

唐山市

1.636

1.551

3.190

1

石家莊

1.790

-0.192

1.600

2

廊坊市

-0.306

0.893

0.590

3

秦皇島市

-0.929

1.362

0.430

4

邯鄲市

0.525

-0.705

-0.180

5

承德市

-1.043

0.596

-0.450

6

張家口市

-0.829

0.353

-0.480

7

滄州市

-0.010

-0.659

-0.670

8

保定市

0.401

-1.280

-0.880

9

邢臺市

-0.308

-1.036

-1.340

10

衡水市

-0.926

篇8

1 引言

新技術的產生可以導致一系列相關的新產品問世,對人們的生活、企業的發展乃至社會經濟產生巨大的推動作用。在某一新技術尚未完全成熟之際,必定會有很多企業圍繞這一技術不斷進行改進和完善,并申請相關專利技術進行保護。因此,未來主流市場中的主流技術在專利文獻中有量的征兆,可以通過對專利數據的定量分析來進行技術熱點的監測。

當前利用專利文獻進行技術熱點監測的方法主要有兩種:①通過對具有技術含義的專利著錄項,如專利IPC分類號的數量變化來監測技術熱點;②利用文本挖掘技術,從專利文獻中抽取技術關鍵詞進行詞頻統計、聚類分析來監測技術熱點。在學術領域,學者們基于專利分類號對某個時間點或時間段的技術熱點進行了探索。袁冰等指出,通過分析專利涉及的所有IPC分類號,以及這些IPC分類號下分別包括的專利數量,就能夠獲知整個區域的技術構成情況以及該區域內市場經營主體關注的技術熱點。王燕玲認為,將不同主體的1PC分類按時間分布并加以比較,可發現不同主體的IPC變化過程,是一個從創新主體角度研究技術領域熱點變化的主要方法。左鳳茹對水電行業中世界著名企業的專利申請量按IPC分類號進行統計后,指出目前水電沒備的研究熱點。欒春娟等認為,經過德溫特技術人員標引的“德溫特指南代碼”(Derwent Manual Codes),對研究專利的技術領域分布更具指導意義,她們利用德溫特指南代碼,陸續對基因工程、3G技術、生物技術、電動汽車領域進行了技術熱點分析。在技術實踐領域,主流的專利分析軟件如Thomson Data Analyzer(TDA)、Aureka、HIT-恒庫等正是基于上述原理,實現了從批量專利文獻中抽取專利分類號或技術特征詞匯進行統計、聚類分析的功能,并用可視化的方式展示分析結果,生成相應的專利地圖,進行技術熱點監測。以Aureka為例,它提供了ThemeSeape地形圖功能,以分析的專利樣本為基礎,對其中相關詞匯的詞頻應用聚類分析生成主題(詞匯)地形圖,以此來描述專利技術熱點的分布情況。

但是,由于IPC的分類原則是將同一技術主題歸在同一分類位置,使之具有相同的分類號,即側重于對單一技術主題進行分類,而且IPC將專利要求的技術主題作為一個整體來分類,而不是對其各個組成部分分別進行分類,因此分類不徹底,也造成分類不夠細,某個分類號下存在大量文獻。這樣一來,基于IPC分類號的技術熱點難免存在偏差,且比較宏觀,難以反映企業關注的微觀技術熱點變化,更難以揭示技術日新月異的變化和發展。而利用模式匹配、規則基礎和自然語言處理技術直接從專利文本中抽取詞和詞組進行統計或聚類分析,雖然相對比較精確和具體,但也存在著一些相關陛較高的詞組或短語,因為出現過于頻繁而容易被軟件分析系統自動剔除,造成分析的誤差。因此,如何提高基于專利文獻技術熱點監測的準確性,如何利用專利引文所承載的技術關聯信息進行獲取和關聯挖掘,如何對已有的宏觀技術熱點和微觀技術熱點監測進行補充,是本文研究的主要問題。

2 基于專利引證的技術熱點監測方法

2.1 專利引文的技術情報價值

專利對先有技術(prior art)和科學論文的引用是科學和技術發展規律的表現,它體現了科學和技術的累積性、連續性和繼承性,也體現了不同學科、不同研究層次之間的交叉、滲透。大多數發明不是“無中生有”的,一般發明人在進行發明創造活動時,會參考具有相同發明目的的先有技術的發明創造內容和發明人所熟知的先有技術。另外,專利審查員審查專利文件時常會將被審查的專利與主題相近的先有技術相比較,這兩種方式導致了專利引文的出現。Arehibugi和Pianta指出,專利引文數據廣泛地提供了具體技術領域某一技術發明的相關技術信息。

1965年,普賴斯創造性地研究了科學論文之間的施引與被引證關系,以及由此形成的所謂“引證網絡”。專利引證網絡是將文獻計量引證網絡的對象從科技論文到專利文獻的直接延伸,通過繪制專利引證關系圖來考察互相引證的專利的關聯程度和技術相互間的影響,尋找最早被引證的專利文獻,洞悉專利的繼承性和發展歷程。專利與其引證論文或引證專利密切相關,反映了相同或相近的技術創新,這種相關性是由技術本身的傳承和發展而形成的。據此,利用各種數學以及統計學的方法對專利與專利之間的施引和被引現象進行比較、歸納、抽象判斷,以探索其數量特征及內在價值,專利引文分析也具有重要的技術競爭情報價值。

2.2 基于專利引證進行技術熱點監測方面的實踐應用

借助專利與專利間的引用與被引用關系,不僅可以揭示出專利的理論、技術起源,而且可以對技術領域中的技術前沿和技術熱點進行追蹤。Mogee等利用專利同被引(patent co-cltation)對2808條Eli Lilly公司的專利數據進行聚類分析,識別該公司的核心專利技術和技術熱點群組,發現主要的技術熱點(teehnolo-gy fronts)。孫濤濤等基于專利耦合關系,指出同時引用相同基礎技術專利簇的另一個專利簇(base tech-nology)可以構成技術熱點。尹麗春等將文獻計量學中的共被引方法應用到專利文獻的研究中,對在我國申請的數字信息傳輸領域中的專利技術前沿問題進行探討。

目前市場上各種專業的商業化專利分析軟件(如法國IMCS的Matheo Analyzer、美國湯森路透旗下的Aureka、Innovation和Delphion、中國恒和頓的HIT-恒庫等)幾乎都有繪制引證網絡圖的功能,利于追溯目標技術的起源和發展。但是這些軟件工具無法利用專利文獻中的同被引或耦合技術,借助可視化關系揭示技術前沿或者技術熱點。

2.3 基于專利引證的技術熱點監測方法設計

研究首先通過基于“關鍵詞+專利引文”的檢索策略,從專利數據庫中檢索、下載研究主題范圍內的原始專利數據,構建本地專利專題數據庫;其次,按照分析需要對本地原始專利數據進行拙取,將專利號、題名、發明人等專利著錄項從專利文獻中抽取出來,完成數據預處理;再次,分別利用專利耦合聚類和具體概念詞聚類,實現由淺至深、由粗到細的技術熱點監測。具體實施流程如圖l所示:

值得注意的是,為了構建準確、有效的專題數據集-進行分析,專利數據檢索至關重要。在專利數據采集的過程中,首先采用關鍵詞試檢,從試檢結果中尋找相

應表達的同義或近義詞,擴充、調整檢索策略,力求保證關鍵詞的全面性與準確性,構建初始專利數據集。然后對初始專利數據集中的專利進行被引頻次排序,遴選25-50個高被引專利作為種子專利,并請領域專家對種子專利進行判讀。如果專家認為研究領域的種子專利不準確,則需要重新回到第一步,調整檢索策略進行數據檢索。

此外,在利用專利耦合進行技術監測的過程中,要注意設定合適的專利耦合閾值,閾值過大或過小都會影響耦合矩陣的構建,從而影響耦合技術熱點的聚類。同時,那些低于耦合閾值的專利內容相對分散,較難形成熱點,應該予以舍棄。

2.3.1 基于專利引證的技術領域數據集構建 利用專利引文和專利引文索引能識別那些用其他方式不能識別的專利之間的關系,而且這些關系往往可以使相關信息的檢索變得迅速。正如Garfield E所言,除了專利引文和專利引文索引,現在尚無一種更加有效的工具可以確定某一專利所透露的技術是如何被改動、完善和利用的。馬海群指出,引用檢索作為傳統專利情報檢索方式(如分類或主題檢索)的重要補充,可以有效地提高專利檢索的查準率和查全率。借助專利與專利間的引用與被引用關系,本文提出“關鍵詞+專利引文”的技術領域專利文獻數據集構建方法,獲得同一批技術專利技術起源的所有相關專利數據,提升檢索效率、增強資料的搜集性及準確性,具體步驟如下:①與領域專家討論,確定相關檢索技術關鍵詞,確定檢索式進行關鍵詞檢索;②根據初檢結果,構建與專題技術相關的初始專利數據集;③遴選TOP25-TOP50高被引專利作為該技術領域的種子專利;④檢索引證種子專利的專利(citing patent)及其被引專利(cited patent),構建專題技術數據集。

通過上述步驟,構建待分析的技術專題數據集,其專利引證關系如圖2所示:

2.3.2 技術熱點監測方法文獻中的間接關聯包括文獻耦合和同被引兩種,都能用來確定研究熱點(re-search fronts)。正如Persson和Morris。所言,耦合論文可以反映“研究熱點”的知識結構,同被引論文則提供了一種知識基礎(intellectual base)的知識結構。Glanzel指出論文從發表到被引用期問有一個明顯的時滯,用同被引來映射學科結構存在時差,而耦合分析則可以實時地反映學科最新的動態變化。Van denBesselaar P等也指出,耦合測度的是源文獻之間的關系,同被引測度的是被引文獻之間的關系。前者是基于有意識的行為,即著者有意地將兩篇文獻聯系起來,而后者僅是兩篇文獻出現之后的偶然關聯。因此,文獻耦合更適于最新研究主題的揭示。

為了在基于IPC分類號的宏觀技術熱點和基于詞的微觀技術熱點中找到一個較好的平衡點,本文首先利用專利之間的耦合關系獲得耦合專利簇,形成中觀層面上的技術熱點?技術熱點交由領域專家識別,為其命名。其次,引入時間軸的概念,對耦合聚類實現的技術熱點發展趨勢進行分析,幫助技術決策者了解每個技術熱點隨時間的發展變化情況。再次,利用自然語言處理技術,從技術熱點的專利文本中抽取詞和詞組進行統汁和聚類分析,獲得以概念詞為表征的技術熱點,輔助技術決策。

3 實證研究

3.1 數據集的構建

本文采川基于專利引證的方法構建技術領域專題數據集。研究以DVD領域激光頭技術為例,經與領域專家討論,將optical head、pickup和pick up確定為檢索關鍵詞,從美國專利商標局(USPTO)文摘庫中檢索1995-2004年1O年間的專利數據,檢索出1934個專利構建DVD激光頭技術領域初始專利數據集。從巾遴選TOP25高被引專利作為該技術領域的種子專利。從USPT0數據庫中檢索出種子專利的729個施引專利(citing patent),去重后得到515個。上述515個專利又引用了3397個(去重后)被引專利(cited patent)。分別將上述數據下載到本地,構建專題數據庫,作為本次研究的分析對象。

3.2 基于專利耦合的技術熱點分析

研究首先將515個專利和3397個被引專利的專利號(patent number)、題名(title)、授權日期(issuedate)、專利權人(assignee)、技術分類號(IPC)從數據集中抽取出來,為后續分析做準備。然后將研究的耦合閾值確定為4,對原始數據集中的515個專利進行篩選,舍棄專利耦合強度少于4的那部分專利,得到272個專利作進一步的分析。

其次,根據專利之間的引證關系,生成專利初始引證矩陣。這是個典型的二值矩陣,即矩陣中所有的元素取值均為0或者1,如果兩個專利之間存在著引證關系,即取值為1;如果兩個專利之間不存在引證關系,即取值為0。本例中的研究對象有272個專利,需要生成272×272的矩陣,由于文章篇幅限制,略去原始的272×272矩陣。專利初始引證矩陣是一個不對稱矩陣,根據初始引證矩陣轉換成對稱的專利耦合矩陣。

再次,采用層次聚類法對專利單元樣本進行聚類分析。聚類的過程是:先將n維專利耦合矩陣轉換成n維的相似矩陣,然后根據一定的聚類算法把分析對象分成類群。在選擇相似性(similarity)測度方法時,本文采用了Dice相關系數來對耦合距陣進行標準化處理,采用離差平方和法(ward’s method)計算類間距離。上述步驟用Matlab提供的statistics toolbox工具,選擇層次聚類方法實現,將耦合強度大于4的專利聚成了10個小類的專利簇,得到10個技術熱點,并通過領域專家幫助,給每個技術子主題命名。

最后,繪制各技術熱點的發展演變圖,考察技術熱點在10年間的發展變化。從DVD激光頭技術各個子技術主題在10年間(1995-2004年)的發展趨勢來看,大部分子技術主題在1997-2002年處于上升階段,隨后縮量發展,從一個側面說明激光頭技術整體而言已經相對成熟,自2003年始發明創新逐漸減少。其中,生命力最為旺盛的是技術熱點4――光記錄設備,從1997年至2004年不斷有新技術發明問世。DVD激光頭技術10個熱點的發展演變如圖3所示:

3.3 基于詞聚類的技術熱點分析

為了考察光記錄設備這一技術熱點的具體情況,隨后將光記錄設備的87條專利數據導入Patentics專利檢索分析平臺,進行概念聚類分析,得到10組概念索引詞,表征光記錄設備的詳細技術熱點,見表1。

其中,關于物鏡的專利占了該技術熱點的1/4,其次為光度頭和激光束。在這些子技術熱點中,日立、松下電工、富士施樂、日本電氣等日本企業在光度頭中表現突出,日立、富士施樂、希捷等企業在激光束中有較大的技術優勢。

4 研究結論

篇9

近年來遼寧沿海經濟帶作為環渤海經濟圈整體開發的重要組成部分,經濟產生了飛速的發展,隨著經濟全球化進程的加快促使客運量和貨運量的快速增加,現代物流業已經成為了遼寧省的支柱產業,港口作為客運和貨運的最佳途徑在社會經濟發展中的作用日益凸顯,必然使得港口物流成為了發展現代物流業的重中之重。為了加快遼寧省港口物流的發展,提高港口物流效率,保持港口的持續性競爭優勢,就需要將各港口進行橫向的比較了解其地域差異,從而有針對性的提高遼寧沿海港口物流的效率 [1-2]。

1 研究方法

1.1 聚類分析方法與步驟

聚類分析[3](Cluster Analysis),亦稱群分析或點群分析,它是研究多要素事物分類問題的數量方法。在根據對象間的關聯程度進行聚類分析時,有些類別是屬于隱藏狀態的,聚類分析之前并不知道具體能夠分為幾種類別,因此要根據樣本自身的屬性,用數學方法按照某種相似性或差異性指標,定量地確定樣本之間的親疏關系,并按這種親疏關系程度對樣本進行聚類。在聚類分析中,聚類要素的選擇直接影響著分類結果的可靠性。

對聚類要素進行數據處理。假設有m個聚類的對象,每一個聚類對象都有x1…,x2,…xn個要素構成。在聚類分析中,常用的聚類要素的數據處理方法有總和標準化、標準差標準化、極大值標準化和極差標準化。

距離的計算。距離是系統聚類分析的依據和基礎,選擇不同的距離,則會使聚類結果產生差異,在地理分區和分類研究中,往往采用絕對值距離、歐式距離、明科夫斯基距離以及切比雪夫距離進行計算、對比,選擇一種較為合適的距離進行聚類。

利用計算和程序進行聚類。聚類分析的方法主要有直接聚類法、最短距離聚類法、、最遠距離聚類法、中線法、重心法、組平均法、距離平方和法、可變數平均法、可變法[3]這九種系統聚類分析方法。

1.2 指標選取

“十一五”以來,遼寧沿海港口集裝箱吞吐量雖然呈大幅度上升趨勢,但是與全國其他主要港口相比,其總體增長幅度處于全國中等水平,2000年全省港口集裝箱吞吐量為122萬TEU,2005年達到368.9萬TEU,2010年僅大連港就達到526.2萬TEU,而上海港達到2906.9萬TEU、深圳港2250.97萬TEU、寧波-舟山港1314.4萬TEU、青島港1201萬TEU、天津港1000萬TEU,是大連港的2-2.5倍。為了進一步了解遼寧沿海港口群各主要港口的差異情況,有必要從空間的角度來分析遼寧省沿海港口群的發展狀況。遼寧港口承擔了東北地區70%以上的海運貨物,80%以上的外貿物資和90%以上的外貿集裝箱運輸[4-5]。根據交通運輸部的統計數據,提取2010年1月份至10月份的遼寧主要港口企業內、外貿集裝箱吞吐量作為聚類分析的指標,從而對遼寧沿海港口物流的地域差異進行研究。

2 遼寧沿海港口物流的地域差異研究分析

在SPSS中,根據聚類的過程不同聚類方法主要分為三種:分層聚類法(Hierarchical Cluster)、K-均值聚類(K-Means Cluster)和兩步聚類(Two Step Cluster),本文選擇SPSS中的分層聚類法(Hierarchical Cluster)對遼寧沿海港口物流進行地域差異的分析。分層聚類分析又稱系統聚類分析,是聚類分析中最常用的方法,將關系密切與關系疏遠的分別聚合,直到把遼寧沿海的所有港口聚合成唯一的類別為止。首先,對原始指標數據進行處理,這里利用標準差標準化的對原始數據進行轉換,同時進行相似性與距離測度,然后對標準化后的數據進行聚類分析[6]。

用SPSS完成聚類運算各步驟之后,得出聚類分析結果的層次聚類樹形圖(如圖1所示),由圖可以看出,可將7個港口企業集裝箱碼頭分為三類,第一類包括(2,3);第二類包括(5,6);第三類包括(1,4,7)。從這個分類結果可以看出,大連集裝箱碼頭有限公司和大連港灣集裝箱碼頭有限公司競爭力最強,港口物流發展最快,營口集裝箱碼頭有限公司和營口新世紀集裝箱碼頭有限公司其次,丹東港集團集裝箱公司、錦州新時代集裝箱碼頭有限公司以及大連國際集裝箱碼頭有限公司發展相對較弱。這基本合遼寧港口物流發展的現狀,遼東半島以大連港作為集裝箱干線港的主要樞紐港,營口港、丹東港、錦州港等為支線港[7]。地處東北亞經濟發展圈中心的大連港,具有極其優越的發展區位,并且根據交通運輸部的統計,大連港在2010年我國沿海港口貨物吞吐量排名第六,營口排名第十,但是國際集裝箱運輸相對薄弱一些,2010年全年有六個月份以上在全國港口國際標準集裝箱吞吐量排名第八,營口港除4月、5月、6月三個月份排名第十之外,其余都未上榜,說明還需要加強國際標準集裝箱方面的發展。

3 結語

本研究提出通過采用聚類分析的方法來研究港口物流地域差異的問題,建立相應的數學模型并進行實際比較,所得比較結果有一定的說服力,對提高遼寧省港口物流發展以及相關政策的規定和執行有一定的參考價值。

參考文獻:

[1]李學工,楊賀.現代港口物流產業組織的空間布局.水運管理[J].2007(2).

[2]劉.環渤海港口競爭力的地域差異分析及因果研究[D].研究生碩士學位論文,2009.

[3]徐建華.現代地理學中的數學方法[M].高等教育,2009.

[4]戚馨,韓增林.遼寧省主要港口物流效率分析[J].港口物流,2007(10).

篇10

Key words: colleges and universities;research status;factor analysis;cluster analysis;evaluate

中圖分類號:G463 文獻標識碼:A 文章編號:1006-4311(2016)31-0015-04

0 引言

科研能力是衡量一所高校科教水平的重要標志。某高校作為省重點高校有著悠久的辦學歷史,科研水平在省內也是名列前茅,本文針對該高校20個學院的各項科研指標進行多元統計分析,建立了描述科研水平的各類變量,包括各類科研項目的經費總額、各類論文的發表數量、論著發表數量,投入科研人員數量等。但由于各學院規模不一,各學院科研性質也不盡相同,為了保證研究結果的平衡性,本文采用對科研成果人均貢獻率的方式進行研究。然而進行統計分析時,并非變量收集的越多越有利,變量間信息的高度相關、高度重疊會給統計方法的應用帶來許多困難,因此本文借助SPSS統計分析軟件,采用因子分析方法,在眾多變量中提取影響各學院科研狀況的主要因子對問題進行分析,最后通過因子變量的聚類分析對評價結果進行驗證。國內學者目前主要集中對我國體育事業進行科研狀況分析,如賈志強、鄭巖平對我國1995-2000年籃球科研狀況作了分析。張金、夏秀榮對我國1994-2003年排球科研狀況作了分析。在高校科研狀況分析方面,孟學英、陳春華利用調查問卷方式對我國部分高職院校教師科研狀況做了調查分析。同時國內對多元統計方法的應用也主要集中在醫療、經濟方面,如孟瑩、謝守祥等利用多元統計分析方法對江蘇省經濟差異化做了分析。王曦、宋劍南利用多元統計分析方法對影響中醫癥候的主要因素做了研究。利用多元統計分析方法結合高效科研狀況評價分析還鮮有研究。本文結合多元統計分析分析方法對某高校科學地建立高校科研業績的管理體系及評價體系提供了理論依據。

1 因子分析方法簡介

因子分析是利用降維的思想,由研究原始變量相關矩陣內部的依賴關系出發,把一些具有錯綜復雜關系的變量歸結為少數幾個綜合因子的一種多變量統計分析方法。因子分析的基本思想是根據相關性大小把原始變量分組,使得同組內的變量之間相關性較高,而不同組的變量之間的相關性則較低。每組變量代表一個基本結構,并用一個不可觀測的綜合變量表示,這個基本結構就稱為公共因子。對于所研究問題的某一具體問題,原始變量可以分解成兩部分之和的形式,一部分是少數幾個不可測的所謂公共因子的線性函數,另一部分是與公共因子無關的特殊因子。進行因子分析的步驟如下:①根據研究問題選取原始變量。②對原始變量進行標準化并求其相關陣,分析變量之間的相關性。③求解初始公共因子及因子載荷矩陣。④因子旋轉。⑤因子得分。⑥根據因子得分值進行進一步分析。

2 各學院科研狀況的因子分析

2.1 數據分析和指標選取

本文選用的數據來源于某高校2006年至2015年的統計數據。設定數據中8個指標變量分別是X1:2006-2015年橫向項目金額人均貢獻率(萬元/人);X2:2006-2015年市校級項目金額人均貢獻率(萬元/人);X3:2006-2015年省部級項目金額人均貢獻率(萬元/人);X4:2006-2015年國家級項目金額人均貢獻率(萬元/人);X5:A類論文人均貢獻率(篇/人);X6:B類論文人均貢獻率(篇/人);X7:C類論文人均貢獻率(篇/人);X8:論著數量人均貢獻率(項/人)。數據詳情見表1。

在進行數據分析前,進行KMO檢驗,P值為0.000,檢驗結果是顯著的,同時KMO值達到0.577,結果見表2,表明數據之間具有一定的相關性,可進行因子分析。

從表3變量共同度表中可以看出因子分析的變量共同度均較高,表明變量中的大部分信息均被因子所提取,說明因子分析的結果是有效的。

2.2 因子提取和因子解釋

現應用主成分分析法來進行因子提取和因子個數的確定,從表4中可以看出只有前三個因子特征根大于1,并且前三個因子特征值之和接近80%,故提取前三個因子基本包含了全部測評指標的絕大部分信息,因子分析效果較理想。

由于初始載荷陣結構不夠清晰,不便于對因子進行解釋,因此對因子載荷矩陣實行旋轉,達到簡化結構的目的,使各變量在某些因子上有較高載荷,而在其余因子上只有小到中等的載荷。這里采用方差最大正交旋轉法進行因子旋轉。結果見表5。

從旋轉后的因子載荷矩陣來看,第一個主因子在省部級項目金額人均貢獻率、國家級項目金額人均貢獻率、A類論文人均貢獻率、B類論文人均貢獻率上具有較高載荷,第二個主因子在C類論文人均貢獻率、論著數量人均貢獻率上具有較高載荷,第三個主因子在橫向項目金額人均貢獻率、市校級項目金額人均貢獻率上具有較高載荷。

2.3 因子得分和因子變量

本文采用回歸法估計因子得分系數,并輸出因子得分系數矩陣見表6。

根據表6可寫出以下因子得分函數:F1=-0.014橫向項目金額人均貢獻率-0.078市校級項目金額人均貢獻率+0.263省部級項目金額人均貢獻率+0.293國家級項目金額人均貢獻率+0.178A類論文人均貢獻率+0.508B類論文人均貢獻率+0.021C類論文人均貢獻率+0.174論著人均貢獻率(1);F2=-0.159橫向項目金額人均貢獻率+0.065市校級項目金額人均貢獻率+0.00省部級項目金額人均貢獻率-0.057國家級項目金額人均貢獻率-0.235A類論文人均貢獻率+0.393B類論文人均貢獻率+0.328C類論文人均貢獻率+0.570論著人均貢獻率(2);F3=0.442橫向項目金額人均貢獻率+0.582市校級項目金額人均貢獻率+0.123省部級項目金額人均貢獻率+0.010國家級項目金額人均貢獻率-0.076A類論文人均貢獻率-0.219B類論文人均貢獻率+0.384C類論文人均貢獻率-0.010論著人均貢獻率(3)

通過上述公式(1)、公式(2)和公式(3)可得到各個學院的因子得分。從而獲得三個因子變量,由于這三個因子變量是線性無關的。因此,可以利用它們對各個學院的科研狀況做統計分析。

3 各學院科研狀況的綜合評價分析

下面利用三個因子變量對2006年-2015年該高校各學院科研狀況做多元統計分析,并對各學院近10年來科研狀況進行綜合評價。

首先畫出三因子變量的散點圖,對各學院近10年來科研狀況做對比分析。以第一因子變量為橫坐標,第二因子變量為縱坐標,第三因子變量為豎坐標的三維散點圖如圖1所示。

從圖1中可以看出P學院、O學院、M學院等的第一因子很高。說明這些學院在國家級項目人均貢獻率、省部級項目人均貢獻率、A類論文人均貢獻率、B類論文人均貢獻率上成績突出,但在橫向項目人均貢獻率上稍顯不足,這些學院應該在保持尖端學術科研的前提下,多加強與企業的合作,創造更多產業應用成果。L學院、R學院、N學院等的第二因子很高,說明這些學院在論著人均貢獻率、C類論文人均貢獻率上成績突出,這與這些學院的科研性質是密不可分的,第二因子很高的學院可以在保持自己科研特色的前提下,多關注學術前沿的相關信息,爭取在尖端科研中有更大的突破。如B學院、I學院等的第三因子很高,說明這些學院在橫向項目人均貢獻率上成績突出,這些學院可以在緊密保持與企業的科研聯系的基礎上,加強自己在學科特色科研中的研究,多出一些基礎研究方面的尖端科研學術成果,增強學院在科研創新中的能力。

最后利用系統聚類分析法對各學院科研狀況進行聚類分析,即利用三因子變量對20個學院進行聚類,結果如表7所示,M學院、P學院、O學院和J學院為一類,B學院、I學院為一類,其它學院為一類。這個結果與散點圖分析的情況基本類似。

4 結束語

本文針對某高校各學院科研狀況進行綜合評價分析,通過對高校近十年科研指標數據進行因子分析,將八個指標變量分為三個科研因子,分別是高端科研因子、校企合作科研因子、基礎科研因子,并給出了因子得分模型,對各學院近十年的科研狀況給出了分析,最終的聚類分析結果也對各學院科研狀況做了驗證說明。論文的研究成果為科學地建立高校科研業績的管理體系及評價體系提供了理論依據。

從分析結果來看,因學院科研特色不同,導致各個學院在學術科研這個萬花筒中所扮演的角色也各不相同,但各學院之間還是應當加強科研合作,取他人之長補己之短,這樣才能為該高校向科研大校、科研強校的進軍道路上打下堅實的基礎。

參考文獻:

[1]薛薇.SPSS 統計分析方法及應用[M].二版.北京:電子工業出版社,2006:303-349.

[2]張文彤.SPSS11統計分析教程―高級篇[M].北京:北京希望電子出版社,2002:166-210.

[3]李衛東.應用多元統計分析[M].北京:北京大學出版社,2008:226-240.

[4]閻慈琳.關于主成分分析做綜合評價的若干問題[J].數理統計與管理,1998(2):22-24.

[5]胡永宏,賀思輝.綜合評價方法[M].北京:經濟科學出版社, 2000.

篇11

Cluster Anlaysis Methods of Data Mining

HUANG Li-wen

(School of Science, Quanzhou Normal University, Quanzhou 362000, China)

Abstract: Cluster analysis is one of the important methods of multivariate statistical analysis, and this method has a wide range of applications in many fields. In this paper, the classification of the cluster is introduced briefly, and then gives some common methods of cluster analysis and the advantages and disadvantages of these methods,and these clustering method were compared and anslyzed so that people can chose suitable clustering methods according to the actual issues.

Key words: Cluster Analysis; Data Mining?

1 引言

聚類分析是數據挖掘中的重要方法之一,它把一個沒有類別標記的樣本集按某種準則劃分成若干個子類,使相似的樣品盡可能歸為一類,而不相似的樣品盡量劃分到不同的類中。目前,該方法已經被廣泛地應用于生物、氣候學、經濟學和遙感等許多領域,其目的在于區別不同事物并認識事物間的相似性。因此,聚類分析的研究具有重要的意義。

本文主要介紹常用的一些聚類方法,并從聚類的可伸縮性、類的形狀識別、抗“噪聲”能力、處理高維能力和算法效率五個方面對其進行比較分析,以便人們根據實際的問題選擇合適的聚類方法。

2 聚類的分類

聚類分析給人們提供了豐富多彩的分類方法,這些方法大致可歸納為以下幾種[1,2,3,4]:劃分方法、層次方法、基于密度的聚類方法、基于網格的聚類方法和基于模型的聚類方法。

2.1 劃分法(partitionging methods)

給定一個含有n個對象(或元組)的數據庫,采用一個劃分方法構建數據的k個劃分,每個劃分表示一個聚簇,且k≤n。在聚類的過程中,需預先給定劃分的數目k,并初始化k個劃分,然后采用迭代的方法進行改進劃分,使得在同一類中的對象之間盡可能地相似,而不同類的中的對象之間盡可能地相異。這種聚類方法適用于中小數據集,對大規模的數據集進行聚類時需要作進一步的改進。

2.2 層次法(hietarchical methods)

層次法對給定數據對象集合按層次進行分解,分解的結果形成一顆以數據子集為節點的聚類樹,它表明類與類之間的相互關系。根據層次分解是自低向上還是自頂向下,可分為凝聚聚類法和分解聚類法:凝聚聚類法的主要思想是將每個對象作為一個單獨的一個類,然后相繼地合并相近的對象和類,直到所有的類合并為一個,或者符合預先給定的終止條件;分裂聚類法的主要思想是將所有的對象置于一個簇中,在迭代的每一步中,一個簇被分裂為更小的簇,直到最終每個對象在單獨的一個簇中,或者符合預先給定的終止條件。在層次聚類法中,當數據對象集很大,且劃分的類別數較少時,其速度較快,但是,該方法常常有這樣的缺點:一個步驟(合并或分裂)完成,它就不能被取消,也就是說,開始錯分的對象,以后無法再改變,從而使錯分的對象不斷增加,影響聚類的精度,此外,其抗“噪聲”的能力也較弱,但是若把層次聚類和其他的聚類技術集成,形成多階段聚類,聚類的效果有很大的提高。

2.3 基于密度的方法(density-based methods)

該方法的主要思想是只要臨近區域的密度(對象或數據點的數目)超過某個閾值,就繼續聚類。也就是說,對于給定的每個數據點,在一個給定范圍的區域中必須至少包含某個數目的點。這樣的方法就可以用來濾處"噪聲"孤立點數據,發現任意形狀的簇。

2.4 基于網格的方法(grid-based methods)

這種方法是把對象空間量化為有限數目的單元,形成一個網格結構。所有的聚類操作都在這個網格結構上進行。用這種方法進行聚類處理速度很快,其處理時間獨立于數據對象的數目,只與量化空間中每一維的單元數目有關。

2.5 基于模型的方法(model-based method)

基于模型的方法為每個簇假定一個模型,尋找數據對給定模型的最佳擬合。該方法經常基于這樣的假設:數據是根據潛在的概率分布生成的。該方法主要有兩類:統計學方法和神經網絡方法。

3 常用的聚類算法

目前,已經提出的聚類算法很多,常用的聚類算法主要有以下幾種:系統聚類法、動態聚類法、CLARANS、CURE、DBSCAN、STING和模糊聚類法(FCM)。

3.1 系統聚類法

系統聚類法[5]是將n個樣品看成n類,即一類包含一個樣品;然后將性質最接近的兩類合并成一個新類,這樣就得到n-1類,再從這n-1類中找出性質最接近的兩類加以合并,成了n-2類;如此下去,最后所有的樣品均成一類;將上述類的合并過程畫成一張圖(這圖常稱為聚類圖),這樣便可決定分多少類,每類各有什么樣品。

系統聚類法的計算簡單,而且其聚類結果給出一個譜系圖,因此,可以根據該圖選擇所需要的聚類結果。但是,它也有不足之處,其主要表現在以下幾個方面:1)當樣品數量很多時,而且只需要劃分為較少的類別時,這種聚類方法的重復計算量很大;2)當某一樣品劃歸某一個類后,其屬性不變,若分類方法的選擇不當,對聚類的精度影響很大;3)對大數據量進行處理時,計算機內存開銷很大,有時,計算機受此限制而無法進行聚類分析,而且其速度很慢;4)抗干擾的能力很弱。

3.2 動態聚類算法

動態聚類法[5]就是在開始時先建立一批初始中心,而讓待分的各個樣品依據某種判別準則向初始中心凝聚,然后再逐步修改調整中心,重新分類;并根據各類離散性統計量(如均方差)和兩類間可分離性的統計量(如類間標準化距離、J-M距離等)再進行合并和分裂。此后在修改調整中心,這樣不斷繼續下去,直到分類比較合適為止。

動態聚類法使用隨機方式選擇 作為初始聚類中心,按照算法的迭代執行,整個算法的結束條件是類的重心(或凝聚點)不再改變,它的計算復雜性是O(nkt),其中,n為樣本數量,k為聚類數,t為迭代次數。與系統聚類法相比,動態聚類法明顯的優勢是運算量小,能用于處理龐大的樣本數據,也為實時處理提供了一定的可能性,但其也存在一些缺點,主要表現在以下幾個方面:(1)動態聚類法要求用戶必須事先給出聚類的數目,選擇初始劃分的最佳方向、更新分區和停止準則,且其結果與數據輸入順序有關,不同的初始值可能會導致不同的結果;(2)對于噪聲和孤立點敏感,很容易受例外情況的影響,適用于發現球狀類,但不適合發現非凸面狀的簇,不適合大小差別較大的簇;(3)一個對象只能屬于一個類中,不能多維揭示其多重屬性。

3.3 CLARANS算法

CLARANS[2,6,9]也叫隨機搜索聚類算法,是一種分割聚類方法。該算法是基于CLARA算法的改進,與CLARA算法不同的是:CLARA算法在每個階段都選取一個固定樣本,而CLARANS在搜索的每一步都帶一定的隨機性選取一個樣本,在替換了一個中心點后得到的聚類結果被稱為當前聚類結果的鄰居,搜索的鄰居點數目被用戶定義的一個參數加以限制。如果找到一個比它更好的鄰居,則把中心點移到該鄰居節點上,否則把該點作為局部最小量,然后再隨機選擇一個點來尋找另一個局部最小量。

該算法能夠探測孤立點,并適用于大型數據庫,但其計算復雜度復雜度較高,大約為O(n2);此外,該算法對數據輸入的順序敏感,適用于凸形或球形數據。

3.4 CURE算法

CURE[6,7,8]算法是一種使用代表點的聚類算法。該方法首先把每個數據點看成一簇,然后再以一個特定的收縮因子向中心“收縮”,即合并兩個距離最近的代表點的簇,直至達到預先給定的聚類個數為止。它回避了用所有點或單個質心來表示一個簇的傳統方法,將一個簇用多個代表點來表示,使CURE可以適應非球形的幾何形狀。另外,收縮因子降底了噪音對聚類的影響,從而使CURE對孤立點的處理更加健壯,而且能識別非球形和大小變化比較大的簇。

該算法采用隨機抽樣與分割相結合的方法來提高聚類效率,對于大型數據庫,它也具有良好的伸縮性,運行速度很快,而且有較好的聚類效果,其計算復雜度為O(n)。

3.5 DBSCAN算法

DBSCAN算法[6,7,8,9]是一種基于高密度連接區域密度的聚類算法。該方法將密度足夠高的區域劃分為簇,并可以在帶有“噪聲”的空間數據庫中發現任意形狀的聚類。其主要的思想是通過檢查數據庫中每個點的ε-鄰域來尋找聚類。如果第一個點p的ε-鄰域包含多于MinPts個點,則創建一個以P作為核心對象的新簇,否則先把它暫時標為噪聲點,跳到下一個點,并判斷它是否為核心點。然后反復地尋找從這些核心點直接密度可達的對象,當沒有新的點可以被添加到任何簇時,該過程結束。

該算法可以數據集中的所有簇和噪聲,但其不對數據集進行預處理而直接進行聚類操作,當數據集很大時,占用內存很大,而且I/O消耗也很大,如果采用空間索引,其計算復雜度為O(nlogn),否則,其計算復雜度為O(n2)。

3.6 STING算法

STING算法[2,3,8]是一種基于風格的多分辨率聚類技術,它將空間區域劃分為矩形單元。針對不同級別的分辨率,通常存在多個級別的矩形單元,這些單元形成了一個層次結構,高層的每個單元被劃分為多個低一層的單元,高層單元的統計參數可以很容易地從低層單元計算得到,而統計信息的查詢則采用自頂向下的基于網格的方法。這些參數包括:屬性無關的參數count;屬性相關的參數m(平均值)、s(標準偏差)、min(最小值)、max(最大值)以及該單元中屬性值遵循的分布(distribution)類型。該算法預先計算和存儲每個單元的統計信息,它不依賴于查詢的匯總信息。

該算法主要優點是效率高,有利于并行處理和增量更新;它通過掃描數據庫一次來計算單元的統計信息,因而其計算復雜度為O(n)。在層次結構建立后,其查詢處理的計算復雜度為O(m),其中m為最低層網格單元的數目。其缺點是聚類質量取決于網格結構最低層的粒度,粒度的大小會明顯影響處理代價,特別是當數據集的維數較高時,由于生成網格層次及每一層的單元數較多,算法的效率會降低。

3.7 模糊聚類算法(FCM)

傳統的聚類分析是一種硬劃分,它把每個待識別的對象嚴格地劃分到某類中,具有“非此即彼”的性質;而在實際中,大多數對象并沒有嚴格的屬性,它們在性態和類屬方面存在著中介性,具有“亦此亦彼”的性質;鑒于此,人們開始用模糊的方法來處理這類問題,從而產生了模糊聚類的方法,也就是說,模糊聚類法[5]是將模糊數學的思想觀點用到聚類分析中產生的方法,其關鍵是隸屬函數的確定。該方法多用于定性變量的分類。其主要算法如下:

(1)選擇一個初始模糊分類方案,將n個樣本分成k個模糊類,得到一個模糊隸屬度矩陣U={uij,i=1,2,…,n;j=1,2,…,k},其中uij表示樣本Xi對模糊集Cj的隸屬度,uij∈[0,1];

(2)利用矩陣 計算模糊評判函數的值,模糊評判函數通常是一個與對應的分類相聯系的加權平方誤差和

是第k個模糊集的中心,重新分配樣本到各模糊集以減少評判函數的值并重新計算U;

(3)重復(2),直到矩陣U不再有較大的變動。

模糊聚類解決了一些混合對象的歸類問題,同時,當樣本數較少的時候,應用該方法的優越性也比較明顯,另外,其抗干擾的能力也較強;但是,它對一些隱含類的提取能力還有待于進一步的改進,除此之外,預定的分類數目一般也是人為決定的,同動態聚類一樣,就可能出現人為預定的分類數與實際存在的類數不相符這種情況,從而影響分類的結果。

4 聚類的性能比較

基于上述的分析,現從可伸縮性、類的形狀識別、抗噪聲能力、處理高維能力和算法效率五個方面對常用聚類算法的性能進行了比較,結果如下表。通過這些比較,可以給聚類算法研究和應用的選擇提供參考。

5 結束語

目前,已經提出的聚類算法很多,每種方法都有其優缺點和不同的適用領域,可以根據上述的分析,選擇適合特定問題的聚類方法;但是,在實際應用中,由于數據的復雜性,往往用某種聚類算法進行聚類劃分得到的效果不佳,可能要綜合多種聚類方法才能得到較好的聚類效果。因此,在將來的研究中,需要做好對現有聚類算法的改進和融合,以便得到更好的聚類方法。

參考文獻:

[1] 孫孝萍.基于聚類分析的數據挖掘算法研究[D].碩士學位論文,2002.4.

[2] 覃擁軍,劉先鋒.數據挖掘中的聚類研究[J].科技咨詢導報,2007(16):28-30.

[3] 梁志榮.數據挖掘中聚類分析的技術方法[J]. 電腦開發與應用,2007,20(6):37-39.

[4] 谷淑化,呂維先,馬于濤.關于數據挖掘中聚類分析算法的比較[J].現代計算機,2005(3):26-29.

[5] 黃利文.基于幾何概率的聚類分析[D]. 碩士學位論文,2006(1).

[6] 張紅云,劉向東,段曉東等.數據挖掘中聚類算法比較[J].計算機應用與軟件,2003(2):5-6.

[7] 王勁波,翁偉,許華榮.數據挖掘中基于密度的聚類分析方法[J].統計與決策,2005(10):139-141.

[8] 劉泉鳳,陸蓓. 數據挖掘中聚類算法的比較研究[J].浙江水利水電專科學校學報,2005,17(2):55-58.

[9] 丁學鈞,楊克儉,李虹等.數據挖掘中聚類算法的比較研究[J].河北建筑工程學院學報,2004,22(3):125-127.

篇12

1.1 指標選取

為了分析公共圖書館科研實力的區域水平,本文從論文產出的角度,運用文獻計量學對31個地區公共圖書館2002—2011年的科研產出進行評價,選取總數、基金資助論文數、核心期刊論文數、核心期刊率、被引篇數、被引頻次、篇均被引量、論文被引率、高頻被引論文數、高頻被引論文頻次、H指數作為評價指標,這些指標內容包含了論文產出規模和學術影響力,既有量的內容,也有質的反映,指標內容基本上反映了一個公共圖書館的科研實力,有關指標的說明詳見表1。

1.2數據來源

利用中國期刊全文數據庫統計各地區公共圖書館在2002—2011年發表的論文總數、核心期刊發文數和基金資助論文數;利用中國引文數據庫統計2002—2011年各地區公共圖書館論文被引篇數、被引頻次、高頻被引論文數、高頻被引論文頻次和H指數,統計時間為2012年10月;統計期刊按《中文核心期刊要目總覽(2004版)》7〕和《中文核心期刊要目總覽(2008版)》〔〕的圖書館學、情報學類核心期刊表;各地區公共圖書館名單來自《中國圖書館年鑒2010》。

經過統計、匯總和計算獲得2002—2011年31個地區的公共圖書館在上述11個指標的具體數據,如表2所示。表22002-2011年我國31個地區公共圖書館論文產出一覽表2.

1.3研究方法

1.3.1因子分析

因子分析是多元統計分析中應用廣泛的一種方

法,通過數據的降維,將具有一定關聯的多個變量進行高度概括,簡化為幾個互不相關的公共因子,每個因子都反映了某一類事物的共同特征。

1.3.2聚類分析

聚類分析是研究區域差異和劃分地域類型的常用方法。聚類分析的目的是根據數據的特征,計算各觀察個體或變量之間親疏關系,根據某種方法將觀察個體或變量分為若干類。本文采用SPSS分層聚類中的Q型聚類對31個地區公共圖書館進行分類分析,其中,個體距離采用平方歐氏距離,類間距離采用平均組間鏈鎖距離,根據各地區公共圖書館的科研實力劃分為不同類型的區域。

2數據分析

2.1因子分析及指標內涵

運用SPSS16.0統計軟件對表2中的11個變量進行因子分析,得到各變量的特征值,見表3。

從表3可知,因子1、因子2的累計貢獻率已達81.072%,根據累計貢獻率大于80%的原則選取主因子,因子1和因子2可以作為主因子,但為了更準確的解釋原有變量的信息,本文選擇前3個因子作為主因子(分別用F1、F2和R表示),它們的累計貢獻率已達到87.663%,可以比較準確地反映2002—2011年我國公共圖書館各地區的科研狀況。為了使各因子變量具有更好的解釋性,本文采用方差最大法進行正交旋轉,旋轉后的因子載荷矩陣如表4所示。

由表4可知:主因子F;i在核心期刊率、核心期刊論文數、高頻被引論文頻次、高頻被引論文數、H指數等指標上有較高的載荷,這5項指標代表了論文高影響力,因此,主因子R可以看成是一個質量因子;主因子R在論文總數、被引篇數、基金資助論文數、被引頻次等指標上有較高的載荷,這4項指標都是論文的數量指標,因此,主因子F可以看成是規模因子;主因子R在論文被引率、篇均被引量等指標上有較高的載荷,這2項指標反映了論文被引比重和篇均影響力,因此,主因子R可以看成另一個質量因子。

2.2 我國公共圖書館科研實力綜合評價

運用SPSS得分功能,可以直接得到各地區公共圖書館在上述3個主因子的得分,以3個主因子的方差貢獻率為權數,各地區公共圖書館科研實力綜合得分公式為:

F綜合=0.34119F1+0.31069F2+0.22475F3(1)將3個主因子的具體得分代入公式(1)中,各地區公共圖書館科研實力綜合得分與排名如表5所示

     

從表5科研實力綜合得分的排名來看,廣東省公共圖書館科研綜合實力最強,上海市僅次之;廣東、上海、湖南、黑龍江、浙江、江蘇、天津、遼寧、吉林、河南、寧夏11地區都在0分以上,其它20個地區都在0分以下。從各因子的單項排名看:

(1)在質量因子R論文局影響力上,上海市公共圖書館以3.109分名列榜首,學術影響力最大,廣東省公共圖書館次之,天津、寧夏、湖南名列前5名。

(2)在規模因子R上,廣東省以2.456分排名第1,浙江、遼寧、黑龍江、吉林、北京、河南、廣西、天津、江蘇、山東、重慶、貴州12地區緊隨其后,得分都在0分以上,其它地區得分都在0分以下。

(3)在質量因子R——論文被引比重和篇均影響力上,江蘇省以2.303分位于第1名,江西、福建、廣東,上海名列前5名。

綜合上述科研實力綜合得分排名與3個主因子單項排名,廣東省公共圖書館在論文產出的規模和質量上都名列前茅,綜合得分排名第1,顯示出其強大的科研產出實力;上海市在質量因子R上得分最高,學術影響力全國最大,綜合得分排名第2,但論文產出規模較小,規模因子得分僅排在第28名;遼寧、吉林兩省綜合得分名列前9名,規模因子得分排名前5名,但質量因子R得分卻排名最后。西藏,新疆,內蒙古三個地區公共圖書館科研實力的綜合得分排名最后,科研實力最弱,從表2可知,在11項指標中,各指標數量遠遠少于其它地區。

3.我國公共圖書館科研實力的類型劃分及區域差異分析

3.1科研實力的類型劃分

為了便于分析各地區公共圖書館科研產出的相同點和不同點,更加確切地描述我國公共圖書館科研實力的狀況,本文以各地區科研能力的綜合得分為變量進行聚類分析,把我國31個地區的公共圖書館分為7大類,見表6。

3.2 區域差異分析

為了分析不同區域的公共圖書館科研情況,按照表6所示類型列出各區域的指標平均值和各指標的基本描述(見表7)

第1類是廣東省。其在論文總數、核心期刊論文數、被引篇數、論文被引率、被引頻次、高頻被引論文數、H指數7個指標上均名列第1,論文產出規模最大,學術影響力較大,科研綜合實力在全國處于領先水平。

第2類是上海市。其在核心期刊率、篇均被引量、高頻被引論文頻次3個指標上均名列第1,在核心期刊論文數、被引頻次、高頻被引論文數、H指數4個指標上均名列第2,其學術影響力最大,但在論文產出規模因子上的分值偏低,科研綜合實力在全國處于優勢地位。

第3類是湖南、黑龍江、浙江、江蘇、天津5個地區。科研綜合實力得分僅次于廣東省和上海市,江蘇省在被引比重和篇均影響力因子上得分第1,但在論文高影響力上得分較低;湖南省得分較均衡;天津市在論文高影響力上得分較高,但在被引比重和篇均影響力因子上得分較低;黑龍江和浙江兩省在規模因子上得分很高,但在質量因子上得分較低。從表7得知,該區域的大多數指標數量低于廣東、上海,但又高于其它區域,科研綜合實力較強。

第4類是遼寧、吉林、河南3個地區。遼寧、吉林兩省在規模因子上得分較高,但在論文高影響力因子上得分排名最后;河南省得分較均衡。從表7可知:該區域除在基金資助論文數量上高于第III類區域外,其它指標數量均低于第III類區域,科研綜合實力處于全國中游水平。

第5類是寧夏、福建2個地區。寧夏地區在論文高影響力上得分偏高,但在規模因子、被引比重和篇均影響力因子上得分很低;福建省在論文被引比重和篇均影響力上得分偏高,但在其他兩個因子上得分較低。從表7可知,該區域除核心期刊論文數高于第W類區域、核心期刊率高于第III類和第IV類區域外,其它指標均低于前幾類區域,科研綜合實力處于全國下游水平。

第6類是北京、河北、山西、安徽、江西、山東、湖北、廣西、重慶、四川、貴州、陜西、甘肅13個地區。該區域科研綜合實力偏低,江西省在被引比重和篇均影響力因子上得分偏高;北京、廣西在規模因子上得分較高,其它地區在三個因子上得分都不高。從表7看出,該區域除論文總數高于第V類區域外,其它指標數量均低于前五類區域,科研綜合實力處于全國偏弱水平。

第7類是青海、海南、云南、內蒙古、西藏、新疆6個地區。從表7中可看出,該區域公共圖書館科研實力各項指標的數量都遠遠小于其它區域,除了個別地區在某個因子上得分較高外,大多地區在各個因子中的得分和科研實力綜合得分都處于全國落后地位。

同時對表7中各指標的描述性分析看出,比值最大的指標是高頻被引論文頻次(417.17次),最高的是上海市(2503次),最低的是第V類區域(6次)。標準差反映了組內個體之間的離散程度、差距的大小,除了論文被引率標準差較小(0.19)外,其它10個指標的標準差都較大,最大的是論文被引頻次,達到了2934.81。從以上分析得出:我國各地區公共圖書館科研實力差異較大,中東部高于西部。

4.結論及建議

4. 1結論

(1)區域間科研綜合實力差異懸殊。不論是以科研實力綜合得分為變量進行聚類分析還是以三個主因子的得分作為變量進行聚類分析(由于篇幅有限,本文不再闡述用因子得分變量進行聚類的過程),第丄類地區的廣東省和第2類地區上海市都是單獨聚類,再次體現了在科研產出規模和影響力上的突出優勢。雖然第III類、第w類、第V類、第w區域中有的省份在某些因子中得分較高,但其平均綜合得分尚不及第丄類地區、第2類地區的一半,第VII類地區在論文產出的各項指標上基本上全處于落后地位,與其它地區有著巨大的差距。

(2)區域內科研產出差異較大。在第III類地區中,天津市在論文高影響力因子上的得分遠高于浙江省,江蘇省在被引比重和篇均影響力因子上的得分遠高于天津市;在第w類地區,河南省在論文高影響力因子上的得分遠高于遼寧省;在第V類地區,寧夏在論文高影響力因子上的得分遠高于福建省,而在論文被引比重和篇均影響力因子上的得分遠低于福建省。

(3)地區內部科研產出存在很大差異。在統計數據過程中發現,地區內部的公共圖書館科研產出也存在很大差異,很多地區的市級圖書館10年間很少,大多數基層(縣級)圖書館幾乎沒有,一個地區公共圖書館的科研實力主要由省級圖書館的科研實力所決定。但科研實力綜合得分名列前茅的幾個地區,市級圖書館或區級圖書館在論文產出規模和影響力方面,都有一定的優勢,如廣東省的深圳圖書館、廣州圖書館、佛山市圖書館、汕頭市圖書館、東莞圖書館、廣州少年兒童圖書館、深圳市南山圖書館、深圳市寶安區圖書館等;湖南省的長沙市圖書館、岳陽市圖書館、常德市圖書館等;浙江省的溫州市圖書館、杭州圖書館、衢州市圖書館等;黑龍江省的哈爾濱市圖書館、齊齊哈爾市圖書館、牡丹江市圖書館等。由此看出,一個地區的公共圖書館只有“百花齊放”,才能提升整個地區的科研綜合實力。

(4)需要從多個方面對公共圖書館的科研實力進行全面評價。本文只是從論文產出的角度對地區公共圖書館進行了科研實力評價,更全面的科研能力測度還需考慮期刊的影響因子、著作、專利、基金課題的級別、期刊對本地作者的傾向性和社會影響等因素。參考有關單位對科研實力評價的各種方法,不但包括對學術隊伍、學歷水平、努力程度、人均產出等內部因素的評價,還要包括對科研經費投入、資料設備、科研激勵、科研氛圍、地區經濟發展水平等外部因素的評價。如何設計出更加合理的評價指標體系,對公共圖書館科研實力進行評價,期待有更多的學者進行研究。

3. 2建議

篇13

1概述

2016年,杭州舉辦了舉世矚目的G20峰會,2022年杭州又將迎來第亞洲運動會,G20峰會不僅會大大提高了杭州的知名度和美譽度,同時將其國際化進程大大推向前進,2016年杭州正式躋身一線城市行列。得益于杭州持續推進城市建設的力度,尤其是規劃中的10條地鐵軌道交通和城際鐵路的建設,杭州的房價在G20之后迎來了一波快速上漲。房價問題一直是全國人民都熱切關注的問題,眾多的學者對房價的走勢都做了相關的研究。許光建在對全國35個城市的房價的研究中,就指出城市基礎設施、教育、醫療衛生等公共服務的投入在一定程度上影響著房價的變動。徐美茹在《房價與地價因果關系研究》一文中也表明,過于寬松的金融環境是造成近年來房價過快的重要原因。王海滋在研究中構建了房價與人均可支配收入、與人均GDP的回歸分析,結果表明北京房價增速遠高于人均可支配收入與人均GDP的增長幅度。彭聰應用OLS對我國房地產銷售價格與國內生產總值(GDP)、居民消費價格指數(CPI)、居民可支配收入等加以回歸分析,結果表明經濟總理、物價等都是影響未來房價走勢的重要因素。本文主要基于2016年杭州市13個行政區的相關數據,分別從每個行政區的總GDP、人均GDP、人均可支配收入三個維度進行聚類,對杭州13個行政區區的房價問題進行分析,得到了一些有意義的結論并針對這些結論提出一些合理的建議。

2數據的收集處理

2.1數據指標選擇

杭州各行政區當前的房價到底是否合理,這是一個值得研究的問題。因此,本文選用2016年杭州13個行政區的相關數據,利用國內生產總值(GDPI、居民家庭人均可支配收入、人均GDP三個指標對杭州13個行政區的房價問題進行聚類分析。GDP即國內生產總值,是指在一定時期內一個國家或地區的經濟中所生產出的全部最終產品和勞務的價值,將其作為考察的變量主要是力求反映各地區的經濟狀況對房價的拉動作用。人均GDP是一個考慮了人口因素的相對指標,彌補了GDP僅考慮總量的不足,選用該指標可以同時兼顧經濟發展和社會人口發展。居民人均可支配收入是指居民家庭全部收入中可用于支付生活費用的收入,該指標被認為是消費開支的最重要的決定性因素。

2.2數據收集處理

本文搜集了2016年杭州13個行政區的數據如表1所示。論文研究過程中所涉及的分析數據,主要來自杭州統計信息網(網址:http://hzstats.gov.cn/)和千數堂(網址:http://d.askci.com/)。

由于不同的指標數據之間取值范圍相差較大,為了使具有不同數量級的數據能放在一起比較,需要進行數據的標準化操作,本文采用的Z-score進行數據的標準化處理。Z-score標準化可以根據公式(1)執行,經過處理的數據符合標準正態分布,即均值為0,標準差為1。

其他數據如上述操作所得,最終結果如表2所示。其中z1表示GDP總量的標準化值;Z2表示人均GDP的標準化值;Z3表示居民人均可支配收入的標準化值;Z4表示每平方米商品房房價的標準化值。

3房價的聚類分析

聚類分析就是根據某種相似性度量標準,將一個沒有類別標號的數據集s直接拆分成若干個子集Ci(i=1,2,…..k;k≤n),使得每個子集內部數據對象之間相似度很高,而不同子集的對象之間不相似或相似度很低。本文主要采用SPSS中的系統聚類方法,以最短距離為計算依據實現聚類分析。最短距離法就是一組對象兩兩之間的距離矩陣m×m的非對角元素中找出dpq=min{dij}1≤i≤m,1≤j≤m,從而把把分類對象G,和G。并未以新類Gr,然后再按結算公式l計算原來各類與新類之間的距離,這樣就得到一個新的(m-1)階的距離矩陣;再從新的距離矩陣中選出最小者dij,把Gi和Gj歸并成新類;再計算各類與新類的距離,這樣一直下去,直至各分類對象被歸為一類為止。

Grk=min(dpk,dqk)k≠p,q(5)

使用SPSS軟件的系統聚類進行聚類分析之后,得到如圖1所示的樹狀圖。

圖1清楚地反映了聚類分析的全過程,通過樹狀圖對所選的13個行政區進行分類,得到表3。

通過比較表1與表3,我們可以得出以下結論:

①房價水平較合理地的是上城區和濱江區,雖然兩者的房價很高,但無論從GDP總量還是人均GDP方面看,兩者都名列前茅。上城區是南宋皇城所在地,山水江湖聚一身,吳山廣場、河坊街等都在此。濱江區是浙江省最有影響的科技創新基地、高新技術產業基地和最具活力的經濟增長區域,匯聚了浙江乃至全國各地的腦力IT精英,房地產市場相對成熟。

②蕭山區和余杭區,是杭州最晚設區的,這兩者無論在GDP總量、人均GDP、還是家庭可支配收入的指標上,都處于中間位置,兩者的房價基本上也是如此反映。

③江干區、拱墅區、下城區、西湖區在GDP總量、人均GDP、家庭人均可支配收入指標上的排名都是比較靠前的,但是經濟高速發展的同時其房地產市場也存在著一些問題,致使這些行政區的房價有些不合理。這些行政區都是杭州的主城區,相對來說經濟比較發達,外來人口流入較多,可能這也是導致房價過高的一個因素。

④建德市、桐廬縣、臨安市、淳安縣、富陽區,這些行政區總體上來說經濟發展并不是很好,但從房價問題考察,可發現這些行政區的房價還是比較合理的,究其原因可能是這些行政區的人口相對較少,房價比其他行政區低。

相關精選
主站蜘蛛池模板: 潢川县| 庆阳市| 北票市| 马山县| 文山县| 长春市| 闽侯县| 曲靖市| 重庆市| 珠海市| 西乌珠穆沁旗| 大安市| 乐都县| 申扎县| 遂平县| 普兰店市| 邹城市| 开鲁县| 胶南市| 井研县| 唐山市| 屏东市| 马边| 永寿县| 忻城县| 高州市| 元阳县| 巴塘县| 南丰县| 潍坊市| 德庆县| 都江堰市| 常山县| 丰原市| 莱芜市| 新安县| 黔江区| 洛南县| 清丰县| 文化| 乐都县|