日韩偷拍一区二区,国产香蕉久久精品综合网,亚洲激情五月婷婷,欧美日韩国产不卡

在線客服

聚類分析論文實(shí)用13篇

引論:我們?yōu)槟砹?3篇聚類分析論文范文,供您借鑒以豐富您的創(chuàng)作。它們是您寫(xiě)作時(shí)的寶貴資源,期望它們能夠激發(fā)您的創(chuàng)作靈感,讓您的文章更具深度。

聚類分析論文

篇1

1.3數(shù)據(jù)來(lái)源與處理文中的數(shù)據(jù)資料,來(lái)自于2011年《中國(guó)統(tǒng)計(jì)年鑒》、2011年《中國(guó)城市統(tǒng)計(jì)年鑒》、2011年《中國(guó)城市競(jìng)爭(zhēng)力年鑒》、2011年《中國(guó)城市能源統(tǒng)計(jì)年鑒》等,部分?jǐn)?shù)據(jù)是整理計(jì)算后得出的結(jié)果。

1.4評(píng)價(jià)方法文中首先采用因子分析法,對(duì)我國(guó)31省級(jí)行政區(qū)域的環(huán)境友好型社會(huì)水平進(jìn)行綜合評(píng)價(jià)。因子分析在SPSS17.0軟件環(huán)境下進(jìn)行。其次,在因子分析的結(jié)果基礎(chǔ)上,對(duì)各省市區(qū)域的環(huán)境友好型社會(huì)發(fā)展?fàn)顩r進(jìn)行聚類分析。采用HierarchicalCluster的聚類方法,運(yùn)用離差平方和法(Ward'smethod)計(jì)算類與類之間距離,選擇歐式距離的平方(SquaredEuclideanDistance)進(jìn)行聚類,最終得出聚類分析結(jié)果,并用Arc-GIS9.2軟件呈現(xiàn)空間差異。

2結(jié)果與分析

2.1因子分析通過(guò)對(duì)評(píng)價(jià)對(duì)象的3個(gè)二級(jí)指標(biāo)下的23個(gè)三級(jí)指標(biāo)進(jìn)行環(huán)境友好型社會(huì)程度綜合評(píng)價(jià)。

2.2聚類分析與空間分異在因子分析基礎(chǔ)上,進(jìn)行樣本聚類分析,并利用ArcGIS9.2軟件顯示量化分類結(jié)果的空間分異特征。聚類方法選擇Ward法,距離測(cè)試采用歐氏距離平方法,利用SPSS的系統(tǒng)聚類法進(jìn)行聚類分析。根據(jù)聚類結(jié)果,可以將31個(gè)省市區(qū)域劃分為3-8類如果劃分太少的類別(如分為3類或4類),則無(wú)法考察類別之間的具體差異,如果選擇較細(xì)的類別劃分(如分為7類或8類),則某一類別中含有的省份過(guò)少,更多地表達(dá)了特殊性。為了體現(xiàn)類型之間的差異性,又保證不同類型包含省份的均勻性,本課題將31個(gè)省份分為5類,并用ArcGIS9.2軟件分析得出空間差異

3討論

(1)為了解決環(huán)境友好型評(píng)價(jià)指標(biāo)體系缺乏針對(duì)性的問(wèn)題,文中在環(huán)境友好型社會(huì)概念基礎(chǔ)上,從環(huán)境影響總量、環(huán)境影響發(fā)展和環(huán)境保護(hù)潛力等三個(gè)方面,提出了由23個(gè)既相互聯(lián)系又相互獨(dú)立并能進(jìn)行量化的指標(biāo)構(gòu)成的環(huán)境友好型社會(huì)綜合測(cè)度指標(biāo)體系。通過(guò)采用2011年度中國(guó)統(tǒng)計(jì)年鑒和各行業(yè)和能源產(chǎn)業(yè)統(tǒng)計(jì)年鑒數(shù)據(jù)基礎(chǔ)上,對(duì)中國(guó)31個(gè)省級(jí)行政區(qū)的環(huán)境友好型社會(huì)發(fā)展?fàn)顩r進(jìn)行了綜合評(píng)價(jià)和聚類分析,研究結(jié)果與當(dāng)前中國(guó)環(huán)境生態(tài)質(zhì)量的現(xiàn)狀有較好的一致性,這也說(shuō)明了該指標(biāo)體系具有一定科學(xué)性和完備性。

(2)盡管文中的研究為我們客觀評(píng)價(jià)環(huán)境友好型社會(huì)提供了一種思路并具有一定的可操作性,但在選擇環(huán)境影響總量、環(huán)境影響發(fā)展和環(huán)境潛力等具體指標(biāo)時(shí),大多是建立在數(shù)據(jù)的可獲得性和以往的研究文獻(xiàn)基礎(chǔ)上,仍存在一定的主觀性。并且所選用的統(tǒng)計(jì)分析方法也可以是多種多樣的,也不僅僅是文中所提到的主成分因子分析法,還可以是諸如物元法、模糊評(píng)價(jià)法、神經(jīng)網(wǎng)絡(luò)法和層次分析法等,不同的分析方法勢(shì)必會(huì)有不同的優(yōu)點(diǎn)和不足之處,這需要后續(xù)學(xué)者做進(jìn)一步探索。另外,從評(píng)價(jià)對(duì)象上看,文中選用的是省級(jí)空間分布尺度,這種尺度分類仍較為粗略,未來(lái)的研究可以進(jìn)一步深化,比如縣域等。

(3)從研究結(jié)果看,中國(guó)31個(gè)省級(jí)行政區(qū)的環(huán)境友好型社會(huì)發(fā)展?fàn)顩r可以劃分為五類;在空間分布上,環(huán)境友好型社會(huì)程度相對(duì)較高的省份大多位于東部沿海地區(qū)和西部國(guó)界線附近的不發(fā)達(dá)地區(qū),而環(huán)境友好型社會(huì)程度相對(duì)較弱的省份大多位于京津唐冀和晉等省份和地區(qū),這一研究結(jié)果與張墨寧的調(diào)查結(jié)果相一致。造成這種現(xiàn)象的原因,或許與中國(guó)所處的發(fā)展階段、區(qū)域主導(dǎo)產(chǎn)業(yè)結(jié)構(gòu)和在很大程度上繼續(xù)沿用以往粗放型經(jīng)濟(jì)發(fā)展模式有關(guān),并值得相關(guān)政府決策部門(mén)的重視。

篇2

2農(nóng)村環(huán)境污染物排放的核算

2.1農(nóng)村環(huán)境污染物具體排放量的計(jì)算研究得知,各污染源污染實(shí)物的排放量多少是和流失系數(shù)、產(chǎn)污系數(shù)等密切相關(guān)的。而農(nóng)村環(huán)境污染具有極其明顯的地域性,所以我們計(jì)算中需要的參數(shù)值必須通過(guò)對(duì)某一地區(qū)內(nèi)各種相關(guān)聯(lián)的因素進(jìn)行測(cè)定和綜合分析才能得出。目前,得出這些參數(shù)的方法一般有兩種,一是通過(guò)特定地區(qū)的污染發(fā)生學(xué)實(shí)驗(yàn)研究來(lái)得出,二是通過(guò)相關(guān)的文獻(xiàn)進(jìn)行篩選、調(diào)研。

2.2農(nóng)村環(huán)境污染敏感性的調(diào)研這里提到的敏感性主要是指調(diào)研區(qū)域地表水環(huán)境對(duì)農(nóng)村各種社會(huì)經(jīng)濟(jì)活動(dòng)的反應(yīng)的敏感程度??梢苑从钞a(chǎn)生地表水水體富營(yíng)養(yǎng)化的概率的大小,敏感性分為5級(jí),即不敏感、輕度敏感、中度敏感、高度敏感、極敏感。根據(jù)相關(guān)的調(diào)查,對(duì)農(nóng)村環(huán)境污染的敏感性評(píng)價(jià)可以采用污染物(COD、TN、TP)的排放濃度結(jié)合水質(zhì)評(píng)價(jià)模型進(jìn)行評(píng)定。具體可有以下3種方法。①單向水質(zhì)指數(shù)法。在確定各基本單元的基本指數(shù)后,用污染物(COD、TN、TP)的水質(zhì)指數(shù)作為變量,進(jìn)行全面的聚類分析,然后根據(jù)分析結(jié)果,劃分敏感級(jí)別。②加權(quán)指數(shù)法。運(yùn)用加權(quán)指數(shù)法可以反映出污染物(COD、TN、TP)在不同地區(qū)對(duì)環(huán)境污染的影響。首先要確定影響農(nóng)村環(huán)境污染敏感性發(fā)熱污染物(COD、TN、TP)的排放濃度,然后再依據(jù)加權(quán)指數(shù)法計(jì)算出各基本敏感單元的敏感性數(shù)值。③內(nèi)梅羅綜合指數(shù)法。如果單項(xiàng)水質(zhì)指數(shù)的數(shù)值變化很大,為了更加有效的突出各個(gè)高值的影響,就可以采用內(nèi)梅羅平均值法。同樣,在確定了各基本單元的內(nèi)梅羅指數(shù)后,以其指數(shù)為變量。進(jìn)行綜合的聚類分析,然后根據(jù)分析結(jié)果劃分敏感性等級(jí)。

3污染程度的區(qū)分

首先確定環(huán)境污染中的主要污染物、總污染負(fù)荷,然后與區(qū)域相結(jié)合確定重點(diǎn)污染區(qū)域,進(jìn)而確定其污染程度。

3.1水質(zhì)系數(shù)和排放濃度要想全面的反映出區(qū)域污染的狀況,要從排污總量和排污濃度兩方面上來(lái)進(jìn)行考慮,水質(zhì)系數(shù)反映評(píng)價(jià)標(biāo)準(zhǔn)和污染物濃度之間的關(guān)系,其中:污染物水質(zhì)指數(shù)=該污染物排放濃度/該地環(huán)境質(zhì)量標(biāo)準(zhǔn)

3.2聚類分析進(jìn)行聚類分析要運(yùn)用SPSS軟件,采用Q型聚類,通過(guò)對(duì)農(nóng)村環(huán)境污染源等標(biāo)污染的負(fù)荷率進(jìn)行綜合的聚類分析,然后來(lái)區(qū)分不同區(qū)域的主要污染類型,比如種植污染型、養(yǎng)殖污染型、綜合污染型、生活污染型等。

篇3

一 引言

聚類分析是數(shù)理統(tǒng)計(jì)中研究“物以類聚”的一種方法。聚類分析是一種無(wú)監(jiān)督分類工具,其目的是在沒(méi)有先驗(yàn)知識(shí)的前提下基于某個(gè)相似性度量找出屬于同一屬性集的數(shù)據(jù),繼而將數(shù)據(jù)對(duì)象集合分成不同的類,因此它是挖掘數(shù)據(jù)未知的、具有潛在應(yīng)用價(jià)值的信息的一種很好的方法。介于其在海量數(shù)據(jù)處理中顯現(xiàn)出的優(yōu)勢(shì),使得它在數(shù)據(jù)挖掘、模式識(shí)別、圖像處理、經(jīng)濟(jì)學(xué)(尤其是市場(chǎng)研究方面)等領(lǐng)域得到了廣泛的應(yīng)用。免費(fèi)論文。然而,正是由于聚類分析的無(wú)監(jiān)督特性,導(dǎo)致了數(shù)據(jù)最佳的聚類數(shù)很難確定,這就是聚類分析面臨的最主要的問(wèn)題。免費(fèi)論文。

二 FCM方法

經(jīng)典分類學(xué)是從單個(gè)因素或有限幾個(gè)因素出發(fā),憑經(jīng)驗(yàn)和專業(yè)知識(shí)對(duì)事物分類,這種分類具有非此即彼的特性,分出的類別界限很清晰。免費(fèi)論文。隨著認(rèn)識(shí)的深入,發(fā)現(xiàn)這種分類不適用于具有模糊性的分類問(wèn)題,如圖像中的區(qū)域之間的邊界就往往是模糊不清的。1965年,Zadeh提出了著名的模糊集理論,創(chuàng)建了一個(gè)新的學(xué)科—模糊數(shù)學(xué)。

用普通數(shù)學(xué)方法進(jìn)行分類的聚類法稱為普通聚類分析,而把應(yīng)用模糊數(shù)學(xué)方法進(jìn)行分析的聚類分析稱為模糊聚類分析。。。在實(shí)際中應(yīng)用最為廣泛的是模糊C一均值算法(FCM:Fuzzy C-Means)。。FCM算法首先是由為Ruspini提出的,但真正有效的方法是由Dunn給出的。1974年Dunn將硬C--均值聚類算法推廣到模糊情形,同年Bezdek將Dunn的方法一般化,給出了基于目標(biāo)函數(shù)模糊聚類的一般描述:

其中,表示隸屬第類的隸屬度函數(shù),表示與的距離,為平滑指數(shù).聚類準(zhǔn)則為取為極小值.

1980年Bezdek證明了模糊C-均值聚類算法的收斂性并討論了模糊C一均值聚類算法與硬C一均值聚類算法的關(guān)系。從此,基于目標(biāo)函數(shù)的模糊聚類方法蓬勃發(fā)展起來(lái)。

三 模糊聚類有效性函數(shù)

不少學(xué)者為估計(jì)數(shù)據(jù)集存在的最佳聚類數(shù)進(jìn)行了大量地研究,基于模糊聚類分析的最佳聚類數(shù)的研究,也取得了豐富的成果。1974年,Dunn給出了如下的有效性判別函數(shù):

其中,

1974年,Bezdek給出了如下有效性判別函數(shù):

1991年,X.L.Xie和G.Beni定義了如下有效性判別函數(shù),在實(shí)際應(yīng)用中取得很好的效果。

四 一種新的聚類有效性函數(shù)

2000年, Tibshirani R等提出了Gap統(tǒng)計(jì)量,并用它來(lái)估計(jì)最佳聚類數(shù)。方法通過(guò)引入一個(gè)參考分布,用gap統(tǒng)計(jì)量刻畫(huà)樣本觀察值與它們?cè)谶@個(gè)參考分布下的期望值之間的差異,最后通過(guò)這個(gè)統(tǒng)計(jì)量得到最佳聚類數(shù)的估計(jì)。

其中,表示在某參考分布下的期望,一維情況下通常取均勻分布為參考分布,最佳聚類數(shù)即出現(xiàn)在取最大值時(shí)。

實(shí)驗(yàn)證明應(yīng)用Gap統(tǒng)計(jì)量確定最佳分類數(shù)取得比較好的效果,但同時(shí)我們注意到Gap統(tǒng)計(jì)量方法只考慮了數(shù)據(jù)的幾何特征,沒(méi)有考慮到數(shù)據(jù)分類的模糊性,所以我們對(duì)Gap統(tǒng)計(jì)量的方法加以改進(jìn),引入數(shù)據(jù)的模糊特性,從而使分類數(shù)的確定更加合理準(zhǔn)確。具體方法如下:

令,其中是隸屬第i類的隸屬度函數(shù),是第i類的質(zhì)心(均值)。從而定義函數(shù):

表示在某參考分布下的期望,一維情況下通常取均勻分布為參考分布。這樣最佳聚類數(shù)出現(xiàn)在取最大值時(shí)。

參考文獻(xiàn):

1. 黃陳蓉 張正軍 吳慧中. 圖像分割的Gap統(tǒng)計(jì)模型[J]. 計(jì)算機(jī)科學(xué).2005.

2. 張正軍 李建軍 劉力維. 標(biāo)準(zhǔn)化水平的Gap統(tǒng)計(jì)量的零件圖像分割數(shù)估計(jì)[J]. 中國(guó)制造業(yè)信息化.2007

3. 李娜 劉力維 張正軍. 基于GS方法的圖像最佳分割的研究. 南京理工大學(xué)碩士學(xué)位論文.2006

篇4

論文的關(guān)鍵詞是文章內(nèi)容的提煉及核心思想,在某一學(xué)科中,如果某些關(guān)鍵詞在眾多的論文中反復(fù)出現(xiàn),就說(shuō)明這些關(guān)鍵詞是該學(xué)科的研究熱點(diǎn)。因此本文以教育技術(shù)學(xué)專業(yè)為例,將研究生學(xué)位論文和論文關(guān)鍵詞作為研究對(duì)象,對(duì)教育技術(shù)學(xué)的研究熱點(diǎn)和發(fā)展趨勢(shì)進(jìn)行探析,并從中得到一些啟發(fā),以期探討進(jìn)步。

1.研究過(guò)程

1.1主要的分析工具

論文分析需要定性和定量相結(jié)合,離不開(kāi)相應(yīng)軟件的輔助。本研究中主要使用書(shū)目共現(xiàn)分析系統(tǒng)(Bicomb)抽取論文中的關(guān)鍵字段,形成高頻詞一論文矩陣,Python進(jìn)行聚類分析,Excel作為Python的輸入,以及進(jìn)行簡(jiǎn)單的統(tǒng)計(jì)。

1.2數(shù)據(jù)采集和處理

中國(guó)知網(wǎng)上收錄的論文數(shù)量較多,故將其作為研究對(duì)象的數(shù)據(jù)來(lái)源。通過(guò)本校數(shù)字圖書(shū)館訪問(wèn)中國(guó)知網(wǎng),選擇“博碩士”類型,并以“教育技術(shù)學(xué)”為“學(xué)科專業(yè)名稱”進(jìn)行檢索,共獲得研究樣本7937篇研究生學(xué)位論文,然后按照NoteFirst格式采集研究生學(xué)位論文的題錄信息。使用書(shū)目共現(xiàn)分析系統(tǒng),將論文的發(fā)表年份和關(guān)鍵詞提取出來(lái),輸出成EXCEL格式。

共詞聚類分析的主要有如下幾個(gè)步驟:首先選定參與共詞分析的高頻關(guān)鍵詞并構(gòu)建共詞矩陣,然后將共詞矩陣轉(zhuǎn)化為相似矩陣,然后進(jìn)行聚類分析,最后對(duì)結(jié)果進(jìn)行解釋。關(guān)鍵詞的選擇,目前有TOPN,正太分布法,齊普夫第二定律等幾種常見(jiàn)的方法。

經(jīng)過(guò)統(tǒng)計(jì)分析,本文樣本數(shù)據(jù)不符合正態(tài)分布,故本文選擇累積百分比20%的關(guān)鍵詞作為高頻關(guān)鍵詞,生成如表1所示的共詞矩陣。

為了消除頻次懸殊造成的影響,用Ochiia系數(shù)將共詞矩陣轉(zhuǎn)化成相似矩陣,即將矩陣中的每個(gè)數(shù)字都除以與之對(duì)應(yīng)的兩個(gè)關(guān)鍵詞總頻次開(kāi)方的乘積,該矩陣主對(duì)角線上的數(shù)據(jù)均為1,代表高頻關(guān)鍵詞自身的相關(guān)程度,如表2所示。

2.研究結(jié)果

2.1關(guān)鍵詞的詞頻分析

詞頻分析法通過(guò)對(duì)關(guān)鍵詞中高頻詞匯的分析,能夠確定某一學(xué)科的研究熱點(diǎn)及其變化。本研究共收集到7937篇研究樣本,對(duì)所有關(guān)鍵詞進(jìn)行統(tǒng)計(jì)排序后,得到排名靠前的20個(gè)關(guān)鍵詞,表3提供了前10個(gè)關(guān)鍵詞。

觀察上表數(shù)據(jù),可以發(fā)現(xiàn),教學(xué)設(shè)計(jì)出現(xiàn)頻次遠(yuǎn)超其他關(guān)鍵詞,在教育技術(shù)學(xué)中占據(jù)著核心地位;信息技術(shù)和網(wǎng)絡(luò)課程占據(jù)第二和第三名次,說(shuō)明教育技術(shù)學(xué)對(duì)信息技術(shù)和網(wǎng)絡(luò)的應(yīng)用比較深入和頻繁。

為了進(jìn)一步探究教育技術(shù)學(xué)的發(fā)展歷史,故對(duì)各年度所的關(guān)鍵詞進(jìn)行統(tǒng)計(jì),可以得出各年度頻次排名前10的關(guān)鍵詞表,具體見(jiàn)表4。

表4顯示了高頻詞的變遷過(guò)程。觀察上表可以發(fā)現(xiàn),首先歷年排名靠前的關(guān)鍵詞都有教學(xué)設(shè)計(jì)和網(wǎng)絡(luò)教育,穩(wěn)定性比較好,正體現(xiàn)出教育技術(shù)學(xué)交叉學(xué)科的特點(diǎn),同時(shí)也可以看出,2000年后的“技術(shù)”,主要指網(wǎng)絡(luò)技術(shù)。其次教育技術(shù)已經(jīng)處于信息化教育研究階段,這一階段的核心關(guān)鍵詞主要有遠(yuǎn)程教育、信息技術(shù)、網(wǎng)絡(luò)學(xué)習(xí)、教育游戲、移動(dòng)學(xué)習(xí)等。從這一階段的研究熱點(diǎn)可以看出,隨著信息化時(shí)代的到來(lái),教育活動(dòng)的數(shù)字化、網(wǎng)絡(luò)化、智能化等現(xiàn)象已成為研究熱點(diǎn),這一時(shí)期研究者關(guān)注的對(duì)象不再僅限于媒體本身,而是從信息化學(xué)習(xí)方式人手,考察技術(shù)、人和教育三者間的關(guān)系。

2.2關(guān)鍵詞的共詞聚類分析

聚類分析是根據(jù)研究對(duì)象的特征對(duì)其進(jìn)行分類的多元分析技術(shù)的總稱,基本思想是基于研究對(duì)象的樣本或變量指標(biāo)間存在著不同程度的相似性或親疏關(guān)系。

層次聚類按照距離度量的不同分橐韻錄咐啵single-linkage、complete-linkage、average-linkage、ward-linkage。現(xiàn)有同類型的論文中,均采取層次聚類法對(duì)共詞矩陣進(jìn)行聚類分析,但是并沒(méi)有針對(duì)上述不同情況給出對(duì)比分析,本文使用Python第三方庫(kù)scipy中的層次聚類函數(shù)以及dendrogram方法,對(duì)多種度量的聚類方法進(jìn)行了對(duì)比實(shí)驗(yàn),發(fā)現(xiàn)ward-linkage方式的聚類效果最好,具體聚類樹(shù)如下圖所示。

觀察該層次聚類樹(shù)狀圖可以發(fā)現(xiàn),研究生學(xué)位論文高頻關(guān)鍵詞大致聚為5類,具體分類如下:

第1類:學(xué)習(xí)方法研究,關(guān)鍵詞包括知識(shí)管理、大學(xué)生、網(wǎng)絡(luò)學(xué)習(xí)、虛擬學(xué)習(xí)社區(qū)、策略、非正式學(xué)習(xí)、知識(shí)構(gòu)建等。該類研究主要以如何提高學(xué)習(xí)的效果為目的,尋找和對(duì)比多種學(xué)習(xí)方法,為后續(xù)的教育教學(xué)方法提供參考。

第2類:教師與教育技術(shù)研究,該類研究主要由教育技術(shù)、教師專業(yè)發(fā)展、教育技術(shù)能力、現(xiàn)代教育技術(shù)、師范生、教師培訓(xùn)、中小學(xué)教師等關(guān)鍵詞構(gòu)成。這一主題的研究主要圍繞教師與教育技術(shù)的關(guān)系,著力提高教師運(yùn)用新型教育技術(shù)的能力和水平,從而更好地從事教學(xué)活動(dòng)。

第3類:網(wǎng)絡(luò)教育教學(xué)研究,主要由網(wǎng)絡(luò)課程、移動(dòng)學(xué)習(xí)、網(wǎng)絡(luò)、網(wǎng)絡(luò)學(xué)習(xí)、自主學(xué)習(xí)、遠(yuǎn)程教育、網(wǎng)絡(luò)環(huán)境網(wǎng)絡(luò)教學(xué)、現(xiàn)代遠(yuǎn)程教育等關(guān)鍵詞構(gòu)成。網(wǎng)絡(luò)教育以互聯(lián)網(wǎng)為載體打破了空間和時(shí)間的限制,涌現(xiàn)出在線教育和MOOC等新型教學(xué)方式。

第4類:信息技術(shù)條件下的教育模式研究,主要包括信息技術(shù)、教學(xué)模式、信息素養(yǎng)、教育信息化、信息技術(shù)與課程整合、行動(dòng)研究、翻轉(zhuǎn)課堂等關(guān)鍵詞。隨著信息技術(shù)的不斷進(jìn)步,越來(lái)越重視信息技術(shù)與教育教學(xué)的結(jié)合,碎片化學(xué)習(xí)、翻轉(zhuǎn)課堂等都成為該學(xué)科內(nèi)的研究趨勢(shì)。

第5類:設(shè)計(jì)與開(kāi)發(fā)應(yīng)用研究,主要由設(shè)計(jì)、應(yīng)用、對(duì)策、開(kāi)發(fā)、現(xiàn)狀和應(yīng)用研究等關(guān)鍵詞構(gòu)成。教學(xué)設(shè)計(jì)與應(yīng)用是教育技術(shù)學(xué)的核心目標(biāo)和價(jià)值體現(xiàn),不論采用何種技術(shù)手段,最終的落腳點(diǎn)都是教育教學(xué)方案的設(shè)計(jì)及應(yīng)用實(shí)踐。

3.研究結(jié)論

3.1發(fā)展趨勢(shì)

第一,研究熱點(diǎn)保持穩(wěn)定。從關(guān)鍵詞詞頻分析中可以看到,不論是全量數(shù)據(jù)的統(tǒng)計(jì),還是歷年關(guān)鍵詞數(shù)據(jù)的統(tǒng)計(jì),出現(xiàn)頻率較高的關(guān)鍵詞都是信息技術(shù)、教學(xué)設(shè)計(jì)、遠(yuǎn)程教育等。這些核心關(guān)鍵詞,包括教學(xué)效果,教育信息化等其他高頻關(guān)鍵詞在內(nèi),都顯示出中國(guó)教育技術(shù)牢牢把握學(xué)科定位與目標(biāo),重視教與學(xué)的應(yīng)用與研究,而且應(yīng)用信息技術(shù)進(jìn)行教與學(xué)是中國(guó)教育技術(shù)領(lǐng)域近20年研究的熱點(diǎn)。

第二,教育技術(shù)學(xué)在走向融合。主要包括三個(gè)層面上的融合,即教育理論層面、技術(shù)層面、理論和技術(shù)結(jié)合的層面。在前文的分析結(jié)果中可以看到由何克抗教授正式倡導(dǎo)的混合式學(xué)習(xí)概念,更是最好的證明。一是教育理論層面,主要體現(xiàn)在教育理論基礎(chǔ)的變化上。教育技術(shù)學(xué)研究的焦點(diǎn),已經(jīng)由建構(gòu)主義轉(zhuǎn)向混合式學(xué)習(xí)。在詞頻分析中的歷年高頻關(guān)鍵詞中,可以看到建構(gòu)主義的排名在2004年以后,就比較靠后了。二是技術(shù)層面,教育技術(shù)已經(jīng)從基礎(chǔ)的視聽(tīng)技術(shù),發(fā)展到了網(wǎng)絡(luò)信息技術(shù)為主,多種基礎(chǔ)技術(shù)為輔的階段。但就像網(wǎng)絡(luò)沒(méi)有取代報(bào)紙一樣,粉筆和黑板也依然存在著。各種不同的教學(xué)技術(shù)相輔相成、相互作用,它們以整體融合的形式,出現(xiàn)在各種教育教學(xué)活動(dòng)中。三是理論和技術(shù)相結(jié)合層面,不同的教育與學(xué)習(xí)理論,需要各種不同的技術(shù)作為支撐,而各種技術(shù)的最終目的,是要為優(yōu)化教學(xué)效果而服務(wù)。共詞聚類分析中發(fā)現(xiàn)的信息技術(shù)下的教學(xué)及學(xué)習(xí)模式研究,說(shuō)明教育技術(shù)工作者已經(jīng)開(kāi)始關(guān)注適應(yīng)性學(xué)習(xí)和協(xié)作學(xué)習(xí)環(huán)境的創(chuàng)設(shè)。

3.2啟發(fā)

第一個(gè)啟發(fā)是要自信。有人說(shuō),教育技術(shù)學(xué)專業(yè)學(xué)生的教育理論水平不如教育學(xué)相關(guān)專業(yè)的學(xué)生;論信息技術(shù)能力不如計(jì)算機(jī)相關(guān)專業(yè)的學(xué)生。多數(shù)人都看到了這個(gè)現(xiàn)象,但如果因?yàn)檫@個(gè)原因,變得不自信和迷茫,那就有些妄自菲薄了。因?yàn)榻逃夹g(shù)學(xué)是交叉學(xué)科,本專業(yè)的學(xué)生跟其他專業(yè)的學(xué)生比的就是教育理論與信息技術(shù)相結(jié)合的“綜合實(shí)力”,這才是教育技術(shù)學(xué)特色和優(yōu)勢(shì)的所在。本專業(yè)的學(xué)生在平時(shí)的學(xué)習(xí)和研究中,可以遵照南國(guó)農(nóng)老前輩的指導(dǎo),堅(jiān)持現(xiàn)代教育理論與現(xiàn)代信息技g的融合,并牢記二者“相乘”的關(guān)系,雙翼齊飛,同時(shí)努力探索教育技術(shù)的中國(guó)道路。

第二個(gè)啟發(fā)是要并重。包括電教并重和教學(xué)并重,主要是為了解決目前教育技術(shù)學(xué)出現(xiàn)的誤區(qū)和問(wèn)題。電教并重是指要認(rèn)清教育技術(shù)姓“教”不姓“電”,信息技術(shù)只是教育技術(shù)的一種支撐,教育技術(shù)所研究的是在教育理論的指導(dǎo)下,如何有效利用各種信息技術(shù)為教學(xué)活動(dòng)提供支持,以達(dá)到最優(yōu)化的教學(xué)效果。教學(xué)并重是指教與學(xué)是相輔相成的統(tǒng)一整體,而且其立足點(diǎn)在學(xué)而不在教,因?yàn)榻逃虒W(xué)活動(dòng)的根本目的是學(xué)生的學(xué)習(xí)與發(fā)展。

第三個(gè)啟發(fā)是要融合。不僅是教育技術(shù)學(xué)內(nèi)部的融合,還有借鑒其他學(xué)科的精華,如計(jì)算機(jī)、心理學(xué)和傳播學(xué),才能更好地體現(xiàn)出交叉學(xué)科的特點(diǎn)和優(yōu)勢(shì)。舉例來(lái)說(shuō),目前計(jì)算機(jī)領(lǐng)域,機(jī)器學(xué)習(xí)和人工智能正在如火如荼的進(jìn)行,雖然教育技術(shù)領(lǐng)域已經(jīng)在進(jìn)行虛擬現(xiàn)實(shí)和數(shù)據(jù)挖掘技術(shù)的相關(guān)研究,但深層次的融合,結(jié)合教育教學(xué)活動(dòng)進(jìn)行落地的嘗試,還需要盡快開(kāi)展和總結(jié)。

篇5

1 前言

隨著中國(guó)信息化進(jìn)程的加速,各行各業(yè)每天都產(chǎn)生大量的數(shù)據(jù),如何充分利用這些數(shù)據(jù),更好地為人類生產(chǎn)和生活更好地服務(wù)?數(shù)據(jù)挖掘是一種不錯(cuò)的方法,數(shù)據(jù)挖掘又稱數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),是指從數(shù)據(jù)庫(kù)的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價(jià)值的信息的非平凡過(guò)程。知識(shí)發(fā)現(xiàn)過(guò)程由以下三個(gè)階段組成:(1)數(shù)據(jù)準(zhǔn)備;(2)數(shù)據(jù)挖掘;(3)結(jié)果表達(dá)和解釋。

聚類分析(Cluster Analysis)是一種數(shù)據(jù)挖掘方法,是根據(jù)“物以類聚”的道理,對(duì)樣品或指標(biāo)進(jìn)行分類的一種多元統(tǒng)計(jì)分析方法,它們討論的對(duì)象是大量的樣品或數(shù)據(jù),要求能合理按各自的特性來(lái)進(jìn)行合理的分類,沒(méi)有任何模式可供參考或依循,即是在沒(méi)有先驗(yàn)知識(shí)的情況下進(jìn)行的。目前在文獻(xiàn)中存在大量的聚類算法,算法的選擇取決于數(shù)據(jù)的類型、聚類的目的和應(yīng)用。大體上聚類分析主要的算法可以分為:(1)劃分方法;(2)層次的方法;(3)基于密度的方法;(4)基于網(wǎng)格的方法;(5)基于模型的方法。如果聚類分析被用作描述或者探查的工具,可以對(duì)同樣的數(shù)據(jù)嘗試多種算法,以發(fā)現(xiàn)數(shù)據(jù)可能揭示的結(jié)果。聚類方法廣泛應(yīng)用于各行各業(yè)。

人口是基礎(chǔ)數(shù)據(jù),是制定各項(xiàng)政策的依據(jù)。人口區(qū)劃根據(jù)自然、經(jīng)濟(jì)、人口特征及相應(yīng)的指標(biāo)體系,對(duì)全國(guó)人口分布狀況分區(qū)劃片,并提出各區(qū)人口發(fā)展合理目標(biāo)及相應(yīng)的人口政策和措施,為全國(guó)和分區(qū)人口發(fā)展規(guī)劃提供科學(xué)依據(jù),并為國(guó)民經(jīng)濟(jì)計(jì)劃和經(jīng)濟(jì)區(qū)劃服務(wù)。20世紀(jì)80年代初,中國(guó)學(xué)者胡煥庸根據(jù)自然地理特征、人口密度、人口自然增長(zhǎng)、人口遷移、耕地、糧食產(chǎn)量、勞動(dòng)力等指標(biāo),將中國(guó)劃分為人口區(qū),即:黃河下游區(qū),遼吉黑區(qū),長(zhǎng)江中下游區(qū),東南沿海區(qū),晉陜甘寧區(qū),川黔滇區(qū),蒙新區(qū),青藏區(qū)。隨著中國(guó)經(jīng)濟(jì)的迅猛發(fā)展人口分布呈現(xiàn)出許多新的特征,為了適應(yīng)新的趨勢(shì),有必要重新定位和再研究。

2 數(shù)據(jù)與方法

2.1 數(shù)據(jù)來(lái)源與指標(biāo)選擇

本研究的數(shù)據(jù)采用2011年全國(guó)31個(gè)省及直轄市的統(tǒng)計(jì)數(shù)據(jù),人口數(shù)據(jù)來(lái)源于《中國(guó)人口統(tǒng)計(jì)年鑒》,各省人均可支配收入來(lái)源于經(jīng)濟(jì)信息網(wǎng)。因研究的是各省的人口及經(jīng)濟(jì)指標(biāo)聚類,研究區(qū)域很大,信息粒度較大,因此選擇了有代表性的綜合性人口數(shù)據(jù)指標(biāo),人口(總量)、人口密度、人口自然增長(zhǎng)率、第六次人口普查數(shù)據(jù)、人均可支配收入、人均GDP、遷移數(shù)據(jù)。其中人口自然增長(zhǎng)率為(人口出生率-人口死亡率)/人口均值*1000%,遷移數(shù)據(jù)=第六次人口普查數(shù)據(jù)-人口(常住人口)。各省及直轄市的基礎(chǔ)數(shù)據(jù)如表1所示。

2.2 聚類分析原理

3.2 二維聚類

以人均GDP和人口自然增長(zhǎng)率進(jìn)行聚類,數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理后,得到的結(jié)果有五類,如表5如示。

從以上聚類結(jié)果看,第一類是沿海地區(qū),經(jīng)濟(jì)較為發(fā)達(dá),人口增長(zhǎng)正常;而第二類內(nèi)陸地區(qū),人均GDP較低,人口自然增長(zhǎng)優(yōu)率較為正常;第三類為東北三省,人均GDP中等,人口增長(zhǎng)率低;第四類為人均GDP高,為三個(gè)直轄市;第五類為人均GDP低,而且人口增長(zhǎng)快的區(qū)域。

3.3 多維聚類

多維聚類時(shí),采用K均值法進(jìn)行聚類,得到的聚類結(jié)果如表6。

根據(jù)多維數(shù)據(jù)聚類,共分為六類,其中第一類屬于人口少,但較為富裕的北京和上海,而第六類為天津,自成一類,主要是流動(dòng)人口及可支配收入較第一類差一些;第四類為經(jīng)濟(jì)發(fā)達(dá)的廣東、江蘇和浙江;第二類為經(jīng)濟(jì)較好,人均收入中等,流動(dòng)人口較少的地區(qū);第五類為經(jīng)濟(jì)欠發(fā)達(dá),人口保持較高增長(zhǎng)率的省份;第三類則是大部分的內(nèi)陸地區(qū)。

4 結(jié)論與討論

本文通過(guò)采用聚類分析的手段分析全國(guó)31個(gè)省市人口的發(fā)展規(guī)律,揭示了不同省市在人口發(fā)展之間的相似性和差異性,研究得出合理聚類結(jié)果,為政府和各職能部門(mén)在制定人口及各項(xiàng)地方性經(jīng)濟(jì)發(fā)展政策提供依據(jù)。

聚類分析結(jié)果表明,一維、二維和多維聚類分析方法有各自的典型特征有用途。一維聚類分析簡(jiǎn)潔地表明各省人口自然分布規(guī)律,可為國(guó)家對(duì)不同各省份的人口政策提供科學(xué)依據(jù);二維聚類分析直接反應(yīng)了不同省份人口與經(jīng)濟(jì)等指標(biāo)的相互關(guān)系,如論文中對(duì)人均GDP和人口自然增長(zhǎng)率的二維聚類分析,分類結(jié)果合理的體現(xiàn)了當(dāng)前我國(guó)各省經(jīng)濟(jì)發(fā)展與人口特征。多維聚類分析方法適用于對(duì)各省綜合分類,論文中采用了與人口有關(guān)的5個(gè)指標(biāo)進(jìn)行的多維聚類分析,分類結(jié)果有較強(qiáng)的綜合性,與當(dāng)前各省公眾認(rèn)識(shí)的綜合分類一致。

解決了傳統(tǒng)的經(jīng)驗(yàn)分類方法導(dǎo)致的客觀性缺乏等問(wèn)題。為人口的分類管理實(shí)踐提供了理論依據(jù)和技術(shù)手段。

(本論文為院級(jí)大學(xué)生實(shí)踐創(chuàng)新訓(xùn)練計(jì)劃項(xiàng)目2011XYCXXL14資助項(xiàng)目)

參考文獻(xiàn):

[1] Jiawei Han,Micheline Kambe.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2012.

[2] 陳志泊.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖[M].北京:清華大學(xué)出版社,2009.

[3] 陸學(xué)藝.可持續(xù)發(fā)展實(shí)驗(yàn)區(qū)發(fā)展歷程回顧與建議[J].中國(guó)人口資源與環(huán)境,2007,17(3):1-2.

篇6

1.問(wèn)題及背景

世界農(nóng)業(yè)的發(fā)展歷史已經(jīng)證明:農(nóng)業(yè)機(jī)械化是建設(shè)現(xiàn)代農(nóng)業(yè)的必然過(guò)程,是農(nóng)業(yè)現(xiàn)代化不可逾越的階段。農(nóng)業(yè)的機(jī)械化程度是衡量一個(gè)地區(qū)農(nóng)業(yè)發(fā)展水平的一個(gè)重要指標(biāo),而不同地區(qū)的機(jī)械化水平又是不平衡的,以往對(duì)農(nóng)業(yè)機(jī)械化水平的研究只是停留在對(duì)各地農(nóng)用機(jī)械的絕對(duì)擁有量的描述上的,《2005年江蘇省農(nóng)業(yè)機(jī)械化管理統(tǒng)計(jì)分析江蘇農(nóng)機(jī)化論文》【1】只給出了絕對(duì)的統(tǒng)計(jì)數(shù)據(jù)并簡(jiǎn)單的編制了一些指數(shù),各地區(qū)的差異從中表現(xiàn)的并不很明顯。本文擬采用因子分析和聚類分析兩種方法對(duì)吉林省9個(gè)地市2005年和2009的農(nóng)業(yè)機(jī)械化水平進(jìn)行排名分類研究。

表1 吉林省農(nóng)業(yè)機(jī)械總量及增長(zhǎng)率

 

年份

農(nóng)用機(jī)械總動(dòng)力(萬(wàn)千瓦)

大中型農(nóng)用拖拉機(jī)(臺(tái))

農(nóng)用小型及手扶拖拉機(jī)(臺(tái))

大中型機(jī)引農(nóng)具(部)

農(nóng)用排灌動(dòng)力機(jī)械(臺(tái))

糧食加工機(jī)械(臺(tái))

2005

1471.30

90750

538024

171632

416968

101088

2009

2001

245162

589961

480785

469501

113467

增長(zhǎng)率(%)

36.00

170.15

9.65

篇7

一、引言

河北省憑借其區(qū)位優(yōu)勢(shì)和國(guó)家及省內(nèi)政策的支持,經(jīng)濟(jì)獲得了持續(xù)的高速發(fā)展。但伴隨而來(lái)的是省內(nèi)地區(qū)間、城鄉(xiāng)之間在經(jīng)濟(jì)增長(zhǎng)、生產(chǎn)力分布、生活水平等方面出現(xiàn)了明顯的差距,并且這些差距還有逐步擴(kuò)大的趨勢(shì)。而資本作為一種流動(dòng)最頻繁、最基本的貨幣化的生產(chǎn)要素,對(duì)區(qū)域經(jīng)濟(jì)的發(fā)展具有重要的影響。要促進(jìn)一個(gè)區(qū)域的發(fā)展就必須建立一種有效機(jī)制,促進(jìn)資本的合理流動(dòng),提高資本利用效率。而如何從資本流動(dòng)方面實(shí)現(xiàn)河北地區(qū)的經(jīng)濟(jì)增長(zhǎng)就成為當(dāng)務(wù)之急。

資本在地區(qū)之間的流動(dòng),能夠帶動(dòng)其他生產(chǎn)要素在各地區(qū)之間的有效配置,從而更有力地促進(jìn)區(qū)域的經(jīng)濟(jì)增長(zhǎng)。影響區(qū)域資金分布的原因有多方面聚類分析,區(qū)域經(jīng)濟(jì)基礎(chǔ)差異,存貸款的區(qū)域配置以及市場(chǎng)發(fā)育不平衡等因素使資本在區(qū)域間的流動(dòng)大多體現(xiàn)為向經(jīng)濟(jì)活躍、資本收益率高的區(qū)域流動(dòng)論文開(kāi)題報(bào)告范例。另一方面政府為縮小區(qū)域之間的差距,通過(guò)制定經(jīng)濟(jì)發(fā)展政策,積極引導(dǎo)資本由經(jīng)濟(jì)發(fā)達(dá)的區(qū)域向經(jīng)濟(jì)落后的區(qū)域流動(dòng)。資本流動(dòng)的區(qū)際流動(dòng)不僅可以給各地區(qū)帶來(lái)效益、加強(qiáng)不同發(fā)展條件下的區(qū)域的相互聯(lián)系,而且可以協(xié)調(diào)區(qū)域發(fā)展。由此可見(jiàn),資本作為一種最基本、最重要的生產(chǎn)要素?zé)o疑是河北省發(fā)展和提高自身造血功能的必然選擇。

二、河北省區(qū)域經(jīng)濟(jì)發(fā)展差異的聚類分析

對(duì)于區(qū)域經(jīng)濟(jì)發(fā)展差異的分析,本文側(cè)重于對(duì)河北省現(xiàn)狀的研究,故在研究過(guò)程中選取2009年為當(dāng)前時(shí)間節(jié)點(diǎn),對(duì)河北省各市的經(jīng)濟(jì)發(fā)展水平進(jìn)行橫向比較,從而獲得當(dāng)前的河北省區(qū)域經(jīng)濟(jì)差異的空間分布特征。研究方法是首先選擇能夠綜合評(píng)價(jià)河北省經(jīng)濟(jì)發(fā)展水平差異的指標(biāo),運(yùn)用因子分析提取公因子,最終得出各市的因子得分,在此基礎(chǔ)上根據(jù)因子得分進(jìn)行聚類分析。

1、因子分析

因子分析法旨在減少分析指標(biāo)的同時(shí),盡量減少原指標(biāo)所包含信息的流失,對(duì)所搜集的資料做全面的分析。由第一部分分析可知,固定資產(chǎn)投資額、政府財(cái)政補(bǔ)貼、銀行存貸款情況均與當(dāng)?shù)氐慕?jīng)濟(jì)增長(zhǎng)密切相關(guān)。據(jù)此選擇的描述經(jīng)濟(jì)發(fā)展水平的指標(biāo)有GDP、人均GDP、固定資產(chǎn)投資額、人均固定資產(chǎn)投資額、地方財(cái)政一般預(yù)算內(nèi)收入、人均地方財(cái)政一般預(yù)算內(nèi)收入、地方財(cái)政一般預(yù)算內(nèi)支出、人均地方財(cái)政一般預(yù)算內(nèi)支出、外商實(shí)際投資額、城鄉(xiāng)居民年末人均儲(chǔ)蓄存款余額、年末金融機(jī)構(gòu)貸款余額。根據(jù)2010年《河北經(jīng)濟(jì)年鑒》以上各指標(biāo)的數(shù)據(jù)聚類分析,將各變量標(biāo)準(zhǔn)化,然后運(yùn)用SPSS18.0統(tǒng)計(jì)軟件進(jìn)行因子分析,最終提取出兩個(gè)公因子,旋轉(zhuǎn)后的因子載荷陣中可以看出兩個(gè)公因子可歸結(jié)為經(jīng)濟(jì)規(guī)模因子和人均水平因子。根據(jù)因子得分系數(shù)矩陣和原始變量的標(biāo)準(zhǔn)化值就可以計(jì)算每個(gè)觀測(cè)值的各因子得分,具體得分如表1。

表1河北省區(qū)域經(jīng)濟(jì)發(fā)展總體發(fā)展水平綜合得分

 

城市

公因子1得分

公因子2得分

合計(jì)

排名

唐山市

1.636

1.551

3.190

1

石家莊

1.790

-0.192

1.600

2

廊坊市

-0.306

0.893

0.590

3

秦皇島市

-0.929

1.362

0.430

4

邯鄲市

0.525

-0.705

-0.180

5

承德市

-1.043

0.596

-0.450

6

張家口市

-0.829

0.353

-0.480

7

滄州市

-0.010

-0.659

-0.670

8

保定市

0.401

-1.280

-0.880

9

邢臺(tái)市

-0.308

-1.036

-1.340

10

衡水市

-0.926

篇8

1 引言

新技術(shù)的產(chǎn)生可以導(dǎo)致一系列相關(guān)的新產(chǎn)品問(wèn)世,對(duì)人們的生活、企業(yè)的發(fā)展乃至社會(huì)經(jīng)濟(jì)產(chǎn)生巨大的推動(dòng)作用。在某一新技術(shù)尚未完全成熟之際,必定會(huì)有很多企業(yè)圍繞這一技術(shù)不斷進(jìn)行改進(jìn)和完善,并申請(qǐng)相關(guān)專利技術(shù)進(jìn)行保護(hù)。因此,未來(lái)主流市場(chǎng)中的主流技術(shù)在專利文獻(xiàn)中有量的征兆,可以通過(guò)對(duì)專利數(shù)據(jù)的定量分析來(lái)進(jìn)行技術(shù)熱點(diǎn)的監(jiān)測(cè)。

當(dāng)前利用專利文獻(xiàn)進(jìn)行技術(shù)熱點(diǎn)監(jiān)測(cè)的方法主要有兩種:①通過(guò)對(duì)具有技術(shù)含義的專利著錄項(xiàng),如專利IPC分類號(hào)的數(shù)量變化來(lái)監(jiān)測(cè)技術(shù)熱點(diǎn);②利用文本挖掘技術(shù),從專利文獻(xiàn)中抽取技術(shù)關(guān)鍵詞進(jìn)行詞頻統(tǒng)計(jì)、聚類分析來(lái)監(jiān)測(cè)技術(shù)熱點(diǎn)。在學(xué)術(shù)領(lǐng)域,學(xué)者們基于專利分類號(hào)對(duì)某個(gè)時(shí)間點(diǎn)或時(shí)間段的技術(shù)熱點(diǎn)進(jìn)行了探索。袁冰等指出,通過(guò)分析專利涉及的所有IPC分類號(hào),以及這些IPC分類號(hào)下分別包括的專利數(shù)量,就能夠獲知整個(gè)區(qū)域的技術(shù)構(gòu)成情況以及該區(qū)域內(nèi)市場(chǎng)經(jīng)營(yíng)主體關(guān)注的技術(shù)熱點(diǎn)。王燕玲認(rèn)為,將不同主體的1PC分類按時(shí)間分布并加以比較,可發(fā)現(xiàn)不同主體的IPC變化過(guò)程,是一個(gè)從創(chuàng)新主體角度研究技術(shù)領(lǐng)域熱點(diǎn)變化的主要方法。左鳳茹對(duì)水電行業(yè)中世界著名企業(yè)的專利申請(qǐng)量按IPC分類號(hào)進(jìn)行統(tǒng)計(jì)后,指出目前水電沒(méi)備的研究熱點(diǎn)。欒春娟等認(rèn)為,經(jīng)過(guò)德溫特技術(shù)人員標(biāo)引的“德溫特指南代碼”(Derwent Manual Codes),對(duì)研究專利的技術(shù)領(lǐng)域分布更具指導(dǎo)意義,她們利用德溫特指南代碼,陸續(xù)對(duì)基因工程、3G技術(shù)、生物技術(shù)、電動(dòng)汽車(chē)領(lǐng)域進(jìn)行了技術(shù)熱點(diǎn)分析。在技術(shù)實(shí)踐領(lǐng)域,主流的專利分析軟件如Thomson Data Analyzer(TDA)、Aureka、HIT-恒庫(kù)等正是基于上述原理,實(shí)現(xiàn)了從批量專利文獻(xiàn)中抽取專利分類號(hào)或技術(shù)特征詞匯進(jìn)行統(tǒng)計(jì)、聚類分析的功能,并用可視化的方式展示分析結(jié)果,生成相應(yīng)的專利地圖,進(jìn)行技術(shù)熱點(diǎn)監(jiān)測(cè)。以Aureka為例,它提供了ThemeSeape地形圖功能,以分析的專利樣本為基礎(chǔ),對(duì)其中相關(guān)詞匯的詞頻應(yīng)用聚類分析生成主題(詞匯)地形圖,以此來(lái)描述專利技術(shù)熱點(diǎn)的分布情況。

但是,由于IPC的分類原則是將同一技術(shù)主題歸在同一分類位置,使之具有相同的分類號(hào),即側(cè)重于對(duì)單一技術(shù)主題進(jìn)行分類,而且IPC將專利要求的技術(shù)主題作為一個(gè)整體來(lái)分類,而不是對(duì)其各個(gè)組成部分分別進(jìn)行分類,因此分類不徹底,也造成分類不夠細(xì),某個(gè)分類號(hào)下存在大量文獻(xiàn)。這樣一來(lái),基于IPC分類號(hào)的技術(shù)熱點(diǎn)難免存在偏差,且比較宏觀,難以反映企業(yè)關(guān)注的微觀技術(shù)熱點(diǎn)變化,更難以揭示技術(shù)日新月異的變化和發(fā)展。而利用模式匹配、規(guī)則基礎(chǔ)和自然語(yǔ)言處理技術(shù)直接從專利文本中抽取詞和詞組進(jìn)行統(tǒng)計(jì)或聚類分析,雖然相對(duì)比較精確和具體,但也存在著一些相關(guān)陛較高的詞組或短語(yǔ),因?yàn)槌霈F(xiàn)過(guò)于頻繁而容易被軟件分析系統(tǒng)自動(dòng)剔除,造成分析的誤差。因此,如何提高基于專利文獻(xiàn)技術(shù)熱點(diǎn)監(jiān)測(cè)的準(zhǔn)確性,如何利用專利引文所承載的技術(shù)關(guān)聯(lián)信息進(jìn)行獲取和關(guān)聯(lián)挖掘,如何對(duì)已有的宏觀技術(shù)熱點(diǎn)和微觀技術(shù)熱點(diǎn)監(jiān)測(cè)進(jìn)行補(bǔ)充,是本文研究的主要問(wèn)題。

2 基于專利引證的技術(shù)熱點(diǎn)監(jiān)測(cè)方法

2.1 專利引文的技術(shù)情報(bào)價(jià)值

專利對(duì)先有技術(shù)(prior art)和科學(xué)論文的引用是科學(xué)和技術(shù)發(fā)展規(guī)律的表現(xiàn),它體現(xiàn)了科學(xué)和技術(shù)的累積性、連續(xù)性和繼承性,也體現(xiàn)了不同學(xué)科、不同研究層次之間的交叉、滲透。大多數(shù)發(fā)明不是“無(wú)中生有”的,一般發(fā)明人在進(jìn)行發(fā)明創(chuàng)造活動(dòng)時(shí),會(huì)參考具有相同發(fā)明目的的先有技術(shù)的發(fā)明創(chuàng)造內(nèi)容和發(fā)明人所熟知的先有技術(shù)。另外,專利審查員審查專利文件時(shí)常會(huì)將被審查的專利與主題相近的先有技術(shù)相比較,這兩種方式導(dǎo)致了專利引文的出現(xiàn)。Arehibugi和Pianta指出,專利引文數(shù)據(jù)廣泛地提供了具體技術(shù)領(lǐng)域某一技術(shù)發(fā)明的相關(guān)技術(shù)信息。

1965年,普賴斯創(chuàng)造性地研究了科學(xué)論文之間的施引與被引證關(guān)系,以及由此形成的所謂“引證網(wǎng)絡(luò)”。專利引證網(wǎng)絡(luò)是將文獻(xiàn)計(jì)量引證網(wǎng)絡(luò)的對(duì)象從科技論文到專利文獻(xiàn)的直接延伸,通過(guò)繪制專利引證關(guān)系圖來(lái)考察互相引證的專利的關(guān)聯(lián)程度和技術(shù)相互間的影響,尋找最早被引證的專利文獻(xiàn),洞悉專利的繼承性和發(fā)展歷程。專利與其引證論文或引證專利密切相關(guān),反映了相同或相近的技術(shù)創(chuàng)新,這種相關(guān)性是由技術(shù)本身的傳承和發(fā)展而形成的。據(jù)此,利用各種數(shù)學(xué)以及統(tǒng)計(jì)學(xué)的方法對(duì)專利與專利之間的施引和被引現(xiàn)象進(jìn)行比較、歸納、抽象判斷,以探索其數(shù)量特征及內(nèi)在價(jià)值,專利引文分析也具有重要的技術(shù)競(jìng)爭(zhēng)情報(bào)價(jià)值。

2.2 基于專利引證進(jìn)行技術(shù)熱點(diǎn)監(jiān)測(cè)方面的實(shí)踐應(yīng)用

借助專利與專利間的引用與被引用關(guān)系,不僅可以揭示出專利的理論、技術(shù)起源,而且可以對(duì)技術(shù)領(lǐng)域中的技術(shù)前沿和技術(shù)熱點(diǎn)進(jìn)行追蹤。Mogee等利用專利同被引(patent co-cltation)對(duì)2808條Eli Lilly公司的專利數(shù)據(jù)進(jìn)行聚類分析,識(shí)別該公司的核心專利技術(shù)和技術(shù)熱點(diǎn)群組,發(fā)現(xiàn)主要的技術(shù)熱點(diǎn)(teehnolo-gy fronts)。孫濤濤等基于專利耦合關(guān)系,指出同時(shí)引用相同基礎(chǔ)技術(shù)專利簇的另一個(gè)專利簇(base tech-nology)可以構(gòu)成技術(shù)熱點(diǎn)。尹麗春等將文獻(xiàn)計(jì)量學(xué)中的共被引方法應(yīng)用到專利文獻(xiàn)的研究中,對(duì)在我國(guó)申請(qǐng)的數(shù)字信息傳輸領(lǐng)域中的專利技術(shù)前沿問(wèn)題進(jìn)行探討。

目前市場(chǎng)上各種專業(yè)的商業(yè)化專利分析軟件(如法國(guó)IMCS的Matheo Analyzer、美國(guó)湯森路透旗下的Aureka、Innovation和Delphion、中國(guó)恒和頓的HIT-恒庫(kù)等)幾乎都有繪制引證網(wǎng)絡(luò)圖的功能,利于追溯目標(biāo)技術(shù)的起源和發(fā)展。但是這些軟件工具無(wú)法利用專利文獻(xiàn)中的同被引或耦合技術(shù),借助可視化關(guān)系揭示技術(shù)前沿或者技術(shù)熱點(diǎn)。

2.3 基于專利引證的技術(shù)熱點(diǎn)監(jiān)測(cè)方法設(shè)計(jì)

研究首先通過(guò)基于“關(guān)鍵詞+專利引文”的檢索策略,從專利數(shù)據(jù)庫(kù)中檢索、下載研究主題范圍內(nèi)的原始專利數(shù)據(jù),構(gòu)建本地專利專題數(shù)據(jù)庫(kù);其次,按照分析需要對(duì)本地原始專利數(shù)據(jù)進(jìn)行拙取,將專利號(hào)、題名、發(fā)明人等專利著錄項(xiàng)從專利文獻(xiàn)中抽取出來(lái),完成數(shù)據(jù)預(yù)處理;再次,分別利用專利耦合聚類和具體概念詞聚類,實(shí)現(xiàn)由淺至深、由粗到細(xì)的技術(shù)熱點(diǎn)監(jiān)測(cè)。具體實(shí)施流程如圖l所示:

值得注意的是,為了構(gòu)建準(zhǔn)確、有效的專題數(shù)據(jù)集-進(jìn)行分析,專利數(shù)據(jù)檢索至關(guān)重要。在專利數(shù)據(jù)采集的過(guò)程中,首先采用關(guān)鍵詞試檢,從試檢結(jié)果中尋找相

應(yīng)表達(dá)的同義或近義詞,擴(kuò)充、調(diào)整檢索策略,力求保證關(guān)鍵詞的全面性與準(zhǔn)確性,構(gòu)建初始專利數(shù)據(jù)集。然后對(duì)初始專利數(shù)據(jù)集中的專利進(jìn)行被引頻次排序,遴選25-50個(gè)高被引專利作為種子專利,并請(qǐng)領(lǐng)域?qū)<覍?duì)種子專利進(jìn)行判讀。如果專家認(rèn)為研究領(lǐng)域的種子專利不準(zhǔn)確,則需要重新回到第一步,調(diào)整檢索策略進(jìn)行數(shù)據(jù)檢索。

此外,在利用專利耦合進(jìn)行技術(shù)監(jiān)測(cè)的過(guò)程中,要注意設(shè)定合適的專利耦合閾值,閾值過(guò)大或過(guò)小都會(huì)影響耦合矩陣的構(gòu)建,從而影響耦合技術(shù)熱點(diǎn)的聚類。同時(shí),那些低于耦合閾值的專利內(nèi)容相對(duì)分散,較難形成熱點(diǎn),應(yīng)該予以舍棄。

2.3.1 基于專利引證的技術(shù)領(lǐng)域數(shù)據(jù)集構(gòu)建 利用專利引文和專利引文索引能識(shí)別那些用其他方式不能識(shí)別的專利之間的關(guān)系,而且這些關(guān)系往往可以使相關(guān)信息的檢索變得迅速。正如Garfield E所言,除了專利引文和專利引文索引,現(xiàn)在尚無(wú)一種更加有效的工具可以確定某一專利所透露的技術(shù)是如何被改動(dòng)、完善和利用的。馬海群指出,引用檢索作為傳統(tǒng)專利情報(bào)檢索方式(如分類或主題檢索)的重要補(bǔ)充,可以有效地提高專利檢索的查準(zhǔn)率和查全率。借助專利與專利間的引用與被引用關(guān)系,本文提出“關(guān)鍵詞+專利引文”的技術(shù)領(lǐng)域?qū)@墨I(xiàn)數(shù)據(jù)集構(gòu)建方法,獲得同一批技術(shù)專利技術(shù)起源的所有相關(guān)專利數(shù)據(jù),提升檢索效率、增強(qiáng)資料的搜集性及準(zhǔn)確性,具體步驟如下:①與領(lǐng)域?qū)<矣懻摚_定相關(guān)檢索技術(shù)關(guān)鍵詞,確定檢索式進(jìn)行關(guān)鍵詞檢索;②根據(jù)初檢結(jié)果,構(gòu)建與專題技術(shù)相關(guān)的初始專利數(shù)據(jù)集;③遴選TOP25-TOP50高被引專利作為該技術(shù)領(lǐng)域的種子專利;④檢索引證種子專利的專利(citing patent)及其被引專利(cited patent),構(gòu)建專題技術(shù)數(shù)據(jù)集。

通過(guò)上述步驟,構(gòu)建待分析的技術(shù)專題數(shù)據(jù)集,其專利引證關(guān)系如圖2所示:

2.3.2 技術(shù)熱點(diǎn)監(jiān)測(cè)方法文獻(xiàn)中的間接關(guān)聯(lián)包括文獻(xiàn)耦合和同被引兩種,都能用來(lái)確定研究熱點(diǎn)(re-search fronts)。正如Persson和Morris。所言,耦合論文可以反映“研究熱點(diǎn)”的知識(shí)結(jié)構(gòu),同被引論文則提供了一種知識(shí)基礎(chǔ)(intellectual base)的知識(shí)結(jié)構(gòu)。Glanzel指出論文從發(fā)表到被引用期問(wèn)有一個(gè)明顯的時(shí)滯,用同被引來(lái)映射學(xué)科結(jié)構(gòu)存在時(shí)差,而耦合分析則可以實(shí)時(shí)地反映學(xué)科最新的動(dòng)態(tài)變化。Van denBesselaar P等也指出,耦合測(cè)度的是源文獻(xiàn)之間的關(guān)系,同被引測(cè)度的是被引文獻(xiàn)之間的關(guān)系。前者是基于有意識(shí)的行為,即著者有意地將兩篇文獻(xiàn)聯(lián)系起來(lái),而后者僅是兩篇文獻(xiàn)出現(xiàn)之后的偶然關(guān)聯(lián)。因此,文獻(xiàn)耦合更適于最新研究主題的揭示。

為了在基于IPC分類號(hào)的宏觀技術(shù)熱點(diǎn)和基于詞的微觀技術(shù)熱點(diǎn)中找到一個(gè)較好的平衡點(diǎn),本文首先利用專利之間的耦合關(guān)系獲得耦合專利簇,形成中觀層面上的技術(shù)熱點(diǎn)?技術(shù)熱點(diǎn)交由領(lǐng)域?qū)<易R(shí)別,為其命名。其次,引入時(shí)間軸的概念,對(duì)耦合聚類實(shí)現(xiàn)的技術(shù)熱點(diǎn)發(fā)展趨勢(shì)進(jìn)行分析,幫助技術(shù)決策者了解每個(gè)技術(shù)熱點(diǎn)隨時(shí)間的發(fā)展變化情況。再次,利用自然語(yǔ)言處理技術(shù),從技術(shù)熱點(diǎn)的專利文本中抽取詞和詞組進(jìn)行統(tǒng)汁和聚類分析,獲得以概念詞為表征的技術(shù)熱點(diǎn),輔助技術(shù)決策。

3 實(shí)證研究

3.1 數(shù)據(jù)集的構(gòu)建

本文采川基于專利引證的方法構(gòu)建技術(shù)領(lǐng)域?qū)n}數(shù)據(jù)集。研究以DVD領(lǐng)域激光頭技術(shù)為例,經(jīng)與領(lǐng)域?qū)<矣懻摚瑢ptical head、pickup和pick up確定為檢索關(guān)鍵詞,從美國(guó)專利商標(biāo)局(USPTO)文摘庫(kù)中檢索1995-2004年1O年間的專利數(shù)據(jù),檢索出1934個(gè)專利構(gòu)建DVD激光頭技術(shù)領(lǐng)域初始專利數(shù)據(jù)集。從巾遴選TOP25高被引專利作為該技術(shù)領(lǐng)域的種子專利。從USPT0數(shù)據(jù)庫(kù)中檢索出種子專利的729個(gè)施引專利(citing patent),去重后得到515個(gè)。上述515個(gè)專利又引用了3397個(gè)(去重后)被引專利(cited patent)。分別將上述數(shù)據(jù)下載到本地,構(gòu)建專題數(shù)據(jù)庫(kù),作為本次研究的分析對(duì)象。

3.2 基于專利耦合的技術(shù)熱點(diǎn)分析

研究首先將515個(gè)專利和3397個(gè)被引專利的專利號(hào)(patent number)、題名(title)、授權(quán)日期(issuedate)、專利權(quán)人(assignee)、技術(shù)分類號(hào)(IPC)從數(shù)據(jù)集中抽取出來(lái),為后續(xù)分析做準(zhǔn)備。然后將研究的耦合閾值確定為4,對(duì)原始數(shù)據(jù)集中的515個(gè)專利進(jìn)行篩選,舍棄專利耦合強(qiáng)度少于4的那部分專利,得到272個(gè)專利作進(jìn)一步的分析。

其次,根據(jù)專利之間的引證關(guān)系,生成專利初始引證矩陣。這是個(gè)典型的二值矩陣,即矩陣中所有的元素取值均為0或者1,如果兩個(gè)專利之間存在著引證關(guān)系,即取值為1;如果兩個(gè)專利之間不存在引證關(guān)系,即取值為0。本例中的研究對(duì)象有272個(gè)專利,需要生成272×272的矩陣,由于文章篇幅限制,略去原始的272×272矩陣。專利初始引證矩陣是一個(gè)不對(duì)稱矩陣,根據(jù)初始引證矩陣轉(zhuǎn)換成對(duì)稱的專利耦合矩陣。

再次,采用層次聚類法對(duì)專利單元樣本進(jìn)行聚類分析。聚類的過(guò)程是:先將n維專利耦合矩陣轉(zhuǎn)換成n維的相似矩陣,然后根據(jù)一定的聚類算法把分析對(duì)象分成類群。在選擇相似性(similarity)測(cè)度方法時(shí),本文采用了Dice相關(guān)系數(shù)來(lái)對(duì)耦合距陣進(jìn)行標(biāo)準(zhǔn)化處理,采用離差平方和法(ward’s method)計(jì)算類間距離。上述步驟用Matlab提供的statistics toolbox工具,選擇層次聚類方法實(shí)現(xiàn),將耦合強(qiáng)度大于4的專利聚成了10個(gè)小類的專利簇,得到10個(gè)技術(shù)熱點(diǎn),并通過(guò)領(lǐng)域?qū)<規(guī)椭?,給每個(gè)技術(shù)子主題命名。

最后,繪制各技術(shù)熱點(diǎn)的發(fā)展演變圖,考察技術(shù)熱點(diǎn)在10年間的發(fā)展變化。從DVD激光頭技術(shù)各個(gè)子技術(shù)主題在10年間(1995-2004年)的發(fā)展趨勢(shì)來(lái)看,大部分子技術(shù)主題在1997-2002年處于上升階段,隨后縮量發(fā)展,從一個(gè)側(cè)面說(shuō)明激光頭技術(shù)整體而言已經(jīng)相對(duì)成熟,自2003年始發(fā)明創(chuàng)新逐漸減少。其中,生命力最為旺盛的是技術(shù)熱點(diǎn)4――光記錄設(shè)備,從1997年至2004年不斷有新技術(shù)發(fā)明問(wèn)世。DVD激光頭技術(shù)10個(gè)熱點(diǎn)的發(fā)展演變?nèi)鐖D3所示:

3.3 基于詞聚類的技術(shù)熱點(diǎn)分析

為了考察光記錄設(shè)備這一技術(shù)熱點(diǎn)的具體情況,隨后將光記錄設(shè)備的87條專利數(shù)據(jù)導(dǎo)入Patentics專利檢索分析平臺(tái),進(jìn)行概念聚類分析,得到10組概念索引詞,表征光記錄設(shè)備的詳細(xì)技術(shù)熱點(diǎn),見(jiàn)表1。

其中,關(guān)于物鏡的專利占了該技術(shù)熱點(diǎn)的1/4,其次為光度頭和激光束。在這些子技術(shù)熱點(diǎn)中,日立、松下電工、富士施樂(lè)、日本電氣等日本企業(yè)在光度頭中表現(xiàn)突出,日立、富士施樂(lè)、希捷等企業(yè)在激光束中有較大的技術(shù)優(yōu)勢(shì)。

4 研究結(jié)論

篇9

近年來(lái)遼寧沿海經(jīng)濟(jì)帶作為環(huán)渤海經(jīng)濟(jì)圈整體開(kāi)發(fā)的重要組成部分,經(jīng)濟(jì)產(chǎn)生了飛速的發(fā)展,隨著經(jīng)濟(jì)全球化進(jìn)程的加快促使客運(yùn)量和貨運(yùn)量的快速增加,現(xiàn)代物流業(yè)已經(jīng)成為了遼寧省的支柱產(chǎn)業(yè),港口作為客運(yùn)和貨運(yùn)的最佳途徑在社會(huì)經(jīng)濟(jì)發(fā)展中的作用日益凸顯,必然使得港口物流成為了發(fā)展現(xiàn)代物流業(yè)的重中之重。為了加快遼寧省港口物流的發(fā)展,提高港口物流效率,保持港口的持續(xù)性競(jìng)爭(zhēng)優(yōu)勢(shì),就需要將各港口進(jìn)行橫向的比較了解其地域差異,從而有針對(duì)性的提高遼寧沿海港口物流的效率 [1-2]。

1 研究方法

1.1 聚類分析方法與步驟

聚類分析[3](Cluster Analysis),亦稱群分析或點(diǎn)群分析,它是研究多要素事物分類問(wèn)題的數(shù)量方法。在根據(jù)對(duì)象間的關(guān)聯(lián)程度進(jìn)行聚類分析時(shí),有些類別是屬于隱藏狀態(tài)的,聚類分析之前并不知道具體能夠分為幾種類別,因此要根據(jù)樣本自身的屬性,用數(shù)學(xué)方法按照某種相似性或差異性指標(biāo),定量地確定樣本之間的親疏關(guān)系,并按這種親疏關(guān)系程度對(duì)樣本進(jìn)行聚類。在聚類分析中,聚類要素的選擇直接影響著分類結(jié)果的可靠性。

對(duì)聚類要素進(jìn)行數(shù)據(jù)處理。假設(shè)有m個(gè)聚類的對(duì)象,每一個(gè)聚類對(duì)象都有x1…,x2,…xn個(gè)要素構(gòu)成。在聚類分析中,常用的聚類要素的數(shù)據(jù)處理方法有總和標(biāo)準(zhǔn)化、標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化、極大值標(biāo)準(zhǔn)化和極差標(biāo)準(zhǔn)化。

距離的計(jì)算。距離是系統(tǒng)聚類分析的依據(jù)和基礎(chǔ),選擇不同的距離,則會(huì)使聚類結(jié)果產(chǎn)生差異,在地理分區(qū)和分類研究中,往往采用絕對(duì)值距離、歐式距離、明科夫斯基距離以及切比雪夫距離進(jìn)行計(jì)算、對(duì)比,選擇一種較為合適的距離進(jìn)行聚類。

利用計(jì)算和程序進(jìn)行聚類。聚類分析的方法主要有直接聚類法、最短距離聚類法、、最遠(yuǎn)距離聚類法、中線法、重心法、組平均法、距離平方和法、可變數(shù)平均法、可變法[3]這九種系統(tǒng)聚類分析方法。

1.2 指標(biāo)選取

“十一五”以來(lái),遼寧沿海港口集裝箱吞吐量雖然呈大幅度上升趨勢(shì),但是與全國(guó)其他主要港口相比,其總體增長(zhǎng)幅度處于全國(guó)中等水平,2000年全省港口集裝箱吞吐量為122萬(wàn)TEU,2005年達(dá)到368.9萬(wàn)TEU,2010年僅大連港就達(dá)到526.2萬(wàn)TEU,而上海港達(dá)到2906.9萬(wàn)TEU、深圳港2250.97萬(wàn)TEU、寧波-舟山港1314.4萬(wàn)TEU、青島港1201萬(wàn)TEU、天津港1000萬(wàn)TEU,是大連港的2-2.5倍。為了進(jìn)一步了解遼寧沿海港口群各主要港口的差異情況,有必要從空間的角度來(lái)分析遼寧省沿海港口群的發(fā)展?fàn)顩r。遼寧港口承擔(dān)了東北地區(qū)70%以上的海運(yùn)貨物,80%以上的外貿(mào)物資和90%以上的外貿(mào)集裝箱運(yùn)輸[4-5]。根據(jù)交通運(yùn)輸部的統(tǒng)計(jì)數(shù)據(jù),提取2010年1月份至10月份的遼寧主要港口企業(yè)內(nèi)、外貿(mào)集裝箱吞吐量作為聚類分析的指標(biāo),從而對(duì)遼寧沿海港口物流的地域差異進(jìn)行研究。

2 遼寧沿海港口物流的地域差異研究分析

在SPSS中,根據(jù)聚類的過(guò)程不同聚類方法主要分為三種:分層聚類法(Hierarchical Cluster)、K-均值聚類(K-Means Cluster)和兩步聚類(Two Step Cluster),本文選擇SPSS中的分層聚類法(Hierarchical Cluster)對(duì)遼寧沿海港口物流進(jìn)行地域差異的分析。分層聚類分析又稱系統(tǒng)聚類分析,是聚類分析中最常用的方法,將關(guān)系密切與關(guān)系疏遠(yuǎn)的分別聚合,直到把遼寧沿海的所有港口聚合成唯一的類別為止。首先,對(duì)原始指標(biāo)數(shù)據(jù)進(jìn)行處理,這里利用標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化的對(duì)原始數(shù)據(jù)進(jìn)行轉(zhuǎn)換,同時(shí)進(jìn)行相似性與距離測(cè)度,然后對(duì)標(biāo)準(zhǔn)化后的數(shù)據(jù)進(jìn)行聚類分析[6]。

用SPSS完成聚類運(yùn)算各步驟之后,得出聚類分析結(jié)果的層次聚類樹(shù)形圖(如圖1所示),由圖可以看出,可將7個(gè)港口企業(yè)集裝箱碼頭分為三類,第一類包括(2,3);第二類包括(5,6);第三類包括(1,4,7)。從這個(gè)分類結(jié)果可以看出,大連集裝箱碼頭有限公司和大連港灣集裝箱碼頭有限公司競(jìng)爭(zhēng)力最強(qiáng),港口物流發(fā)展最快,營(yíng)口集裝箱碼頭有限公司和營(yíng)口新世紀(jì)集裝箱碼頭有限公司其次,丹東港集團(tuán)集裝箱公司、錦州新時(shí)代集裝箱碼頭有限公司以及大連國(guó)際集裝箱碼頭有限公司發(fā)展相對(duì)較弱。這基本合遼寧港口物流發(fā)展的現(xiàn)狀,遼東半島以大連港作為集裝箱干線港的主要樞紐港,營(yíng)口港、丹東港、錦州港等為支線港[7]。地處東北亞經(jīng)濟(jì)發(fā)展圈中心的大連港,具有極其優(yōu)越的發(fā)展區(qū)位,并且根據(jù)交通運(yùn)輸部的統(tǒng)計(jì),大連港在2010年我國(guó)沿海港口貨物吞吐量排名第六,營(yíng)口排名第十,但是國(guó)際集裝箱運(yùn)輸相對(duì)薄弱一些,2010年全年有六個(gè)月份以上在全國(guó)港口國(guó)際標(biāo)準(zhǔn)集裝箱吞吐量排名第八,營(yíng)口港除4月、5月、6月三個(gè)月份排名第十之外,其余都未上榜,說(shuō)明還需要加強(qiáng)國(guó)際標(biāo)準(zhǔn)集裝箱方面的發(fā)展。

3 結(jié)語(yǔ)

本研究提出通過(guò)采用聚類分析的方法來(lái)研究港口物流地域差異的問(wèn)題,建立相應(yīng)的數(shù)學(xué)模型并進(jìn)行實(shí)際比較,所得比較結(jié)果有一定的說(shuō)服力,對(duì)提高遼寧省港口物流發(fā)展以及相關(guān)政策的規(guī)定和執(zhí)行有一定的參考價(jià)值。

參考文獻(xiàn):

[1]李學(xué)工,楊賀.現(xiàn)代港口物流產(chǎn)業(yè)組織的空間布局.水運(yùn)管理[J].2007(2).

[2]劉.環(huán)渤海港口競(jìng)爭(zhēng)力的地域差異分析及因果研究[D].研究生碩士學(xué)位論文,2009.

[3]徐建華.現(xiàn)代地理學(xué)中的數(shù)學(xué)方法[M].高等教育,2009.

[4]戚馨,韓增林.遼寧省主要港口物流效率分析[J].港口物流,2007(10).

篇10

Key words: colleges and universities;research status;factor analysis;cluster analysis;evaluate

中圖分類號(hào):G463 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1006-4311(2016)31-0015-04

0 引言

科研能力是衡量一所高??平趟降闹匾獦?biāo)志。某高校作為省重點(diǎn)高校有著悠久的辦學(xué)歷史,科研水平在省內(nèi)也是名列前茅,本文針對(duì)該高校20個(gè)學(xué)院的各項(xiàng)科研指標(biāo)進(jìn)行多元統(tǒng)計(jì)分析,建立了描述科研水平的各類變量,包括各類科研項(xiàng)目的經(jīng)費(fèi)總額、各類論文的發(fā)表數(shù)量、論著發(fā)表數(shù)量,投入科研人員數(shù)量等。但由于各學(xué)院規(guī)模不一,各學(xué)院科研性質(zhì)也不盡相同,為了保證研究結(jié)果的平衡性,本文采用對(duì)科研成果人均貢獻(xiàn)率的方式進(jìn)行研究。然而進(jìn)行統(tǒng)計(jì)分析時(shí),并非變量收集的越多越有利,變量間信息的高度相關(guān)、高度重疊會(huì)給統(tǒng)計(jì)方法的應(yīng)用帶來(lái)許多困難,因此本文借助SPSS統(tǒng)計(jì)分析軟件,采用因子分析方法,在眾多變量中提取影響各學(xué)院科研狀況的主要因子對(duì)問(wèn)題進(jìn)行分析,最后通過(guò)因子變量的聚類分析對(duì)評(píng)價(jià)結(jié)果進(jìn)行驗(yàn)證。國(guó)內(nèi)學(xué)者目前主要集中對(duì)我國(guó)體育事業(yè)進(jìn)行科研狀況分析,如賈志強(qiáng)、鄭巖平對(duì)我國(guó)1995-2000年籃球科研狀況作了分析。張金、夏秀榮對(duì)我國(guó)1994-2003年排球科研狀況作了分析。在高??蒲袪顩r分析方面,孟學(xué)英、陳春華利用調(diào)查問(wèn)卷方式對(duì)我國(guó)部分高職院校教師科研狀況做了調(diào)查分析。同時(shí)國(guó)內(nèi)對(duì)多元統(tǒng)計(jì)方法的應(yīng)用也主要集中在醫(yī)療、經(jīng)濟(jì)方面,如孟瑩、謝守祥等利用多元統(tǒng)計(jì)分析方法對(duì)江蘇省經(jīng)濟(jì)差異化做了分析。王曦、宋劍南利用多元統(tǒng)計(jì)分析方法對(duì)影響中醫(yī)癥候的主要因素做了研究。利用多元統(tǒng)計(jì)分析方法結(jié)合高效科研狀況評(píng)價(jià)分析還鮮有研究。本文結(jié)合多元統(tǒng)計(jì)分析分析方法對(duì)某高??茖W(xué)地建立高??蒲袠I(yè)績(jī)的管理體系及評(píng)價(jià)體系提供了理論依據(jù)。

1 因子分析方法簡(jiǎn)介

因子分析是利用降維的思想,由研究原始變量相關(guān)矩陣內(nèi)部的依賴關(guān)系出發(fā),把一些具有錯(cuò)綜復(fù)雜關(guān)系的變量歸結(jié)為少數(shù)幾個(gè)綜合因子的一種多變量統(tǒng)計(jì)分析方法。因子分析的基本思想是根據(jù)相關(guān)性大小把原始變量分組,使得同組內(nèi)的變量之間相關(guān)性較高,而不同組的變量之間的相關(guān)性則較低。每組變量代表一個(gè)基本結(jié)構(gòu),并用一個(gè)不可觀測(cè)的綜合變量表示,這個(gè)基本結(jié)構(gòu)就稱為公共因子。對(duì)于所研究問(wèn)題的某一具體問(wèn)題,原始變量可以分解成兩部分之和的形式,一部分是少數(shù)幾個(gè)不可測(cè)的所謂公共因子的線性函數(shù),另一部分是與公共因子無(wú)關(guān)的特殊因子。進(jìn)行因子分析的步驟如下:①根據(jù)研究問(wèn)題選取原始變量。②對(duì)原始變量進(jìn)行標(biāo)準(zhǔn)化并求其相關(guān)陣,分析變量之間的相關(guān)性。③求解初始公共因子及因子載荷矩陣。④因子旋轉(zhuǎn)。⑤因子得分。⑥根據(jù)因子得分值進(jìn)行進(jìn)一步分析。

2 各學(xué)院科研狀況的因子分析

2.1 數(shù)據(jù)分析和指標(biāo)選取

本文選用的數(shù)據(jù)來(lái)源于某高校2006年至2015年的統(tǒng)計(jì)數(shù)據(jù)。設(shè)定數(shù)據(jù)中8個(gè)指標(biāo)變量分別是X1:2006-2015年橫向項(xiàng)目金額人均貢獻(xiàn)率(萬(wàn)元/人);X2:2006-2015年市校級(jí)項(xiàng)目金額人均貢獻(xiàn)率(萬(wàn)元/人);X3:2006-2015年省部級(jí)項(xiàng)目金額人均貢獻(xiàn)率(萬(wàn)元/人);X4:2006-2015年國(guó)家級(jí)項(xiàng)目金額人均貢獻(xiàn)率(萬(wàn)元/人);X5:A類論文人均貢獻(xiàn)率(篇/人);X6:B類論文人均貢獻(xiàn)率(篇/人);X7:C類論文人均貢獻(xiàn)率(篇/人);X8:論著數(shù)量人均貢獻(xiàn)率(項(xiàng)/人)。數(shù)據(jù)詳情見(jiàn)表1。

在進(jìn)行數(shù)據(jù)分析前,進(jìn)行KMO檢驗(yàn),P值為0.000,檢驗(yàn)結(jié)果是顯著的,同時(shí)KMO值達(dá)到0.577,結(jié)果見(jiàn)表2,表明數(shù)據(jù)之間具有一定的相關(guān)性,可進(jìn)行因子分析。

從表3變量共同度表中可以看出因子分析的變量共同度均較高,表明變量中的大部分信息均被因子所提取,說(shuō)明因子分析的結(jié)果是有效的。

2.2 因子提取和因子解釋

現(xiàn)應(yīng)用主成分分析法來(lái)進(jìn)行因子提取和因子個(gè)數(shù)的確定,從表4中可以看出只有前三個(gè)因子特征根大于1,并且前三個(gè)因子特征值之和接近80%,故提取前三個(gè)因子基本包含了全部測(cè)評(píng)指標(biāo)的絕大部分信息,因子分析效果較理想。

由于初始載荷陣結(jié)構(gòu)不夠清晰,不便于對(duì)因子進(jìn)行解釋,因此對(duì)因子載荷矩陣實(shí)行旋轉(zhuǎn),達(dá)到簡(jiǎn)化結(jié)構(gòu)的目的,使各變量在某些因子上有較高載荷,而在其余因子上只有小到中等的載荷。這里采用方差最大正交旋轉(zhuǎn)法進(jìn)行因子旋轉(zhuǎn)。結(jié)果見(jiàn)表5。

從旋轉(zhuǎn)后的因子載荷矩陣來(lái)看,第一個(gè)主因子在省部級(jí)項(xiàng)目金額人均貢獻(xiàn)率、國(guó)家級(jí)項(xiàng)目金額人均貢獻(xiàn)率、A類論文人均貢獻(xiàn)率、B類論文人均貢獻(xiàn)率上具有較高載荷,第二個(gè)主因子在C類論文人均貢獻(xiàn)率、論著數(shù)量人均貢獻(xiàn)率上具有較高載荷,第三個(gè)主因子在橫向項(xiàng)目金額人均貢獻(xiàn)率、市校級(jí)項(xiàng)目金額人均貢獻(xiàn)率上具有較高載荷。

2.3 因子得分和因子變量

本文采用回歸法估計(jì)因子得分系數(shù),并輸出因子得分系數(shù)矩陣見(jiàn)表6。

根據(jù)表6可寫(xiě)出以下因子得分函數(shù):F1=-0.014橫向項(xiàng)目金額人均貢獻(xiàn)率-0.078市校級(jí)項(xiàng)目金額人均貢獻(xiàn)率+0.263省部級(jí)項(xiàng)目金額人均貢獻(xiàn)率+0.293國(guó)家級(jí)項(xiàng)目金額人均貢獻(xiàn)率+0.178A類論文人均貢獻(xiàn)率+0.508B類論文人均貢獻(xiàn)率+0.021C類論文人均貢獻(xiàn)率+0.174論著人均貢獻(xiàn)率(1);F2=-0.159橫向項(xiàng)目金額人均貢獻(xiàn)率+0.065市校級(jí)項(xiàng)目金額人均貢獻(xiàn)率+0.00省部級(jí)項(xiàng)目金額人均貢獻(xiàn)率-0.057國(guó)家級(jí)項(xiàng)目金額人均貢獻(xiàn)率-0.235A類論文人均貢獻(xiàn)率+0.393B類論文人均貢獻(xiàn)率+0.328C類論文人均貢獻(xiàn)率+0.570論著人均貢獻(xiàn)率(2);F3=0.442橫向項(xiàng)目金額人均貢獻(xiàn)率+0.582市校級(jí)項(xiàng)目金額人均貢獻(xiàn)率+0.123省部級(jí)項(xiàng)目金額人均貢獻(xiàn)率+0.010國(guó)家級(jí)項(xiàng)目金額人均貢獻(xiàn)率-0.076A類論文人均貢獻(xiàn)率-0.219B類論文人均貢獻(xiàn)率+0.384C類論文人均貢獻(xiàn)率-0.010論著人均貢獻(xiàn)率(3)

通過(guò)上述公式(1)、公式(2)和公式(3)可得到各個(gè)學(xué)院的因子得分。從而獲得三個(gè)因子變量,由于這三個(gè)因子變量是線性無(wú)關(guān)的。因此,可以利用它們對(duì)各個(gè)學(xué)院的科研狀況做統(tǒng)計(jì)分析。

3 各學(xué)院科研狀況的綜合評(píng)價(jià)分析

下面利用三個(gè)因子變量對(duì)2006年-2015年該高校各學(xué)院科研狀況做多元統(tǒng)計(jì)分析,并對(duì)各學(xué)院近10年來(lái)科研狀況進(jìn)行綜合評(píng)價(jià)。

首先畫(huà)出三因子變量的散點(diǎn)圖,對(duì)各學(xué)院近10年來(lái)科研狀況做對(duì)比分析。以第一因子變量為橫坐標(biāo),第二因子變量為縱坐標(biāo),第三因子變量為豎坐標(biāo)的三維散點(diǎn)圖如圖1所示。

從圖1中可以看出P學(xué)院、O學(xué)院、M學(xué)院等的第一因子很高。說(shuō)明這些學(xué)院在國(guó)家級(jí)項(xiàng)目人均貢獻(xiàn)率、省部級(jí)項(xiàng)目人均貢獻(xiàn)率、A類論文人均貢獻(xiàn)率、B類論文人均貢獻(xiàn)率上成績(jī)突出,但在橫向項(xiàng)目人均貢獻(xiàn)率上稍顯不足,這些學(xué)院應(yīng)該在保持尖端學(xué)術(shù)科研的前提下,多加強(qiáng)與企業(yè)的合作,創(chuàng)造更多產(chǎn)業(yè)應(yīng)用成果。L學(xué)院、R學(xué)院、N學(xué)院等的第二因子很高,說(shuō)明這些學(xué)院在論著人均貢獻(xiàn)率、C類論文人均貢獻(xiàn)率上成績(jī)突出,這與這些學(xué)院的科研性質(zhì)是密不可分的,第二因子很高的學(xué)院可以在保持自己科研特色的前提下,多關(guān)注學(xué)術(shù)前沿的相關(guān)信息,爭(zhēng)取在尖端科研中有更大的突破。如B學(xué)院、I學(xué)院等的第三因子很高,說(shuō)明這些學(xué)院在橫向項(xiàng)目人均貢獻(xiàn)率上成績(jī)突出,這些學(xué)院可以在緊密保持與企業(yè)的科研聯(lián)系的基礎(chǔ)上,加強(qiáng)自己在學(xué)科特色科研中的研究,多出一些基礎(chǔ)研究方面的尖端科研學(xué)術(shù)成果,增強(qiáng)學(xué)院在科研創(chuàng)新中的能力。

最后利用系統(tǒng)聚類分析法對(duì)各學(xué)院科研狀況進(jìn)行聚類分析,即利用三因子變量對(duì)20個(gè)學(xué)院進(jìn)行聚類,結(jié)果如表7所示,M學(xué)院、P學(xué)院、O學(xué)院和J學(xué)院為一類,B學(xué)院、I學(xué)院為一類,其它學(xué)院為一類。這個(gè)結(jié)果與散點(diǎn)圖分析的情況基本類似。

4 結(jié)束語(yǔ)

本文針對(duì)某高校各學(xué)院科研狀況進(jìn)行綜合評(píng)價(jià)分析,通過(guò)對(duì)高校近十年科研指標(biāo)數(shù)據(jù)進(jìn)行因子分析,將八個(gè)指標(biāo)變量分為三個(gè)科研因子,分別是高端科研因子、校企合作科研因子、基礎(chǔ)科研因子,并給出了因子得分模型,對(duì)各學(xué)院近十年的科研狀況給出了分析,最終的聚類分析結(jié)果也對(duì)各學(xué)院科研狀況做了驗(yàn)證說(shuō)明。論文的研究成果為科學(xué)地建立高??蒲袠I(yè)績(jī)的管理體系及評(píng)價(jià)體系提供了理論依據(jù)。

從分析結(jié)果來(lái)看,因?qū)W院科研特色不同,導(dǎo)致各個(gè)學(xué)院在學(xué)術(shù)科研這個(gè)萬(wàn)花筒中所扮演的角色也各不相同,但各學(xué)院之間還是應(yīng)當(dāng)加強(qiáng)科研合作,取他人之長(zhǎng)補(bǔ)己之短,這樣才能為該高校向科研大校、科研強(qiáng)校的進(jìn)軍道路上打下堅(jiān)實(shí)的基礎(chǔ)。

參考文獻(xiàn):

[1]薛薇.SPSS 統(tǒng)計(jì)分析方法及應(yīng)用[M].二版.北京:電子工業(yè)出版社,2006:303-349.

[2]張文彤.SPSS11統(tǒng)計(jì)分析教程―高級(jí)篇[M].北京:北京希望電子出版社,2002:166-210.

[3]李衛(wèi)東.應(yīng)用多元統(tǒng)計(jì)分析[M].北京:北京大學(xué)出版社,2008:226-240.

[4]閻慈琳.關(guān)于主成分分析做綜合評(píng)價(jià)的若干問(wèn)題[J].數(shù)理統(tǒng)計(jì)與管理,1998(2):22-24.

[5]胡永宏,賀思輝.綜合評(píng)價(jià)方法[M].北京:經(jīng)濟(jì)科學(xué)出版社, 2000.

篇11

Cluster Anlaysis Methods of Data Mining

HUANG Li-wen

(School of Science, Quanzhou Normal University, Quanzhou 362000, China)

Abstract: Cluster analysis is one of the important methods of multivariate statistical analysis, and this method has a wide range of applications in many fields. In this paper, the classification of the cluster is introduced briefly, and then gives some common methods of cluster analysis and the advantages and disadvantages of these methods,and these clustering method were compared and anslyzed so that people can chose suitable clustering methods according to the actual issues.

Key words: Cluster Analysis; Data Mining?

1 引言

聚類分析是數(shù)據(jù)挖掘中的重要方法之一,它把一個(gè)沒(méi)有類別標(biāo)記的樣本集按某種準(zhǔn)則劃分成若干個(gè)子類,使相似的樣品盡可能歸為一類,而不相似的樣品盡量劃分到不同的類中。目前,該方法已經(jīng)被廣泛地應(yīng)用于生物、氣候?qū)W、經(jīng)濟(jì)學(xué)和遙感等許多領(lǐng)域,其目的在于區(qū)別不同事物并認(rèn)識(shí)事物間的相似性。因此,聚類分析的研究具有重要的意義。

本文主要介紹常用的一些聚類方法,并從聚類的可伸縮性、類的形狀識(shí)別、抗“噪聲”能力、處理高維能力和算法效率五個(gè)方面對(duì)其進(jìn)行比較分析,以便人們根據(jù)實(shí)際的問(wèn)題選擇合適的聚類方法。

2 聚類的分類

聚類分析給人們提供了豐富多彩的分類方法,這些方法大致可歸納為以下幾種[1,2,3,4]:劃分方法、層次方法、基于密度的聚類方法、基于網(wǎng)格的聚類方法和基于模型的聚類方法。

2.1 劃分法(partitionging methods)

給定一個(gè)含有n個(gè)對(duì)象(或元組)的數(shù)據(jù)庫(kù),采用一個(gè)劃分方法構(gòu)建數(shù)據(jù)的k個(gè)劃分,每個(gè)劃分表示一個(gè)聚簇,且k≤n。在聚類的過(guò)程中,需預(yù)先給定劃分的數(shù)目k,并初始化k個(gè)劃分,然后采用迭代的方法進(jìn)行改進(jìn)劃分,使得在同一類中的對(duì)象之間盡可能地相似,而不同類的中的對(duì)象之間盡可能地相異。這種聚類方法適用于中小數(shù)據(jù)集,對(duì)大規(guī)模的數(shù)據(jù)集進(jìn)行聚類時(shí)需要作進(jìn)一步的改進(jìn)。

2.2 層次法(hietarchical methods)

層次法對(duì)給定數(shù)據(jù)對(duì)象集合按層次進(jìn)行分解,分解的結(jié)果形成一顆以數(shù)據(jù)子集為節(jié)點(diǎn)的聚類樹(shù),它表明類與類之間的相互關(guān)系。根據(jù)層次分解是自低向上還是自頂向下,可分為凝聚聚類法和分解聚類法:凝聚聚類法的主要思想是將每個(gè)對(duì)象作為一個(gè)單獨(dú)的一個(gè)類,然后相繼地合并相近的對(duì)象和類,直到所有的類合并為一個(gè),或者符合預(yù)先給定的終止條件;分裂聚類法的主要思想是將所有的對(duì)象置于一個(gè)簇中,在迭代的每一步中,一個(gè)簇被分裂為更小的簇,直到最終每個(gè)對(duì)象在單獨(dú)的一個(gè)簇中,或者符合預(yù)先給定的終止條件。在層次聚類法中,當(dāng)數(shù)據(jù)對(duì)象集很大,且劃分的類別數(shù)較少時(shí),其速度較快,但是,該方法常常有這樣的缺點(diǎn):一個(gè)步驟(合并或分裂)完成,它就不能被取消,也就是說(shuō),開(kāi)始錯(cuò)分的對(duì)象,以后無(wú)法再改變,從而使錯(cuò)分的對(duì)象不斷增加,影響聚類的精度,此外,其抗“噪聲”的能力也較弱,但是若把層次聚類和其他的聚類技術(shù)集成,形成多階段聚類,聚類的效果有很大的提高。

2.3 基于密度的方法(density-based methods)

該方法的主要思想是只要臨近區(qū)域的密度(對(duì)象或數(shù)據(jù)點(diǎn)的數(shù)目)超過(guò)某個(gè)閾值,就繼續(xù)聚類。也就是說(shuō),對(duì)于給定的每個(gè)數(shù)據(jù)點(diǎn),在一個(gè)給定范圍的區(qū)域中必須至少包含某個(gè)數(shù)目的點(diǎn)。這樣的方法就可以用來(lái)濾處"噪聲"孤立點(diǎn)數(shù)據(jù),發(fā)現(xiàn)任意形狀的簇。

2.4 基于網(wǎng)格的方法(grid-based methods)

這種方法是把對(duì)象空間量化為有限數(shù)目的單元,形成一個(gè)網(wǎng)格結(jié)構(gòu)。所有的聚類操作都在這個(gè)網(wǎng)格結(jié)構(gòu)上進(jìn)行。用這種方法進(jìn)行聚類處理速度很快,其處理時(shí)間獨(dú)立于數(shù)據(jù)對(duì)象的數(shù)目,只與量化空間中每一維的單元數(shù)目有關(guān)。

2.5 基于模型的方法(model-based method)

基于模型的方法為每個(gè)簇假定一個(gè)模型,尋找數(shù)據(jù)對(duì)給定模型的最佳擬合。該方法經(jīng)常基于這樣的假設(shè):數(shù)據(jù)是根據(jù)潛在的概率分布生成的。該方法主要有兩類:統(tǒng)計(jì)學(xué)方法和神經(jīng)網(wǎng)絡(luò)方法。

3 常用的聚類算法

目前,已經(jīng)提出的聚類算法很多,常用的聚類算法主要有以下幾種:系統(tǒng)聚類法、動(dòng)態(tài)聚類法、CLARANS、CURE、DBSCAN、STING和模糊聚類法(FCM)。

3.1 系統(tǒng)聚類法

系統(tǒng)聚類法[5]是將n個(gè)樣品看成n類,即一類包含一個(gè)樣品;然后將性質(zhì)最接近的兩類合并成一個(gè)新類,這樣就得到n-1類,再?gòu)倪@n-1類中找出性質(zhì)最接近的兩類加以合并,成了n-2類;如此下去,最后所有的樣品均成一類;將上述類的合并過(guò)程畫(huà)成一張圖(這圖常稱為聚類圖),這樣便可決定分多少類,每類各有什么樣品。

系統(tǒng)聚類法的計(jì)算簡(jiǎn)單,而且其聚類結(jié)果給出一個(gè)譜系圖,因此,可以根據(jù)該圖選擇所需要的聚類結(jié)果。但是,它也有不足之處,其主要表現(xiàn)在以下幾個(gè)方面:1)當(dāng)樣品數(shù)量很多時(shí),而且只需要?jiǎng)澐譃檩^少的類別時(shí),這種聚類方法的重復(fù)計(jì)算量很大;2)當(dāng)某一樣品劃歸某一個(gè)類后,其屬性不變,若分類方法的選擇不當(dāng),對(duì)聚類的精度影響很大;3)對(duì)大數(shù)據(jù)量進(jìn)行處理時(shí),計(jì)算機(jī)內(nèi)存開(kāi)銷(xiāo)很大,有時(shí),計(jì)算機(jī)受此限制而無(wú)法進(jìn)行聚類分析,而且其速度很慢;4)抗干擾的能力很弱。

3.2 動(dòng)態(tài)聚類算法

動(dòng)態(tài)聚類法[5]就是在開(kāi)始時(shí)先建立一批初始中心,而讓待分的各個(gè)樣品依據(jù)某種判別準(zhǔn)則向初始中心凝聚,然后再逐步修改調(diào)整中心,重新分類;并根據(jù)各類離散性統(tǒng)計(jì)量(如均方差)和兩類間可分離性的統(tǒng)計(jì)量(如類間標(biāo)準(zhǔn)化距離、J-M距離等)再進(jìn)行合并和分裂。此后在修改調(diào)整中心,這樣不斷繼續(xù)下去,直到分類比較合適為止。

動(dòng)態(tài)聚類法使用隨機(jī)方式選擇 作為初始聚類中心,按照算法的迭代執(zhí)行,整個(gè)算法的結(jié)束條件是類的重心(或凝聚點(diǎn))不再改變,它的計(jì)算復(fù)雜性是O(nkt),其中,n為樣本數(shù)量,k為聚類數(shù),t為迭代次數(shù)。與系統(tǒng)聚類法相比,動(dòng)態(tài)聚類法明顯的優(yōu)勢(shì)是運(yùn)算量小,能用于處理龐大的樣本數(shù)據(jù),也為實(shí)時(shí)處理提供了一定的可能性,但其也存在一些缺點(diǎn),主要表現(xiàn)在以下幾個(gè)方面:(1)動(dòng)態(tài)聚類法要求用戶必須事先給出聚類的數(shù)目,選擇初始劃分的最佳方向、更新分區(qū)和停止準(zhǔn)則,且其結(jié)果與數(shù)據(jù)輸入順序有關(guān),不同的初始值可能會(huì)導(dǎo)致不同的結(jié)果;(2)對(duì)于噪聲和孤立點(diǎn)敏感,很容易受例外情況的影響,適用于發(fā)現(xiàn)球狀類,但不適合發(fā)現(xiàn)非凸面狀的簇,不適合大小差別較大的簇;(3)一個(gè)對(duì)象只能屬于一個(gè)類中,不能多維揭示其多重屬性。

3.3 CLARANS算法

CLARANS[2,6,9]也叫隨機(jī)搜索聚類算法,是一種分割聚類方法。該算法是基于CLARA算法的改進(jìn),與CLARA算法不同的是:CLARA算法在每個(gè)階段都選取一個(gè)固定樣本,而CLARANS在搜索的每一步都帶一定的隨機(jī)性選取一個(gè)樣本,在替換了一個(gè)中心點(diǎn)后得到的聚類結(jié)果被稱為當(dāng)前聚類結(jié)果的鄰居,搜索的鄰居點(diǎn)數(shù)目被用戶定義的一個(gè)參數(shù)加以限制。如果找到一個(gè)比它更好的鄰居,則把中心點(diǎn)移到該鄰居節(jié)點(diǎn)上,否則把該點(diǎn)作為局部最小量,然后再隨機(jī)選擇一個(gè)點(diǎn)來(lái)尋找另一個(gè)局部最小量。

該算法能夠探測(cè)孤立點(diǎn),并適用于大型數(shù)據(jù)庫(kù),但其計(jì)算復(fù)雜度復(fù)雜度較高,大約為O(n2);此外,該算法對(duì)數(shù)據(jù)輸入的順序敏感,適用于凸形或球形數(shù)據(jù)。

3.4 CURE算法

CURE[6,7,8]算法是一種使用代表點(diǎn)的聚類算法。該方法首先把每個(gè)數(shù)據(jù)點(diǎn)看成一簇,然后再以一個(gè)特定的收縮因子向中心“收縮”,即合并兩個(gè)距離最近的代表點(diǎn)的簇,直至達(dá)到預(yù)先給定的聚類個(gè)數(shù)為止。它回避了用所有點(diǎn)或單個(gè)質(zhì)心來(lái)表示一個(gè)簇的傳統(tǒng)方法,將一個(gè)簇用多個(gè)代表點(diǎn)來(lái)表示,使CURE可以適應(yīng)非球形的幾何形狀。另外,收縮因子降底了噪音對(duì)聚類的影響,從而使CURE對(duì)孤立點(diǎn)的處理更加健壯,而且能識(shí)別非球形和大小變化比較大的簇。

該算法采用隨機(jī)抽樣與分割相結(jié)合的方法來(lái)提高聚類效率,對(duì)于大型數(shù)據(jù)庫(kù),它也具有良好的伸縮性,運(yùn)行速度很快,而且有較好的聚類效果,其計(jì)算復(fù)雜度為O(n)。

3.5 DBSCAN算法

DBSCAN算法[6,7,8,9]是一種基于高密度連接區(qū)域密度的聚類算法。該方法將密度足夠高的區(qū)域劃分為簇,并可以在帶有“噪聲”的空間數(shù)據(jù)庫(kù)中發(fā)現(xiàn)任意形狀的聚類。其主要的思想是通過(guò)檢查數(shù)據(jù)庫(kù)中每個(gè)點(diǎn)的ε-鄰域來(lái)尋找聚類。如果第一個(gè)點(diǎn)p的ε-鄰域包含多于MinPts個(gè)點(diǎn),則創(chuàng)建一個(gè)以P作為核心對(duì)象的新簇,否則先把它暫時(shí)標(biāo)為噪聲點(diǎn),跳到下一個(gè)點(diǎn),并判斷它是否為核心點(diǎn)。然后反復(fù)地尋找從這些核心點(diǎn)直接密度可達(dá)的對(duì)象,當(dāng)沒(méi)有新的點(diǎn)可以被添加到任何簇時(shí),該過(guò)程結(jié)束。

該算法可以數(shù)據(jù)集中的所有簇和噪聲,但其不對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理而直接進(jìn)行聚類操作,當(dāng)數(shù)據(jù)集很大時(shí),占用內(nèi)存很大,而且I/O消耗也很大,如果采用空間索引,其計(jì)算復(fù)雜度為O(nlogn),否則,其計(jì)算復(fù)雜度為O(n2)。

3.6 STING算法

STING算法[2,3,8]是一種基于風(fēng)格的多分辨率聚類技術(shù),它將空間區(qū)域劃分為矩形單元。針對(duì)不同級(jí)別的分辨率,通常存在多個(gè)級(jí)別的矩形單元,這些單元形成了一個(gè)層次結(jié)構(gòu),高層的每個(gè)單元被劃分為多個(gè)低一層的單元,高層單元的統(tǒng)計(jì)參數(shù)可以很容易地從低層單元計(jì)算得到,而統(tǒng)計(jì)信息的查詢則采用自頂向下的基于網(wǎng)格的方法。這些參數(shù)包括:屬性無(wú)關(guān)的參數(shù)count;屬性相關(guān)的參數(shù)m(平均值)、s(標(biāo)準(zhǔn)偏差)、min(最小值)、max(最大值)以及該單元中屬性值遵循的分布(distribution)類型。該算法預(yù)先計(jì)算和存儲(chǔ)每個(gè)單元的統(tǒng)計(jì)信息,它不依賴于查詢的匯總信息。

該算法主要優(yōu)點(diǎn)是效率高,有利于并行處理和增量更新;它通過(guò)掃描數(shù)據(jù)庫(kù)一次來(lái)計(jì)算單元的統(tǒng)計(jì)信息,因而其計(jì)算復(fù)雜度為O(n)。在層次結(jié)構(gòu)建立后,其查詢處理的計(jì)算復(fù)雜度為O(m),其中m為最低層網(wǎng)格單元的數(shù)目。其缺點(diǎn)是聚類質(zhì)量取決于網(wǎng)格結(jié)構(gòu)最低層的粒度,粒度的大小會(huì)明顯影響處理代價(jià),特別是當(dāng)數(shù)據(jù)集的維數(shù)較高時(shí),由于生成網(wǎng)格層次及每一層的單元數(shù)較多,算法的效率會(huì)降低。

3.7 模糊聚類算法(FCM)

傳統(tǒng)的聚類分析是一種硬劃分,它把每個(gè)待識(shí)別的對(duì)象嚴(yán)格地劃分到某類中,具有“非此即彼”的性質(zhì);而在實(shí)際中,大多數(shù)對(duì)象并沒(méi)有嚴(yán)格的屬性,它們?cè)谛詰B(tài)和類屬方面存在著中介性,具有“亦此亦彼”的性質(zhì);鑒于此,人們開(kāi)始用模糊的方法來(lái)處理這類問(wèn)題,從而產(chǎn)生了模糊聚類的方法,也就是說(shuō),模糊聚類法[5]是將模糊數(shù)學(xué)的思想觀點(diǎn)用到聚類分析中產(chǎn)生的方法,其關(guān)鍵是隸屬函數(shù)的確定。該方法多用于定性變量的分類。其主要算法如下:

(1)選擇一個(gè)初始模糊分類方案,將n個(gè)樣本分成k個(gè)模糊類,得到一個(gè)模糊隸屬度矩陣U={uij,i=1,2,…,n;j=1,2,…,k},其中uij表示樣本Xi對(duì)模糊集Cj的隸屬度,uij∈[0,1];

(2)利用矩陣 計(jì)算模糊評(píng)判函數(shù)的值,模糊評(píng)判函數(shù)通常是一個(gè)與對(duì)應(yīng)的分類相聯(lián)系的加權(quán)平方誤差和

是第k個(gè)模糊集的中心,重新分配樣本到各模糊集以減少評(píng)判函數(shù)的值并重新計(jì)算U;

(3)重復(fù)(2),直到矩陣U不再有較大的變動(dòng)。

模糊聚類解決了一些混合對(duì)象的歸類問(wèn)題,同時(shí),當(dāng)樣本數(shù)較少的時(shí)候,應(yīng)用該方法的優(yōu)越性也比較明顯,另外,其抗干擾的能力也較強(qiáng);但是,它對(duì)一些隱含類的提取能力還有待于進(jìn)一步的改進(jìn),除此之外,預(yù)定的分類數(shù)目一般也是人為決定的,同動(dòng)態(tài)聚類一樣,就可能出現(xiàn)人為預(yù)定的分類數(shù)與實(shí)際存在的類數(shù)不相符這種情況,從而影響分類的結(jié)果。

4 聚類的性能比較

基于上述的分析,現(xiàn)從可伸縮性、類的形狀識(shí)別、抗噪聲能力、處理高維能力和算法效率五個(gè)方面對(duì)常用聚類算法的性能進(jìn)行了比較,結(jié)果如下表。通過(guò)這些比較,可以給聚類算法研究和應(yīng)用的選擇提供參考。

5 結(jié)束語(yǔ)

目前,已經(jīng)提出的聚類算法很多,每種方法都有其優(yōu)缺點(diǎn)和不同的適用領(lǐng)域,可以根據(jù)上述的分析,選擇適合特定問(wèn)題的聚類方法;但是,在實(shí)際應(yīng)用中,由于數(shù)據(jù)的復(fù)雜性,往往用某種聚類算法進(jìn)行聚類劃分得到的效果不佳,可能要綜合多種聚類方法才能得到較好的聚類效果。因此,在將來(lái)的研究中,需要做好對(duì)現(xiàn)有聚類算法的改進(jìn)和融合,以便得到更好的聚類方法。

參考文獻(xiàn):

[1] 孫孝萍.基于聚類分析的數(shù)據(jù)挖掘算法研究[D].碩士學(xué)位論文,2002.4.

[2] 覃擁軍,劉先鋒.數(shù)據(jù)挖掘中的聚類研究[J].科技咨詢導(dǎo)報(bào),2007(16):28-30.

[3] 梁志榮.數(shù)據(jù)挖掘中聚類分析的技術(shù)方法[J]. 電腦開(kāi)發(fā)與應(yīng)用,2007,20(6):37-39.

[4] 谷淑化,呂維先,馬于濤.關(guān)于數(shù)據(jù)挖掘中聚類分析算法的比較[J].現(xiàn)代計(jì)算機(jī),2005(3):26-29.

[5] 黃利文.基于幾何概率的聚類分析[D]. 碩士學(xué)位論文,2006(1).

[6] 張紅云,劉向東,段曉東等.數(shù)據(jù)挖掘中聚類算法比較[J].計(jì)算機(jī)應(yīng)用與軟件,2003(2):5-6.

[7] 王勁波,翁偉,許華榮.數(shù)據(jù)挖掘中基于密度的聚類分析方法[J].統(tǒng)計(jì)與決策,2005(10):139-141.

[8] 劉泉鳳,陸蓓. 數(shù)據(jù)挖掘中聚類算法的比較研究[J].浙江水利水電專科學(xué)校學(xué)報(bào),2005,17(2):55-58.

[9] 丁學(xué)鈞,楊克儉,李虹等.數(shù)據(jù)挖掘中聚類算法的比較研究[J].河北建筑工程學(xué)院學(xué)報(bào),2004,22(3):125-127.

篇12

1.1 指標(biāo)選取

為了分析公共圖書(shū)館科研實(shí)力的區(qū)域水平,本文從論文產(chǎn)出的角度,運(yùn)用文獻(xiàn)計(jì)量學(xué)對(duì)31個(gè)地區(qū)公共圖書(shū)館2002—2011年的科研產(chǎn)出進(jìn)行評(píng)價(jià),選取總數(shù)、基金資助論文數(shù)、核心期刊論文數(shù)、核心期刊率、被引篇數(shù)、被引頻次、篇均被引量、論文被引率、高頻被引論文數(shù)、高頻被引論文頻次、H指數(shù)作為評(píng)價(jià)指標(biāo),這些指標(biāo)內(nèi)容包含了論文產(chǎn)出規(guī)模和學(xué)術(shù)影響力,既有量的內(nèi)容,也有質(zhì)的反映,指標(biāo)內(nèi)容基本上反映了一個(gè)公共圖書(shū)館的科研實(shí)力,有關(guān)指標(biāo)的說(shuō)明詳見(jiàn)表1。

1.2數(shù)據(jù)來(lái)源

利用中國(guó)期刊全文數(shù)據(jù)庫(kù)統(tǒng)計(jì)各地區(qū)公共圖書(shū)館在2002—2011年發(fā)表的論文總數(shù)、核心期刊發(fā)文數(shù)和基金資助論文數(shù);利用中國(guó)引文數(shù)據(jù)庫(kù)統(tǒng)計(jì)2002—2011年各地區(qū)公共圖書(shū)館論文被引篇數(shù)、被引頻次、高頻被引論文數(shù)、高頻被引論文頻次和H指數(shù),統(tǒng)計(jì)時(shí)間為2012年10月;統(tǒng)計(jì)期刊按《中文核心期刊要目總覽(2004版)》7〕和《中文核心期刊要目總覽(2008版)》〔〕的圖書(shū)館學(xué)、情報(bào)學(xué)類核心期刊表;各地區(qū)公共圖書(shū)館名單來(lái)自《中國(guó)圖書(shū)館年鑒2010》。

經(jīng)過(guò)統(tǒng)計(jì)、匯總和計(jì)算獲得2002—2011年31個(gè)地區(qū)的公共圖書(shū)館在上述11個(gè)指標(biāo)的具體數(shù)據(jù),如表2所示。表22002-2011年我國(guó)31個(gè)地區(qū)公共圖書(shū)館論文產(chǎn)出一覽表2.

1.3研究方法

1.3.1因子分析

因子分析是多元統(tǒng)計(jì)分析中應(yīng)用廣泛的一種方

法,通過(guò)數(shù)據(jù)的降維,將具有一定關(guān)聯(lián)的多個(gè)變量進(jìn)行高度概括,簡(jiǎn)化為幾個(gè)互不相關(guān)的公共因子,每個(gè)因子都反映了某一類事物的共同特征。

1.3.2聚類分析

聚類分析是研究區(qū)域差異和劃分地域類型的常用方法。聚類分析的目的是根據(jù)數(shù)據(jù)的特征,計(jì)算各觀察個(gè)體或變量之間親疏關(guān)系,根據(jù)某種方法將觀察個(gè)體或變量分為若干類。本文采用SPSS分層聚類中的Q型聚類對(duì)31個(gè)地區(qū)公共圖書(shū)館進(jìn)行分類分析,其中,個(gè)體距離采用平方歐氏距離,類間距離采用平均組間鏈鎖距離,根據(jù)各地區(qū)公共圖書(shū)館的科研實(shí)力劃分為不同類型的區(qū)域。

2數(shù)據(jù)分析

2.1因子分析及指標(biāo)內(nèi)涵

運(yùn)用SPSS16.0統(tǒng)計(jì)軟件對(duì)表2中的11個(gè)變量進(jìn)行因子分析,得到各變量的特征值,見(jiàn)表3。

從表3可知,因子1、因子2的累計(jì)貢獻(xiàn)率已達(dá)81.072%,根據(jù)累計(jì)貢獻(xiàn)率大于80%的原則選取主因子,因子1和因子2可以作為主因子,但為了更準(zhǔn)確的解釋原有變量的信息,本文選擇前3個(gè)因子作為主因子(分別用F1、F2和R表示),它們的累計(jì)貢獻(xiàn)率已達(dá)到87.663%,可以比較準(zhǔn)確地反映2002—2011年我國(guó)公共圖書(shū)館各地區(qū)的科研狀況。為了使各因子變量具有更好的解釋性,本文采用方差最大法進(jìn)行正交旋轉(zhuǎn),旋轉(zhuǎn)后的因子載荷矩陣如表4所示。

由表4可知:主因子F;i在核心期刊率、核心期刊論文數(shù)、高頻被引論文頻次、高頻被引論文數(shù)、H指數(shù)等指標(biāo)上有較高的載荷,這5項(xiàng)指標(biāo)代表了論文高影響力,因此,主因子R可以看成是一個(gè)質(zhì)量因子;主因子R在論文總數(shù)、被引篇數(shù)、基金資助論文數(shù)、被引頻次等指標(biāo)上有較高的載荷,這4項(xiàng)指標(biāo)都是論文的數(shù)量指標(biāo),因此,主因子F可以看成是規(guī)模因子;主因子R在論文被引率、篇均被引量等指標(biāo)上有較高的載荷,這2項(xiàng)指標(biāo)反映了論文被引比重和篇均影響力,因此,主因子R可以看成另一個(gè)質(zhì)量因子。

2.2 我國(guó)公共圖書(shū)館科研實(shí)力綜合評(píng)價(jià)

運(yùn)用SPSS得分功能,可以直接得到各地區(qū)公共圖書(shū)館在上述3個(gè)主因子的得分,以3個(gè)主因子的方差貢獻(xiàn)率為權(quán)數(shù),各地區(qū)公共圖書(shū)館科研實(shí)力綜合得分公式為:

F綜合=0.34119F1+0.31069F2+0.22475F3(1)將3個(gè)主因子的具體得分代入公式(1)中,各地區(qū)公共圖書(shū)館科研實(shí)力綜合得分與排名如表5所示

     

從表5科研實(shí)力綜合得分的排名來(lái)看,廣東省公共圖書(shū)館科研綜合實(shí)力最強(qiáng),上海市僅次之;廣東、上海、湖南、黑龍江、浙江、江蘇、天津、遼寧、吉林、河南、寧夏11地區(qū)都在0分以上,其它20個(gè)地區(qū)都在0分以下。從各因子的單項(xiàng)排名看:

(1)在質(zhì)量因子R論文局影響力上,上海市公共圖書(shū)館以3.109分名列榜首,學(xué)術(shù)影響力最大,廣東省公共圖書(shū)館次之,天津、寧夏、湖南名列前5名。

(2)在規(guī)模因子R上,廣東省以2.456分排名第1,浙江、遼寧、黑龍江、吉林、北京、河南、廣西、天津、江蘇、山東、重慶、貴州12地區(qū)緊隨其后,得分都在0分以上,其它地區(qū)得分都在0分以下。

(3)在質(zhì)量因子R——論文被引比重和篇均影響力上,江蘇省以2.303分位于第1名,江西、福建、廣東,上海名列前5名。

綜合上述科研實(shí)力綜合得分排名與3個(gè)主因子單項(xiàng)排名,廣東省公共圖書(shū)館在論文產(chǎn)出的規(guī)模和質(zhì)量上都名列前茅,綜合得分排名第1,顯示出其強(qiáng)大的科研產(chǎn)出實(shí)力;上海市在質(zhì)量因子R上得分最高,學(xué)術(shù)影響力全國(guó)最大,綜合得分排名第2,但論文產(chǎn)出規(guī)模較小,規(guī)模因子得分僅排在第28名;遼寧、吉林兩省綜合得分名列前9名,規(guī)模因子得分排名前5名,但質(zhì)量因子R得分卻排名最后。西藏,新疆,內(nèi)蒙古三個(gè)地區(qū)公共圖書(shū)館科研實(shí)力的綜合得分排名最后,科研實(shí)力最弱,從表2可知,在11項(xiàng)指標(biāo)中,各指標(biāo)數(shù)量遠(yuǎn)遠(yuǎn)少于其它地區(qū)。

3.我國(guó)公共圖書(shū)館科研實(shí)力的類型劃分及區(qū)域差異分析

3.1科研實(shí)力的類型劃分

為了便于分析各地區(qū)公共圖書(shū)館科研產(chǎn)出的相同點(diǎn)和不同點(diǎn),更加確切地描述我國(guó)公共圖書(shū)館科研實(shí)力的狀況,本文以各地區(qū)科研能力的綜合得分為變量進(jìn)行聚類分析,把我國(guó)31個(gè)地區(qū)的公共圖書(shū)館分為7大類,見(jiàn)表6。

3.2 區(qū)域差異分析

為了分析不同區(qū)域的公共圖書(shū)館科研情況,按照表6所示類型列出各區(qū)域的指標(biāo)平均值和各指標(biāo)的基本描述(見(jiàn)表7)

第1類是廣東省。其在論文總數(shù)、核心期刊論文數(shù)、被引篇數(shù)、論文被引率、被引頻次、高頻被引論文數(shù)、H指數(shù)7個(gè)指標(biāo)上均名列第1,論文產(chǎn)出規(guī)模最大,學(xué)術(shù)影響力較大,科研綜合實(shí)力在全國(guó)處于領(lǐng)先水平。

第2類是上海市。其在核心期刊率、篇均被引量、高頻被引論文頻次3個(gè)指標(biāo)上均名列第1,在核心期刊論文數(shù)、被引頻次、高頻被引論文數(shù)、H指數(shù)4個(gè)指標(biāo)上均名列第2,其學(xué)術(shù)影響力最大,但在論文產(chǎn)出規(guī)模因子上的分值偏低,科研綜合實(shí)力在全國(guó)處于優(yōu)勢(shì)地位。

第3類是湖南、黑龍江、浙江、江蘇、天津5個(gè)地區(qū)??蒲芯C合實(shí)力得分僅次于廣東省和上海市,江蘇省在被引比重和篇均影響力因子上得分第1,但在論文高影響力上得分較低;湖南省得分較均衡;天津市在論文高影響力上得分較高,但在被引比重和篇均影響力因子上得分較低;黑龍江和浙江兩省在規(guī)模因子上得分很高,但在質(zhì)量因子上得分較低。從表7得知,該區(qū)域的大多數(shù)指標(biāo)數(shù)量低于廣東、上海,但又高于其它區(qū)域,科研綜合實(shí)力較強(qiáng)。

第4類是遼寧、吉林、河南3個(gè)地區(qū)。遼寧、吉林兩省在規(guī)模因子上得分較高,但在論文高影響力因子上得分排名最后;河南省得分較均衡。從表7可知:該區(qū)域除在基金資助論文數(shù)量上高于第III類區(qū)域外,其它指標(biāo)數(shù)量均低于第III類區(qū)域,科研綜合實(shí)力處于全國(guó)中游水平。

第5類是寧夏、福建2個(gè)地區(qū)。寧夏地區(qū)在論文高影響力上得分偏高,但在規(guī)模因子、被引比重和篇均影響力因子上得分很低;福建省在論文被引比重和篇均影響力上得分偏高,但在其他兩個(gè)因子上得分較低。從表7可知,該區(qū)域除核心期刊論文數(shù)高于第W類區(qū)域、核心期刊率高于第III類和第IV類區(qū)域外,其它指標(biāo)均低于前幾類區(qū)域,科研綜合實(shí)力處于全國(guó)下游水平。

第6類是北京、河北、山西、安徽、江西、山東、湖北、廣西、重慶、四川、貴州、陜西、甘肅13個(gè)地區(qū)。該區(qū)域科研綜合實(shí)力偏低,江西省在被引比重和篇均影響力因子上得分偏高;北京、廣西在規(guī)模因子上得分較高,其它地區(qū)在三個(gè)因子上得分都不高。從表7看出,該區(qū)域除論文總數(shù)高于第V類區(qū)域外,其它指標(biāo)數(shù)量均低于前五類區(qū)域,科研綜合實(shí)力處于全國(guó)偏弱水平。

第7類是青海、海南、云南、內(nèi)蒙古、西藏、新疆6個(gè)地區(qū)。從表7中可看出,該區(qū)域公共圖書(shū)館科研實(shí)力各項(xiàng)指標(biāo)的數(shù)量都遠(yuǎn)遠(yuǎn)小于其它區(qū)域,除了個(gè)別地區(qū)在某個(gè)因子上得分較高外,大多地區(qū)在各個(gè)因子中的得分和科研實(shí)力綜合得分都處于全國(guó)落后地位。

同時(shí)對(duì)表7中各指標(biāo)的描述性分析看出,比值最大的指標(biāo)是高頻被引論文頻次(417.17次),最高的是上海市(2503次),最低的是第V類區(qū)域(6次)。標(biāo)準(zhǔn)差反映了組內(nèi)個(gè)體之間的離散程度、差距的大小,除了論文被引率標(biāo)準(zhǔn)差較?。?.19)外,其它10個(gè)指標(biāo)的標(biāo)準(zhǔn)差都較大,最大的是論文被引頻次,達(dá)到了2934.81。從以上分析得出:我國(guó)各地區(qū)公共圖書(shū)館科研實(shí)力差異較大,中東部高于西部。

4.結(jié)論及建議

4. 1結(jié)論

(1)區(qū)域間科研綜合實(shí)力差異懸殊。不論是以科研實(shí)力綜合得分為變量進(jìn)行聚類分析還是以三個(gè)主因子的得分作為變量進(jìn)行聚類分析(由于篇幅有限,本文不再闡述用因子得分變量進(jìn)行聚類的過(guò)程),第丄類地區(qū)的廣東省和第2類地區(qū)上海市都是單獨(dú)聚類,再次體現(xiàn)了在科研產(chǎn)出規(guī)模和影響力上的突出優(yōu)勢(shì)。雖然第III類、第w類、第V類、第w區(qū)域中有的省份在某些因子中得分較高,但其平均綜合得分尚不及第丄類地區(qū)、第2類地區(qū)的一半,第VII類地區(qū)在論文產(chǎn)出的各項(xiàng)指標(biāo)上基本上全處于落后地位,與其它地區(qū)有著巨大的差距。

(2)區(qū)域內(nèi)科研產(chǎn)出差異較大。在第III類地區(qū)中,天津市在論文高影響力因子上的得分遠(yuǎn)高于浙江省,江蘇省在被引比重和篇均影響力因子上的得分遠(yuǎn)高于天津市;在第w類地區(qū),河南省在論文高影響力因子上的得分遠(yuǎn)高于遼寧?。辉诘赩類地區(qū),寧夏在論文高影響力因子上的得分遠(yuǎn)高于福建省,而在論文被引比重和篇均影響力因子上的得分遠(yuǎn)低于福建省。

(3)地區(qū)內(nèi)部科研產(chǎn)出存在很大差異。在統(tǒng)計(jì)數(shù)據(jù)過(guò)程中發(fā)現(xiàn),地區(qū)內(nèi)部的公共圖書(shū)館科研產(chǎn)出也存在很大差異,很多地區(qū)的市級(jí)圖書(shū)館10年間很少,大多數(shù)基層(縣級(jí))圖書(shū)館幾乎沒(méi)有,一個(gè)地區(qū)公共圖書(shū)館的科研實(shí)力主要由省級(jí)圖書(shū)館的科研實(shí)力所決定。但科研實(shí)力綜合得分名列前茅的幾個(gè)地區(qū),市級(jí)圖書(shū)館或區(qū)級(jí)圖書(shū)館在論文產(chǎn)出規(guī)模和影響力方面,都有一定的優(yōu)勢(shì),如廣東省的深圳圖書(shū)館、廣州圖書(shū)館、佛山市圖書(shū)館、汕頭市圖書(shū)館、東莞圖書(shū)館、廣州少年兒童圖書(shū)館、深圳市南山圖書(shū)館、深圳市寶安區(qū)圖書(shū)館等;湖南省的長(zhǎng)沙市圖書(shū)館、岳陽(yáng)市圖書(shū)館、常德市圖書(shū)館等;浙江省的溫州市圖書(shū)館、杭州圖書(shū)館、衢州市圖書(shū)館等;黑龍江省的哈爾濱市圖書(shū)館、齊齊哈爾市圖書(shū)館、牡丹江市圖書(shū)館等。由此看出,一個(gè)地區(qū)的公共圖書(shū)館只有“百花齊放”,才能提升整個(gè)地區(qū)的科研綜合實(shí)力。

(4)需要從多個(gè)方面對(duì)公共圖書(shū)館的科研實(shí)力進(jìn)行全面評(píng)價(jià)。本文只是從論文產(chǎn)出的角度對(duì)地區(qū)公共圖書(shū)館進(jìn)行了科研實(shí)力評(píng)價(jià),更全面的科研能力測(cè)度還需考慮期刊的影響因子、著作、專利、基金課題的級(jí)別、期刊對(duì)本地作者的傾向性和社會(huì)影響等因素。參考有關(guān)單位對(duì)科研實(shí)力評(píng)價(jià)的各種方法,不但包括對(duì)學(xué)術(shù)隊(duì)伍、學(xué)歷水平、努力程度、人均產(chǎn)出等內(nèi)部因素的評(píng)價(jià),還要包括對(duì)科研經(jīng)費(fèi)投入、資料設(shè)備、科研激勵(lì)、科研氛圍、地區(qū)經(jīng)濟(jì)發(fā)展水平等外部因素的評(píng)價(jià)。如何設(shè)計(jì)出更加合理的評(píng)價(jià)指標(biāo)體系,對(duì)公共圖書(shū)館科研實(shí)力進(jìn)行評(píng)價(jià),期待有更多的學(xué)者進(jìn)行研究。

3. 2建議

篇13

1概述

2016年,杭州舉辦了舉世矚目的G20峰會(huì),2022年杭州又將迎來(lái)第亞洲運(yùn)動(dòng)會(huì),G20峰會(huì)不僅會(huì)大大提高了杭州的知名度和美譽(yù)度,同時(shí)將其國(guó)際化進(jìn)程大大推向前進(jìn),2016年杭州正式躋身一線城市行列。得益于杭州持續(xù)推進(jìn)城市建設(shè)的力度,尤其是規(guī)劃中的10條地鐵軌道交通和城際鐵路的建設(shè),杭州的房?jī)r(jià)在G20之后迎來(lái)了一波快速上漲。房?jī)r(jià)問(wèn)題一直是全國(guó)人民都熱切關(guān)注的問(wèn)題,眾多的學(xué)者對(duì)房?jī)r(jià)的走勢(shì)都做了相關(guān)的研究。許光建在對(duì)全國(guó)35個(gè)城市的房?jī)r(jià)的研究中,就指出城市基礎(chǔ)設(shè)施、教育、醫(yī)療衛(wèi)生等公共服務(wù)的投入在一定程度上影響著房?jī)r(jià)的變動(dòng)。徐美茹在《房?jī)r(jià)與地價(jià)因果關(guān)系研究》一文中也表明,過(guò)于寬松的金融環(huán)境是造成近年來(lái)房?jī)r(jià)過(guò)快的重要原因。王海滋在研究中構(gòu)建了房?jī)r(jià)與人均可支配收入、與人均GDP的回歸分析,結(jié)果表明北京房?jī)r(jià)增速遠(yuǎn)高于人均可支配收入與人均GDP的增長(zhǎng)幅度。彭聰應(yīng)用OLS對(duì)我國(guó)房地產(chǎn)銷(xiāo)售價(jià)格與國(guó)內(nèi)生產(chǎn)總值(GDP)、居民消費(fèi)價(jià)格指數(shù)(CPI)、居民可支配收入等加以回歸分析,結(jié)果表明經(jīng)濟(jì)總理、物價(jià)等都是影響未來(lái)房?jī)r(jià)走勢(shì)的重要因素。本文主要基于2016年杭州市13個(gè)行政區(qū)的相關(guān)數(shù)據(jù),分別從每個(gè)行政區(qū)的總GDP、人均GDP、人均可支配收入三個(gè)維度進(jìn)行聚類,對(duì)杭州13個(gè)行政區(qū)區(qū)的房?jī)r(jià)問(wèn)題進(jìn)行分析,得到了一些有意義的結(jié)論并針對(duì)這些結(jié)論提出一些合理的建議。

2數(shù)據(jù)的收集處理

2.1數(shù)據(jù)指標(biāo)選擇

杭州各行政區(qū)當(dāng)前的房?jī)r(jià)到底是否合理,這是一個(gè)值得研究的問(wèn)題。因此,本文選用2016年杭州13個(gè)行政區(qū)的相關(guān)數(shù)據(jù),利用國(guó)內(nèi)生產(chǎn)總值(GDPI、居民家庭人均可支配收入、人均GDP三個(gè)指標(biāo)對(duì)杭州13個(gè)行政區(qū)的房?jī)r(jià)問(wèn)題進(jìn)行聚類分析。GDP即國(guó)內(nèi)生產(chǎn)總值,是指在一定時(shí)期內(nèi)一個(gè)國(guó)家或地區(qū)的經(jīng)濟(jì)中所生產(chǎn)出的全部最終產(chǎn)品和勞務(wù)的價(jià)值,將其作為考察的變量主要是力求反映各地區(qū)的經(jīng)濟(jì)狀況對(duì)房?jī)r(jià)的拉動(dòng)作用。人均GDP是一個(gè)考慮了人口因素的相對(duì)指標(biāo),彌補(bǔ)了GDP僅考慮總量的不足,選用該指標(biāo)可以同時(shí)兼顧經(jīng)濟(jì)發(fā)展和社會(huì)人口發(fā)展。居民人均可支配收入是指居民家庭全部收入中可用于支付生活費(fèi)用的收入,該指標(biāo)被認(rèn)為是消費(fèi)開(kāi)支的最重要的決定性因素。

2.2數(shù)據(jù)收集處理

本文搜集了2016年杭州13個(gè)行政區(qū)的數(shù)據(jù)如表1所示。論文研究過(guò)程中所涉及的分析數(shù)據(jù),主要來(lái)自杭州統(tǒng)計(jì)信息網(wǎng)(網(wǎng)址:http://hzstats.gov.cn/)和千數(shù)堂(網(wǎng)址:http://d.askci.com/)。

由于不同的指標(biāo)數(shù)據(jù)之間取值范圍相差較大,為了使具有不同數(shù)量級(jí)的數(shù)據(jù)能放在一起比較,需要進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化操作,本文采用的Z-score進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化處理。Z-score標(biāo)準(zhǔn)化可以根據(jù)公式(1)執(zhí)行,經(jīng)過(guò)處理的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布,即均值為0,標(biāo)準(zhǔn)差為1。

其他數(shù)據(jù)如上述操作所得,最終結(jié)果如表2所示。其中z1表示GDP總量的標(biāo)準(zhǔn)化值;Z2表示人均GDP的標(biāo)準(zhǔn)化值;Z3表示居民人均可支配收入的標(biāo)準(zhǔn)化值;Z4表示每平方米商品房房?jī)r(jià)的標(biāo)準(zhǔn)化值。

3房?jī)r(jià)的聚類分析

聚類分析就是根據(jù)某種相似性度量標(biāo)準(zhǔn),將一個(gè)沒(méi)有類別標(biāo)號(hào)的數(shù)據(jù)集s直接拆分成若干個(gè)子集Ci(i=1,2,…..k;k≤n),使得每個(gè)子集內(nèi)部數(shù)據(jù)對(duì)象之間相似度很高,而不同子集的對(duì)象之間不相似或相似度很低。本文主要采用SPSS中的系統(tǒng)聚類方法,以最短距離為計(jì)算依據(jù)實(shí)現(xiàn)聚類分析。最短距離法就是一組對(duì)象兩兩之間的距離矩陣m×m的非對(duì)角元素中找出dpq=min{dij}1≤i≤m,1≤j≤m,從而把把分類對(duì)象G,和G。并未以新類Gr,然后再按結(jié)算公式l計(jì)算原來(lái)各類與新類之間的距離,這樣就得到一個(gè)新的(m-1)階的距離矩陣;再?gòu)男碌木嚯x矩陣中選出最小者dij,把Gi和Gj歸并成新類;再計(jì)算各類與新類的距離,這樣一直下去,直至各分類對(duì)象被歸為一類為止。

Grk=min(dpk,dqk)k≠p,q(5)

使用SPSS軟件的系統(tǒng)聚類進(jìn)行聚類分析之后,得到如圖1所示的樹(shù)狀圖。

圖1清楚地反映了聚類分析的全過(guò)程,通過(guò)樹(shù)狀圖對(duì)所選的13個(gè)行政區(qū)進(jìn)行分類,得到表3。

通過(guò)比較表1與表3,我們可以得出以下結(jié)論:

①房?jī)r(jià)水平較合理地的是上城區(qū)和濱江區(qū),雖然兩者的房?jī)r(jià)很高,但無(wú)論從GDP總量還是人均GDP方面看,兩者都名列前茅。上城區(qū)是南宋皇城所在地,山水江湖聚一身,吳山廣場(chǎng)、河坊街等都在此。濱江區(qū)是浙江省最有影響的科技創(chuàng)新基地、高新技術(shù)產(chǎn)業(yè)基地和最具活力的經(jīng)濟(jì)增長(zhǎng)區(qū)域,匯聚了浙江乃至全國(guó)各地的腦力IT精英,房地產(chǎn)市場(chǎng)相對(duì)成熟。

②蕭山區(qū)和余杭區(qū),是杭州最晚設(shè)區(qū)的,這兩者無(wú)論在GDP總量、人均GDP、還是家庭可支配收入的指標(biāo)上,都處于中間位置,兩者的房?jī)r(jià)基本上也是如此反映。

③江干區(qū)、拱墅區(qū)、下城區(qū)、西湖區(qū)在GDP總量、人均GDP、家庭人均可支配收入指標(biāo)上的排名都是比較靠前的,但是經(jīng)濟(jì)高速發(fā)展的同時(shí)其房地產(chǎn)市場(chǎng)也存在著一些問(wèn)題,致使這些行政區(qū)的房?jī)r(jià)有些不合理。這些行政區(qū)都是杭州的主城區(qū),相對(duì)來(lái)說(shuō)經(jīng)濟(jì)比較發(fā)達(dá),外來(lái)人口流入較多,可能這也是導(dǎo)致房?jī)r(jià)過(guò)高的一個(gè)因素。

④建德市、桐廬縣、臨安市、淳安縣、富陽(yáng)區(qū),這些行政區(qū)總體上來(lái)說(shuō)經(jīng)濟(jì)發(fā)展并不是很好,但從房?jī)r(jià)問(wèn)題考察,可發(fā)現(xiàn)這些行政區(qū)的房?jī)r(jià)還是比較合理的,究其原因可能是這些行政區(qū)的人口相對(duì)較少,房?jī)r(jià)比其他行政區(qū)低。

相關(guān)精選
主站蜘蛛池模板: 呼图壁县| 丹东市| 长岛县| 洪泽县| 定日县| 巴彦县| 宾阳县| 合肥市| 广南县| 丰原市| 天峻县| 亚东县| 商城县| 德保县| 阜南县| 海兴县| 桑日县| 日照市| 阿拉善盟| 乐山市| 灌阳县| 巴南区| 紫金县| 房产| 藁城市| 盐城市| 布拖县| 伽师县| 临泽县| 罗源县| 新蔡县| 星子县| 东台市| 隆昌县| 益阳市| 海丰县| 陈巴尔虎旗| 修文县| 内黄县| 武定县| 胶南市|