引論:我們為您整理了13篇統計學參數概念范文,供您借鑒以豐富您的創作。它們是您寫作時的寶貴資源,期望它們能夠激發您的創作靈感,讓您的文章更具深度。
篇1
一、巧設生活情境,激發學習興趣
學習興趣低、動力不強是殘障生的顯著癥狀,要提高概念教學的效果,首先得激發殘障生的學習興趣,增強他們的學習動力。殘障生除了在智力和學習能力上有別于一般學生,其他方面與他人沒有多大區別,有些方面甚至優于一般學生,譬如殘障生對生活的熱情高,對外界的好奇心強,因此,我們可以揚長避短,充分發揮他們身上的優勢,來調動他們學習的積極性。
教育家陶行知先生曾提出“生活即教育”,認為脫離生活的教育是不完整的。生活是數學的源泉,愉快生活是殘障兒童的美好心愿。我們可以將教學生活化,通過創設生活情境,利用感性而誘人的生活情境去激發學生,讓學生覺得數學可以親近,數學學習輕松有趣,從而積極主動投入學習。例如,在教學《學做小小修理工》一課中,我聯系學生生活實際,巧妙設計了一場生活化的教學情境:你們看,這些是我們學校前一批的課桌椅,由于之前有些同學使用的時候不當心,很多桌椅已經壞了,你們愿意幫助老師一起把它們修好嗎?我邊說邊出示了一組預先拍攝的圖片。“愿意!”聽說老師需要幫忙,熱心的學生們齊聲答應。“要修好桌椅自然少不了釘子,就先讓我們到五金店買釘子吧。”我邊說邊出示了五金店釘子專柜場景圖,“五金店的釘子真多啊,這么多品種的釘子真是讓人眼花繚亂,我們想買4厘米長的釘子,可是釘子有長有短,我們怎樣才能找到它呢?同學們有沒有什么辦法?”“我們可以用尺量!”一個頗有生活經驗的男生答道。“真聰明!那就讓我們借助尺子來測量釘子的長度吧!”我在表揚中趁機引入課題。
二、倚仗操作活動,激活實踐思維
殘障兒童的抽象概念較差,思維多以實際動作為支撐,通過實踐操作進行直接感知,依附直觀形象進行思考。實踐思維是兒童原初的基礎性思維,我們在教學中要基于殘障兒童的這種思維特征,為學生提供操作的平臺,賦予他們充分動手的機會,讓他們在親手觸摸、擺弄中體驗與思考,從而獲得數學概念的自主建構。
富勒說過:“知識是珍寶,但實踐是得到它的鑰匙。”喜歡動手、愛好操作是殘障兒童的特點,我在數學教學中充分利用學生的活動特點,倚仗豐富的操作性活動,激活學生實踐思維,幫助學生建立表象,促進概念的形成。例如,在教學《學做小小修理工》一課中,我設計了一系列的學生操作活動,一步步引導學生感知和認識“厘米”。我首先讓學生拿出直尺,找一找尺子上有什么?學生甲首先發現了直尺上有數字,并且依次x出了數字。緊接著學生乙回答道:“直尺上還有很多線。”“對了,這些長短不一的線叫刻度線”我補充說明,“尺子上還有字母‘cm’。”學生丙又有了新發現,“你觀察真仔細,‘cm’就表示厘米,厘米是較小的長度單位,常用來測量比較短的物體的長度”我趁機向學生介紹了“厘米”。為了幫助學生建立“1厘米”的空間概念,我讓學生把食指放到0刻度線上,從O刻度慢慢滑到1刻度,學生在觸摸中感知了1厘米的長度。為了加深對厘米的認識,我又組織學生開展了給物體分類活動,讓學生從一堆物體中找出長度大約是1厘米的物體;我還讓他們動手測量釘子的長度,從一堆釘子中找出4厘米長的釘子。
立體而豐滿的操作活動,使學生的雙手揮舞不停,靈動的雙手助推了實踐思維,學生在多種操作活動中感知體驗,從而逐漸發現和歸納出“厘米”概念的本質屬性。
三、巧借游戲比賽。激勵學以致用
游戲幾乎伴隨人的一生,對于殘障學生來說,最為快樂的活動莫過于游戲,若能讓學習像游戲一樣輕松快樂,學生進步將指日可待。教學游戲化是一種寓教于樂的教學手段,既能激發和調動學生學習興趣,更能提高學生對概念的理解。
篇2
課程名稱數理統計
英文名稱Statistics
學分數3周學時3+1
任課教師*徐先進開課院系**數學學院
預修課程
課程性質:
本課程為數學學院本科生開設,是概率論基礎的繼續,介紹數理統計學的基礎知識。
基本要求和教學目的:
課程基本內容簡介:
數理統計是一門理論研究與數學實踐相結合的學科,它區別于概率論基礎部分,不從概率空間出發,而是考慮如何給隨機現象裝配一個概率空間。
數理統計學研究數據資料的收集、整理、分析和推斷,廣泛地應用于社會科學、工程技術和自然科學中。
教學方式:
教材和教學參考資料:
作者教材名稱出版社出版年月
教材概率論,第二冊,數理統計(兩分冊)人民教育出版社1979
參考資料陳希孺數理統計引論科學出版社1981
峁詩松,王靜龍,濮曉龍高等數理統計高等教育出版社,施普林格出版社1998,2003
J.O.BergerStatisticaldecisiontheoryandBayesionanalysis,2ndedition
中譯本:賈乃光譯,統計決策理論和貝葉斯分析Springer-Verlag,NewYork
中國統計出版社1985
1988
教學內容安排:
第一章引論
本章的教學目的是闡述數理統計學的基本問題,介紹數理統計學的基本概念。指出了現階段的教學內容是研究如何利用一定的資料對所關心的問題作出盡可能精確可靠的結論,而不是考慮如何設計獲得數據的試驗。
統計量是從數據中提取信息的工具。本章介紹了兩種常用求估計量的方法,介紹了刻畫統計量性能的一致最小方差的概念。
§1統計學的基本問題
§2數理統計學的基本概念
§3求估計量的兩種常用方法
§4一致最小方差無偏估計
第二章抽樣分布
本章假定待研究的母體服從最常見的正態分布,導出了常用統計量,,的分布。本章的結論是對小樣本討論的,由于正態分布的特殊性,它們也可作為大樣本情形的極限分布。
本章還介紹了與正態母體相聯系的柯赫倫定理與費歇定理。
§1正態母體子樣的線性函數的分布
§2分布
§3分布和分布
§4正態母體子樣均值和方差的分布
第三章假設檢驗(I)
本章的教學目的是讓學生認識到參數估計、假設檢驗和區間估計是針對問題的不同性質而作的三種統計推斷,掌握并正確理解顯著性檢驗問題的處理步驟。在本章的執行過程中,給出了一些典型的假設檢驗問題的分析和理解,以幫助學生掌握和運用這一統計思想。
本章介紹了具有一般意義的廣義似然比檢驗。
§1引言
§2正態母體參數的檢驗
§3正態母體參數的置信區間
§4多項分布的檢驗
§5廣義似然比檢驗
第四章線性統計推斷
本章主要討論數理統計學中兩類重要的問題,線性模型和回歸分析,介紹了處理另一類問題的方差分析。在數學過程中,解釋了在復雜問題中使用線性模型的合理性,也分析了統計假設在實際問題中的意義。
在本章的執行過程中,比較了回歸分析與線性模型的異同點。
§1最小二乘法
§2回歸分析
§3方差分析
第五章點估計
本章從理論的角度討論了一致最小方差無偏估計的性質。介紹了一些尋找一致最小方差無偏估計的方法。
篇3
生物統計;教學改革
統計學可以分為數理統計和應用統計兩大范疇。生物統計學就是應用統計學中的一個重要分支,同時也是生物信息分析和超級計算機平臺上進行大數據分析的重要理論基礎。隨著國際大數據時代的到來,中國不論從政府,企業還是高等學府越來越重視統計學的相關課程。通過生物統計學課程的講授,筆者發現了一些生物統計學課程講授中一些值得探討的問題。
1高校教學安排中通常將理論課的講授和實踐操作分割開來
舉個例子來說,在高校的生物統計學課程通常是先進行基礎理論的講授,內容包括統計資料的整理,資料的描述統計,常用的概率分布,假設檢驗,方差分析,卡方檢驗,直線回歸與相關分析,以及試驗設計方法。所有的理論課程講完以后,一般情況下就過去10個教學周了。之后是安排一整周的教學實習。教學實習的安排通常是一種統計學軟件(如SAS)的操作,以SAS軟件為例,主要教授如下內容:SAS軟件的基本操作,SAS程序結構、程序的輸入、修改調試和運行,常用生物統計方法的SAS程序(描述性統計、資料的正態性檢驗、t檢驗、方差分析、直線回歸分析等)[1]。這里有幾個小問題值得高等教育的工作者去思考。首先,學生的記憶能否再10周以后對于抽象的理論知識依舊清晰。在微機課程開始的時候,所學的知識已經是幾周以前講授的內容了,在教學中,我經常發現當我提出一個指令讓學生輸入的時候,一部分學生還可以馬上跟上教師的節奏,另一部分學生在線面瞪著眼睛茫然不知所措。其次就是實踐操作的部分內容和理論課程脫節。這樣講授的后果就是不論理論課程還是實踐操作,學生學習結果都是半桶水,而生物統計學課程也成為同學們心目中的難點課程。
2涉及大量的抽象概念和公式,導致學生缺乏學習該課程的興趣
生物統計學涉及大量抽象概念,例如:總體與樣本,參數與統計量,準確性與精確性,隨機誤差與系統誤差,小概率事件實際不可能原理等[2]。生物統計學涉及大量的數學知識。雖然我院的學生在開設生物統計學課程之前已經學習了部分高等數學的知識。但對于理工口的學生而言,農科口的學生對數學的掌握和運用程度仍然有所欠缺。而這些抽象的概念和公式導致了部分學生的恐懼心理。
3統計學課程的數理屬性導致了課堂交流開放性的欠缺
和管理或文法課程不同的是,生物統計學課程中講述例題的結果是在概率論的基礎下做出的結論。比如說:當計算出的試驗參數小于或超過試驗閾值的時候,我們可以接受或否定預先建立的零假設,而否定或接受備擇假設,從而對試驗結果做出統計學上的判斷[3]。而管理學課程往往可以是多元開放的結果。比如:請用S(strengths)W(weaknesses)O(opportunities)T(threats)分析法來討論一家企業的優勢,劣勢,機會和威脅。同學在和教師的討論過程中就可以根據自身的知識,經驗和理解給出開放多元的答案。根據以上三點在生物統計學講授課程中所發現的問題。我對生物統計學課程有如下思考:1)將理論課時和實踐課時結合講授。首選的方案是在機房里講授統計學課程,2個標準學時的大課可以一堂課程講授理論課程,一堂課講授相關的微機操作。次選方案是在多媒體教室講課時,老師用自己的筆記本電腦連接連接多媒體平臺,切換理論和操作課程的講授,每節課程結束后,下次課帶學生進機房實操。2)對于數學基礎相對薄弱學科的學生,在每節課的講授之前先做一個簡單的概念回顧,將本節課程所需要運用的數學知識進行一個幾分鐘的短時間review以消除學生對數學知識的恐懼心理。3)加強和學生的課堂溝通。盡管無法做到象文科類課程那樣隨心所欲的暢所欲言,課堂交流在生物統計學課程上仍然是必要的。一般而言,我會選擇上一堂課結束前講授過的習題和同學們進行溝通交流。溫故而知新,對自己已經聽過的課程同學們進行解答和回顧往往更有信心,也能更好的活躍課堂的氣氛。
4總結
生物統計是一門農業口重要的核心課程,在生物統計的教學中,筆者發現了一些困擾現在高校教師和學生的問題,也提出一些教學改革的探討,以期提高教學效率,改善教學效果。
篇4
二、R語言的基本功能
R語言在統計描述、統計作圖、統計分布及統計檢驗等方面豐富的函數為生物統計教學提供了便利的資源。這些函數可分類總結如下:統計描述:常用的統計描述函數有算術平均數mean,標準差sd,方差var,極差range,中位數median,和sum,最大值max,最小值min。同時,還可以用summary對不同類型數據進行簡單統計描述,用table對多變量分類數據進行統計,用frequency對頻數資料進行整理。統計作圖:簡單統計作圖函數包括柱狀圖barplot、餅圖pie、直方圖hist、莖葉圖stem、箱線圖boxplot、散點圖plot等圖示方法;除此之外,還可以使用lattice程序包制作更為復雜的多變量、多數據集的組合圖形,及3D圖形。統計分布:在統計教學中統計分布是重要的一部分函數,R中常用的統計分布有正態分布normal,二項式分布binom,卡方分布chisq,指數分布exp,F分布f,泊松分布pois,t分布t,及均勻分布u-nif。將這些統計分布名稱前面分別加上字母d、q和p即可獲得這些統計分布的分布密度density,分位數quantile,概率函數probability。如dnorm(),即為正態分布密度函數。統計檢驗:R中常見的統計檢驗函數有t檢驗t.test,方差分析aov,卡方檢驗chisq.test,及相關檢驗cor.test。需要注意的是,在調用相關函數時,需提供正確的數據變量及參數選項。
篇5
國外近幾年空間經濟計量學得以迅速發展,如Anselin和Florax(1995)指出的,主要得益于以下幾點:
(1)人們對于空間及空間交互影響的作用的重新認識。對空間的重新關注并不局限于經濟學,在其它社會科學中也得以反映。
(2)與地理對應的社會經濟大型數據庫的逐步實用性。在美國以及歐洲,官方統計部門提供的以區域和地區為統計單元的大型數據庫很容易得到,并且價格低廉。這些數據可以進行空前數量的截面或時空觀測分析,這時,空間(或時空)自相關可能成為標準而非一種特殊情況。
(3)地理信息系統(GIS)和空間數據分析軟件,以高效和低成本的計算技術處理空間觀測的發展。GIS的使用,允許地理數據的有效存儲、快速恢復及交互可視化,為空間分析技術的藝術化提供了巨大的機會。至少目前線性模型中,缺少針對空間數據和空間經濟計量學的軟件的情況已經大為改觀。目前已有一些專門的空間統計分析軟件,并且SAS、S-PLUS等著名統計軟件中,都已經包括用于空間統計分析的模塊。
(二)空間經濟計量學與相關學科的關系
空間統計學是研究空間問題的另一門學科,它是應用數學的一個快速發展的分支。它起源于20世紀50年代早期,用以幫助采礦業進行礦藏量的計算。最早的工作是采礦工程師D.G.Krige和統計學家H.S.Sichel在南非進行的。70年代隨著計算機的普及以及運算速度的大幅提高,空間統計分析技術逐漸擴展到地球科學的其它領域。目前已經普遍存在于需要處理時間上或空間上相關的數據的科技領域中。
空間經濟計量學與空間統計學的區分不太容易。Haining和Anselin的觀點認為空間統計學的研究大多由數據驅動,而空間經濟計量學由模型驅動,即從特定的理論或模型出發,重點放在問題的估計、解釋和檢驗上。空間統計學的主流是研究生態學和地質學中的物質現象,空間經濟計量學主要研究與區域及城市經濟有關的模型。有一種觀點認為二者的區分應基于作者將其工作對應于空間經濟計量學還是空間統計學,這種區分辦法可能較為簡單。
地質統計學(Geostatistics)發展于20世紀60年代,主要用于研究地質學現象的空間結構和進行空間估值。例如,在探礦過程中,通常是在空間上布點進行鉆探,然后對采樣得到的樣品進行分析,估計礦藏的分布和儲量。由于礦藏不開采的話,在時間上結構幾乎是不變的,因此地質統計學研究的問題主要是空間相關。空間經濟計量學所研究的問題不僅存在空間相關,往往所研究的問題在時間上也存在相關。
在區域經濟學的理論中,人們建立了各種理論以及關系式來描述人類在空間上的行為,如研究城鎮問題的“引力模型”等。但在利用模型進行定量研究問題的時候,需要將理論或關系式用數學模型來進行刻劃,利用統計方法對模型進行估計、檢驗,并進行評價,這些正好是屬于經濟計量學研究的范疇。應該說,空間經濟計量學主要研究區域經濟問題,依據的是區域經濟學理論,但它還需要綜合數學,以及空間統計學等學科,因此它不等同于區域經濟學,而是一門交叉學科。
二、研究的問題
空間經濟計量學主要研究存在空間效應的問題。空間效應主要包括空間相關和空間差異性。在研究中涉及空間相鄰、空間相鄰矩陣等概念。
(一)空間相關
空間相關指在樣本觀測中,位于位置i的觀測與其它j≠i的觀測有關,即
附圖
存在空間相關的原因有兩方面:相鄰空間單元存在測量誤差,空間交互影響的存在。測量誤差是由于調查過程中,數據的采集與空間中的單位有關,如數據是按省、市、縣等統計的,但設定的空間單位與研究問題不一致,存在測量誤差。
空間相關不僅意味著空間上的觀測缺乏獨立性,并且意味著潛在于這種空間相關中的空間結構,也就是說空間相關的強度及模式由絕對位置和相對位置(布局,距離)決定。
對于空間相關,空間自回歸通常是其核心內容,空間自回歸模型的一般形式為:
附圖
在這個模型中,β解釋變量X(n×k矩陣)的參數向量(k×1),ρ是空間滯后相關變量的參數,λ是殘差空間自回歸(空間AR)結構中的參數。
W[,1]和W[,2]為n×n矩陣,是標準化或未標準化的空間加權矩陣,分別對應于因變量以及擾動項中的空間自回歸過程,這兩個矩陣可以不同,這意味著兩個過程由不同的空間結構生成。
這個模型可以退化成為普通的線性回歸模型、(純)空間自回歸模型、混合回歸與空間自回歸模型、殘差空間自回歸模型等形式。
對這個模型,普通最小二乘估計不僅是有偏的,而且是不一致的,參數的估計通常采用極大似然估計,近幾年,有學者嘗試采用貝葉斯估計對參數進行估計。
(二)空間差異性
空間差異性指空間上的區域缺乏均一性,如存在中心區和郊區、先進和后進地區等。例如,我國沿海地區和中西部地區經濟存在較大差別。
對于空間差異性,只要將空間單元的特性考慮進去,大多可以用經典經濟計量學方法解決。但當空間差異性與空間相關共同存在時,經典經濟計量學方法不再適用,而且這時問題可能變得非常復雜,因為這時要區分空間差異性與空間相關可能非常困難。
研究空間差異性的模型主要有:
E.Casetti提出的空間擴展模型(1972)和回歸參數漂移分析方法(簡稱DARP)模型(1982)。這時,空間差異性表現為模型參數隨空間位置變化,并以空間單元的位置信息作為輔助變量(稱為擴展參數)。
y=Xβ+ε
附圖
模型(3)為以經緯坐標(Z[,x],Z[,y])作為擴展參數的空間擴展模型。同樣可以以到中心區域的距離作為擴展參數設計模型。
將模型(3)的第二個式子右邊加入隨機擾動項,則為DARP模型。E.Casetti(1992)進一步提出了貝葉斯空間擴展模型。
D.P.McMillen和J.F.McDonald(1997),C.Brunsdon,A.S.Fotheringham;Martin Charlton(1996),提出地理加權回歸模型(簡稱GWR模型)。
附圖
(三)時空數據空間模型
在模型中考慮時間維增加了描述的復雜性,但綜合時間空間的模型在實際工作中非常有用。在經典的經濟計量學模型中,這是綜合截面和時間序列數據的情形。如果數據不存在空間相關,則可以采用Panel Data模型。Anselin(1988)將似不相關(SUR)模型擴展到空間的情形,提出空間SUR模型。
三、應用前景及需要進一步研究的問題
(一)在中國的應用前景
在我國,地質統計學是較早應用空間統計學的領域,在20世紀80年代中國科學院就有人研究并應用Krige模型。空間統計學除了在地質學的研究中發揮作用,近十年來,周國法、徐汝梅等學者研究生態學中的空間相互作用,并于1998年出版了《生物地理統計學》。20世紀80年代以來,我國利用衛星遙感技術,對土地、森林、農業、礦產、能源、作物估產、災患檢測等進行應用,開始了我國空間統計學在經濟領域應用中統計調查的工作,為了將空間遙感調查技術逐步納入到我國統計的常規性工作中,1998年10月,國家統計局成立了空間統計研究室,并與中國科學院地理所合作,組成了“空間信息多重采樣設計的空間統計學應用研究”課題組,運用遙感技術和空間分析對我國農業耕地、森林、草地等資源以及城鎮動態變化進行調查,該項目獲得國家統計局2000年課題研究一等獎。
在我國地質統計學、生物地理統計學及利用遙感技術進行的各種調查,都屬于空間統計學的范疇。地質統計學、生物地理統計學主要研究空間相關及空間估值,在生物地理統計學的研究中還包括物種的空間擴散過程。所用的方法主要是各種Krige模型、方差圖模型,以及空間自回歸模型。空間動態采樣的研究,與地質礦產調查類似,主要涉及樣本在空間上的布局、有效樣本量的確定、采樣誤差的計算等問題的研究,根據其研究的問題和方法,也可以將其歸入統計學的抽樣調查分支之中。
隨著我國按地區進行統計的統計基礎資料不斷積累,尤其是遙感技術應用到統計調查中來,都將使得按時間和空間排列的數據資料極為豐富,對數據進行空間甚至時空分析成為可能,人們將逐漸從時間的角度轉向普遍從時空的角度來考慮問題。
從經濟分析的角度看,空間經濟計量學在我國以下幾個方面將有很大的應用前景。
由于區域之間存在相關性,或者存在差異性,因此一項政策對每個區域的影響是不同的,通過運用空間經濟計量學方法對各區域進行研究之后,找到政策在各區域上作用的關系,對于政府決策、正確制訂政策具有很大的參考價值。
由于區域之間存在先進地區和后進地區,通過空間經濟計量學方法可以對先進地區與后進地區之間的相互關系進行研究。
按區域編制投入產出表時,空間的概念將發揮作用。
對房地產的價值進行評估時,在考慮外界影響因素的基礎上,充分考慮地區之間的相互關系,將對正確評估房地產的價值有很大幫助。
對環境污染進行研究時,運用空間經濟計量學方法對污染的傳播方式進行研究,有助于人們對環境污染進行控制。
在交通領域的研究,可以利用空間經濟計量學方法對人員、貨物在空間上的流動方式進行研究,同時對通道上的不同區段進行研究。
在對某種疾病(如流感)在空間上的傳播過程進行研究之后,對于疾病的預防控制將有很大的幫助。
建立了空間的概念之后,人們對于在空間上的抽樣將綜合考慮空間單元之間的相關性。而空間抽樣在空間上的布點方式也可以用作商業網點的布局研究。
總之,只要問題涉及到空間的概念,空間經濟計量學就將發揮其作用。對空間經濟計量學的深入研究及應用,將促使人們面對問題的時候,從空間或時空的角度思考問題。
(二)需要進一步研究的問題
目前的研究中,系統內的空間單元受到系統內其它位置單元的影響,但邊界處的單元還受到系統外與之相鄰的單元的影響,如何將這個影響考慮在模型中值得研究。
在具體問題中,距離的概念需要加以認真對待,單用地理上的距離有時并不合適,例如國與國之間的經濟聯系在今天并不是距離遠近決定的,電子化交易使得資金的流動非常迅速方便,因此,在研究這類問題時,如何將貿易、人員、資金的流動充分考慮到空間加權矩陣中去,尚值得研究。
貝葉斯方法在統計學各個分支的應用越來越廣,空間貝葉斯模型也是目前空間經濟計量學研究的熱點之一。
可變單元的問題。當數據匯總的級別變化,可能整個模型的描述都發生變化,對于不同的問題,可能影響模型變化的匯總的級別也不同,能否有一個統一的模式對系統進行描述尚待進一步研究。
時空數據的綜合分析,參數估計的漸近性質,模型的各種檢驗方法等,還有待進一步的研究。
經濟問題中,許多需要研究的對象是多維的,即研究對象是一個向量,如何在空間問題中建立一系列空間VAR模型,尚需研究。
不易獲得較為詳細且價格低廉的區域統計數據,將大大限制空間經濟計量學模型的應用。建立我國區域統計數據庫,要求價格低廉且方便實用,是擺在統計工作者面前的一個重要課題。
【責任編輯】彭非
【參考文獻】
1 Anselin,L.1988.Spatial Econometrics.Methods and Models,Dordrecht Kluwer Academic
Publishers.
2 Anselin,L.and R.J.G.M.Florax ed.1995.New Directions inSpatial Econometrics,Springer-Verlag.
3 Brundson,C.,A.S.Fotheringham,and M.E.Chalton.1996."Geographically Weighted
Regression:A Method for ExploringSpatial Nonstationarity,"Geographical Analysis,
Vol.28,p281-298.
4 Brunsdon,C.,A.S.Fotheringham,and M.E.Chalton.1999."SomeNotes on Parametric
Significance Tests for GeographicallyWeighted Regression,"Journal of Regional
Science,Vol.39,No.3,p497-524.
5 Casetti,E.1972."Generating Models by Expansion Method:Applications to Geographic
Research,"Geographical Analysis,Vol.4,p81-91.
6 Casetti,E.1982."Drift Analysis of Regression Parameters:An Application to the
Investigation of Fertility ofFertility Development Relations,"Modeling and Simulation
13,p961-966.
7 Casetti,E.1992."Bayesian Regression and the ExpansionMetod,"Geographical
Analysis,Vol.24,p58-74.
8 Cliff,A.D.and J.K.Ord.1981.Spatial Processes:Models andApplications,Pion.
9 Haining,R.P.Spatial Data Analysis in the Social andEnvironmental Science,Cambridge
University Press.1990.
10 Paelinck,Jean H.P.and Leo H.Klaassen.1979.SpatialEconometrics,Saxon House,
Teakfield Ltd.
篇6
目前市面上國內編著的經濟、管理類的統計學教材數量繁多,其名字也五花八門,如:《統計學原理》《統計學基礎》《統計學》《經濟統計學》《管理統計學》等。據我調查,目前武漢市書店在售的這類圖書不下三十種。雖然數目眾多,但翻開一看,就會發現這些書的內容大同小異,和國外的統計學教材相比,對學生的吸引力不強。經過綜合,我認為國內的統計學教材主要存在以下問題。
(一)內容陳舊。如今的經濟、管理類統計學教材由以前的只介紹描述統計變成既有描述又有推斷統計的大統計學。可是翻開現有的統計學教材,就會發現不少已經過時的描述統計學的概念比比皆是,學生平時在生活、學習中幾乎用不上。如不少教材里的第一章緒論部分重點介紹“標志”和“指標”這對概念,花很大篇幅來介紹兩者的聯系和區別,但這對概念在后續的數據分析中幾乎用不到;在“后續統計調查”這章中,對統計報表、重點調查和典型調查這些方法也是花了不少篇幅來介紹,而這些在計劃經濟條件下使用的調查方法現在很少采用;另外,目前不少教材保留了“指數”一章,詳細介紹了編制指數的兩種方法,而這些內容由于內容繁雜,應用面窄,除了專門的統計調查人員,一般人根本沒有必要掌握,只需要了解其基本含義。由此可見,目前國內統計學教材內容陳舊,教材中對廣大讀者用處不大的資源占用了大量的篇幅,而一些實用性很強的內容,如參數估計、假設檢驗及多元回歸則放在教材后面簡單介紹,由于學時有限,很多老師在課堂上只是簡單地提一下,其結果是學生用這樣的教材根本學不到有用的知識。
(二)概念、公式多,案例少。目前很多學生并不需要學量系統的統計學知識,而只需要能用簡單、實用的統計學方法來辨別、處理出現的定量分析問題,并且能夠利用統計學軟件自己解決一部分,當自己不能解決時知道到哪里尋求幫助就行了。因此統計學教材的主要任務是教會他們統計學的主要思想,學會用統計分析方法解決實際問題。基于這種目的,統計學教材應偏重實際應用,多引入生活中常見的實例或案例,不知不覺地把讀者引入統計學專業知識的殿堂。但是目前的統計學教材一般都是先介紹理論、概念,再給出公式及其推導過程,最后才結合實踐進行舉例,而且大量繁瑣的數學推導占了很大的篇幅,而經濟、管理類專業的學生大多數是文科生,數學底子差,大量的公式推導往往讓他們望而卻步。而與大量公式相對應,國內現有的經濟、管理類的統計學教材有關經濟、管理的統計案例很少,大部分是過于簡單的設例,或是“編寫”的案例,甚至是若干年以前在自然科學領域內應用的陳舊的案例,與現實的經濟、管理工作嚴重脫節。國內統計學教材這種重理論學習和公式推導,輕結合實際案例的特點,使得本該妙趣橫生的統計學在學生眼里課程變得晦澀難懂、枯燥乏味。
(三)實用性不強。統計學作為一門實用性很強的方法論學科,是和計算機以及統計軟件緊緊地聯系在一起,任何統計學方法都可以在統計學軟件上操作完成,目前常用的統計學軟件有SAS、STATISTIC、MINITAB、SPSS和EXCEL,對于經濟管理專業的學生來說,SPSS和EXCEL都是操作起來相當簡單方便的統計學軟件。目前國內的統計學教材只是介紹統計學原理和方法,而如何應用統計軟件來解決具體問題則沒有系統的介紹,如Ex-cel制作圖、表的功能很強大,展示數據常用的直方圖、條形圖、餅圖、環形圖利用Excel都可以做得很漂亮,可是不少教材只是介紹什么是直方圖和條形圖,兩者有何區別,而具體如何利用軟件作圖則只字未提;時間數列分析、多元回歸分析等內容涉及的數據都很多,不借助統計軟件根本沒法完成,因此很多教材也只是介紹概念和方法,老師在課上也只簡單介紹方法,不給學生講授如何應用統計軟件來解決具體問題,這使得學生學完這門課后實際分析問題的能力沒有得到鍛煉,學生在學習后續課程或撰寫畢業論文時,抱怨統計學只是學了很多不會用,也不知怎么用的概念和公式。
三、對策分析
統計學教材的質量普遍不高,反映了當前我國定量分析問題的能力還有待提高。要解決這一問題,我覺得重點應從以下幾方面著手。
(一)加大對從事統計學教學的教師的培訓力度。統計學教材是統計學教師教學實踐的結晶。目前國內統計學教材質量不高的根本原因在于從事統計學教學教師的統計學能力有所欠缺。從事經濟、管理類統計學教學的教師不僅要熟練地掌握統計學方法和統計軟件的使用技巧,還要對經濟、管理有一定的了解,并了解統計學在經濟、管理中的使用。可是據我對武漢市高校的調查統計,不少學校從事經濟、管理統計學教學的教師都是學習經濟、管理的,他們對統計學方法和統計軟件的使用并不熟悉,因此編出來的教材其質量也是可想而知。雖然一部分老師是統計學專業畢業的,但絕大多數是學經濟統計的,對推斷統計和統計軟件的使用并不精通。另外還有一小部分老師是學數理統計專業的,他們對統計學方法進行過系統的學習,可是由于對于經濟、管理了解甚少,因此沒法和經濟、管理的實際案例相結合,而只是像講數學一樣,著重公式的推導。因此要改變這種狀況,各校首先要加大對統計學重要性的認識,其次要拿出切實可行的方案來對從事統計學教學的教師進行全方位的培訓,使得他們具備從事統計學教學的專業水平,這樣才有可能從根本上改變統計學教材吸引不了學生的現狀。
(二)借鑒國外優秀統計學教材的經驗。和國內經濟、管理類統計學教材內容陳舊、案例匱乏、實用性不強和趣味性差的現狀相比,國外的統計學教材則讓人眼前一亮。國外教材非常注重實際應用,每一部分都引入大量的生活中常見的實例或案例,不知不覺地把讀者引入統計專業知識的殿堂。這些教材幾乎都摒棄了繁瑣的數學推導,大部分只介紹基本公式,少數則采用純文字描述的形式來介紹統計學,讓沒有統計學基礎的學生也能輕松地學習統計學而且它們都非常詳細地介紹了如何利用統計軟件來進行操作,并貫穿在各章,課后也有大量配套的習題讓讀者自己去練習,以加深對統計學方法的理解。因此要提高目前國內統計學教材的質量,多多向國外同行學習是非常必要的,不少學校的老師直接以國外的教材作為學生的學習教材。但是完全采用國外的教材也有不少問題,如直接采用國外原版教材,對多數學生來說英文水平有待提高,而如果采用翻譯過來的教材,由于目前不少教材翻譯質量不高,學生讀起來感覺很生澀;另外國外的教材結合的都是本國的例子,和我國的具體國情不符,學生聽起來覺得陌生。因此最好的方法是借鑒國外統計學教材好的體系和編排方法,同時結合本國的具體實踐,編制適合我國國慶的教材,這就需要付出更多的努力。
篇7
肺癌嚴重威脅著人類的身體健康和正常生活,現已變成人類主要的癌癥死亡原因之一,目前,該病的發病率和病死率依舊逐年增高。既往檢測肺癌的手段主要有X線胸片檢查及痰液檢測,然而對早期肺癌的診斷難以取得較高的靈敏度與特異度,胸部螺旋CT能夠發現早期肺癌,然而其具有較大的電離輻射,不適用于篩查肺癌[1,2]。1990年,Naidich等研究人員提出胸部低劑量螺旋CT這一概念[3],該方法的電離輻射量與其他相比顯著降低,患者易接受,目前已作為早期肺癌的篩檢方法。為探討早期肺癌低劑量CT檢測的技術優化與應用,本文對不同掃描環境中TM164A型的性能模體及TM320D軀干CT劑量的檢測模體予以檢測,現報道如下。
1 材料與方法
1.1 儀器
CT機采用飛利浦MX4000雙螺旋CT機。
1.2 方法
對TM164A型的性能模體及TM320D軀干CT劑量的檢測模體通過不同的掃描參數進行常規劑量和低劑量的螺旋CT掃描,將不同掃描環境中模體的輻射劑量與空間分辨采集圖像的能力、密度分辨能力、噪聲水平以及均勻度結果詳細記錄,并對全部數據予以統計學分析,確定最佳的低劑量螺旋CT胸部掃描參數;依照低劑量掃描優化后的技術參數,將肺結節檢測予以視覺評價。
1.3 統計學方法
數據采用統計學軟件包SPSS 15.0進行統計學分析,計量數據以均數±標準差(x±s)表示,組間比較采用t檢驗,多組間比較采用方差分析,P < 0.05為差異有統計學意義。
2 結果
2.1 TM320D軀干模體的CT劑量測定結果
將160 mA的常規劑量的CT劑量指數和各低劑量組相比較(表1),差異有統計學意義(P < 0.05)。管電流越大,放射劑量就越大,特別是當電流>90 mA時,具有更加明顯的放射劑量增大現象。
2.2 管電流不同劑量組的圖像噪聲相比
10 mA與30 mA、70 mA與160 mA組之間的圖像噪聲相比差異有統計學意義(P < 0.05)。
2.3 不同層厚之間的圖像噪聲相比
1 mm和5 mm、10 mm各組的圖像噪聲也存在明顯差異(P < 0.05);圖像的均勻性和管電流、層厚組之間差異無統計學意義。見表2。
3 討論
近年來,肺癌直徑不足2 cm時為早期肺癌是較為普遍的觀點。國內有調查,對早期肺癌患者進行術后隨訪得出,腫瘤直徑不足3 cm的患者在治療后5年的生存率為59.4%~65.4%,而周圍型肺癌直徑
對肺癌的早期診斷,CT具有較高的特異度及敏感度,對非鈣化肺小結節的發現能力與胸部X線片相比明顯升高,特別是HRCT能夠更加清楚地對結節內部結構、其與肺血管關系以及結節-肺界面進行觀察,但對早期病變進行定性診斷還有待于提高,甚至造成過度診斷誤差,導致不必要的病情復查,嚴重者甚至需手術,對肺癌篩查產生影響,且高輻射一直制約著CT的臨床使用[5,6]。近年來,對于肺癌普查,胸部低劑量螺旋CT這一概念被提出[7,8],有研究人員對71例患者的低劑量螺旋CT及常規劑量的螺旋CT進行對比研究,結果表明,兩者所具有的肺內結節的敏感性不具有統計學方面的差異。通過用常規劑量和低劑量的螺旋CT對體部模體進行掃描,將不同掃描環境中模體的輻射劑量與空間分辨采集圖像的能力、密度分辨能力、噪聲水平以及均勻度進行研究,得出肺部單螺旋最佳的低劑量掃描參數為CT 50 mA、層厚5 mm。
本研究表明,低劑量(10 mA、30 mA、50 mA、70 mA以及90 mA)組的CT指數要明顯低于常規劑量組,差異有統計學意義(P < 0.05),而低劑量組的各個相鄰之間CT劑量指數比較,差異無統計學意義(P > 0.05),且體模放射劑量中,邊緣部位的接受照射劑量要高于中心部位,但差異無統計學意義(P > 0.05),同時研究表明,放射劑量與具體選擇層厚情況有著密切關聯,同時隨著管電流的增加,放射劑量也會隨之增加,當管電流超過90 mA時,放射劑量增大就更加明顯。
本項螺旋CT低劑量研究的目的是觀察放射診斷時其輻射劑量的最優化與質量保證的最佳化,通過將管電流下調,能夠有效降低輻射劑量,恰當地選擇管電流與掃描層厚,能夠較好地確保圖像質量。對早期肺癌的篩查,螺旋CT具有較高的特異度與敏感度,使用低劑量的螺旋CT可以減少放射劑量,滿足了國際上放射線防護委員會所提出的輻射防護最優化標準,且和常規劑量的CT圖像比較,低劑量的螺旋CT圖像對肺實質、局灶性和彌漫性病變所顯示出的圖像質量無明顯降低,可以清楚地顯示出肺門各部分的支氣管,并可將肺結節的特征大體顯示出來,滿足了臨床所需要的影像診斷,是現今最理想的普查早期肺癌使用的影像學手段。
總之,通過對體模進行研究,在肺部低劑量CT掃描中,30~50 mA和3~5 mm重建是較好的參數組合,不但能夠有效降低輻射劑量,還能夠將圖像質量較好地呈現,對早期肺癌篩查十分適用。
[參考文獻]
[1] 黃明剛,王青,齊敏. 低劑量螺旋CT篩查肺癌的診斷效能及價值[J]. 實用放射學雜志,2008,24(8):1030-1039.
[2] 元恒濤,秦維昌,王巍,等. 64層螺旋CT噪聲測試及影響因素分析[J]. 中華放射醫學與防護雜志,2007,27(2):195-198.
[3] 黃明剛,郭佑民,鄭桂芳. 早期肺癌低劑量CT檢測的技術優化與應用[J]. 實用放射學雜志,2011,27(8):1263-1268.
[4] Marcus PM,Bergstralh EJ,Fagerstrom RM,et al. Lung cancer moro-tality in the Mayo Lung project:impact of extended follow-up[J]. J Natl Can- cer Inst,2009,92(16):1308-1316.
[5] 魏玲,鐘井松,薛雷. 64排CT低劑量胸部掃描對肺結節診斷價值的應用研究[J]. 實用預防醫學,2010,17(12):2475-2476.
[6] 劉錫甫. 孤立性肺結節的CT征象(附65例分析)[J]. 實用醫學影像雜志,2006,7(3):164-166.
篇8
2.理論依據———項目反應理論(itemresponsetheory,IRT)
建設醫學統計學標準化試題庫的中心環節就是命題、選題。選題時必須根據一定的評價指標對試題進行評估,優秀的、符合要求的試題方可進入試題庫。教育測量是以一定的理論為基礎,目前用于試題評價的理論主要有經典測量理論(classicaltesttheory,CTT)和項目反應理論(itemresponsetheory,IRT)〔6,7〕。CTT存在很多無法克服的技術問題,如具有試題依賴性和樣本依賴性、被試的能力分數與試題難度未建立在同一量尺上、忽略了每位被試的反應組型等等〔8-11〕。于是,近代在CTT基礎上發展起來了一種新的測量理論,即IRT,又稱潛在特質理論(latenttraittheory)或項目特征曲線理論〔12〕(itemcharacteristiccurvetheory)。IRT以幾項基本假設(如單維性假設、局部獨立性假設〔13,14〕等)為前提,試圖通過建立恰當的數理統計模型來反映被試特質水平、試題參數與該被試在試題上的反應表現之間的關系。相對于CTT,IRT的優勢主要有:(1)具有試題獨立性和樣本獨立性,即扣除測量誤差的影響后,被試能力參數的估計值不會隨試題的不同而不同,試題參數的估計值也不會隨被試的不同而不同。(2)每位被試具有相應的測量誤差。(3)考慮了每位被試的反應組型。(4)引入了信息函數的概念,其可代替CTT中信度的概念〔15〕。IRT克服了CTT的不足,已逐漸成為試題評價的主流理論。許多大型的考試如美國的研究生入學考試GRE及著名考試TOFEL等試題評價均采用了IRT〔16〕。本文也將應用IRT,闡述醫學統計學標準化試題庫建設的基本思路。
資料與方法
1.資料
從中山大學公共衛生學院資料庫中搜集2008年至2011年期間的醫學統計學考試試卷,共5116份。試題題型主要是單項選擇題、簡答題和計算分析題。這些試題面向7個不同專業的考生,包括臨床專業、預防專業、藥學專業、法醫專業、口腔專業、康復專業以及護理專業。此外,這些考生來自于不同層次,包括本科生、碩士生。
2.方法
IRT強調的核心是數學模型的建立和對模型中各個參數的估計〔13〕,通過對模型中各個參數適當估計和選取,解決在現實中CTT遇到的大部分問題。IRT假定學生對測試項目的反應不僅受到特定“能力”的影響,還受到許多隨機因素的影響,其將被試的能力看作是一個潛在的不可觀測的變量,同時將難度、區分度、猜測度等參數看作是項目的固有屬性,獨立于被試樣本,并將被試在某項目上的反映情況與該被試的特質水平聯結起來,與表示試題特性的參數一起,共同建立起數理統計學概率模型〔17,18〕。不同形式的數據應采用不同的模型進行擬合。本研究擬應用IRT,從以下幾個方面進行分析。
(1)考生反應組型的整理
采用EpiData3.1軟件包,根據搜集到的試題輸入每位受試者的反應組型(responsepattern),即:考生在一組測驗試題上的作答情形。數據處理如下:對于單項選擇題,假定某考生對試題i的反應為ui,其中答對用ui=1來表示,答錯用ui=0來表示(屬于二元化計分);對于簡答題,每一道簡答題滿分為h=6分,我們將其分為以下四個等級:h=0分、0<h≤2分、2<h≤4分、4<h≤6分,分別用0,1,2,3來表示(屬多元計分);對于計算分析題,每一道計算分析題滿分為k=12分,我們將其分為以下四個等級:k=0分、0<k≤4分、4<k≤8分、8<k≤12分,分別用0,1,2,3來表示(屬多元計分)。
(2)模型選擇
①單維三參數logistic模型(3parameterlogisticmodel,3PLM)對于單項選擇題,其反應數據為二元化計分形式,項目反應理論中可采用的數學模型有logistic模型和正態卵形模型,其中應用最廣的是前者〔9〕。logistic模型根據參數數目的不同,可分為單參數模型、雙參數模型和三參數模型〔19〕。在理論和實踐中,三參數模型得到了充分的驗證,相對成熟、可靠,并且可以提供更多的試題信息,能更好地對參數進行估計〔20〕。因此,本文對單項選擇題的數據采用單維三參數logistic模型〔21-22〕進行處理,其表達式如下:Pi(θ)=ci+(1-ci)eDai(θ-bi)1+eDai(θ-bi)(1)其中θ表示考生能力估計值;ai表示第i題的區分度系數;bi表示第i題的難度系數;ci表示第i題的猜測度系數;D表示標化因子,一般取D=1.702〔19〕;Pi(θ)表示能力為θ的人答對此題目的概率。②等級反應模型對于簡答題和計算分析題,將原始分數進行轉化后,反應數據變換為多元計分形式,此時,可采用項目反應理論中的等級反應模型〔23-25〕(gradedresponsemodel,GRM)。GRM假設每一個反應類別各自對應一條特征曲線,如果對某試題i而言,被試的反應可以劃分為g+1類,其得分可以表示如下:Xi=0,1,……,g,那么被試在該試題上恰好得某一等級g分的概率可表示如下:Pi,k(θ)=P*i,k(θ)-P*i,k+1(θ)(2)公式(2)中,Pi,k(θ)表示對于試題i而言,能力值為θ的被試恰好得k分的概率;P*i,k(θ)表示對于試題i而言,能力值為θ的被試得k分以及k分以上的概率,P*i,k+1(θ)表示對于試題i而言,能力值為θ的被試得k+1分以及k+1分以上的概率。其中P*i,k(θ)按雙參數logistic模型可以寫為:P*i,k=11+e-Dai(θ-bi,k)(3)公式(3)中,θ、ai、D的含義與公式(1)相同,bi,k表示第i題第k個等級的難度系數。
(3)試題參數估計
應用MULTILOG軟件,采用最大邊緣似然估計〔26,27〕(marginalmaximumlikelihoodestimate,MMLE)法來估計IRT模型中的參數。以L(ui|θ)表示能力為θ的某考生對題目i的反應ui(答對:ui=1;答錯:ui=0)的概率,用對數似然函數表示為:L(u1,u1,…,un|θ)=∏ni=1PuiiQ1-uii(4)其中n為題目數,Puii表示考生答對第i題的概率,Q1-uii表示考生答錯第i題的概率。當各參數的偏導數為0時函數取得最大值,分別求得每一個試題相應參數值,即:試題區分度系數ai,難度系數bi,猜測度系數ci。
(4)試題篩選入庫
在篩選試題以決定哪些試題可以入庫時,不能僅以試題參數作為能否進入試題庫的唯一標準,需同時考慮估計出的各試題參數以及任課教師的專業意見,篩選符合一定標準的試題進入試題庫。試題難度過大或過小,會使分數呈偏態分布,從而使考試的信度系數值降低,因此,選取難度系數位于[-4.0,4.0]范圍內的試題進入試題庫。區分度越大的題目,表明對學業水平不同的考生的鑒別力或區分能力越強。通常,教學過程完畢后進行的考試,是以考察考生對知識掌握情況為目的的,因此,區分度不應過大。我們選取區分度位于[0,3]范圍內的試題進入試題庫。此外,試題的猜測度也不應太大,猜測度系數過大的試題對于考察學生對知識的掌握意義不大〔28〕,我們將猜測度小于0.25的試題選入試題庫。根據試題參數篩選出試題后,再由5~7位任課教師,獨立地逐一對初步篩選的試題進行審核,以判斷試題文字表述是否恰當、是否會引起歧義、是否符合醫學統計學邏輯、是否具有考試價值、是否具有內容典型性、是否具有編寫格式統一性,是否重復等,經全部任課教師認可的試題方能最終進入試題庫。除了將試題及試題參數錄入數據庫外,各個試題庫還應包括試題編號、試題類型、所考知識點、認知層次、參考答案、選中標識等。醫學統計學標準化試題庫建立的流程圖見圖1。結果該研究的預期結果是成功建立醫學統計學標準化試題庫,該試題庫以單個試題為基本單位,每道試題都有編號、題型、難度、區分度、猜測度、知識點、認知層次、參考答案以及選中標識這9個屬性,且試題庫中的試題參數都建立在同一量尺上。試題庫中的所有試題均符合大綱要求,且試題知識覆蓋面廣,每一章節均有一定數目的試題。該試題庫可用于期末考試,也可用于階段性小測驗,可供臨床、口腔、康復、護理、預防醫學等專業使用,可根據不同專業的不同要求(如預防專業的學生應該掌握醫學統計學知識,考試時理應選取難度較大的試題進行測驗;而康復專業的學生理解醫學統計學知識即可,那么考試時應選取中等難度或低難度的試題進行測驗)選取試題,進而實現自動化組卷或者計算機自適應考試,從而使各種考試得以方便、快速、順利地進行。結論與討論采用項目反應理論建立的醫學統計學標準化試題庫可以滿足各種目的的考試要求。不僅大大節省了時間、節約了人力,還使考試更加客觀、公正,具有重大的實際意義。
在建設醫學統計學標準化試題庫的過程中,以下幾個問題值得引起我們的注意:
1.必須明確醫學統計學的教學大綱,并結合本校的實際情況列出考核知識點,然后將搜集到的試題歸類于相應的知識點。以知識點而非章節作為試題的屬性,更便于我們有針對性的命題、將試題進行分類以及對試題進行搜索。
2.在考生人數和試題庫試題題量方面,當然是考生人數越多,試題參數估計的穩健性越好;選入試題庫的題量越大、試題知識覆蓋面越廣越好。但是在實際中,由于考生人數以及符合大綱要求的試題題量有限,可以先根據現有的資源創建試題庫,然后不斷地修正試題參數,不斷地為試題庫注入新的“血液”,使試題庫不斷的發展完善。為了增加試題庫題量,我們還可以借鑒兄弟院校的試題,或者組織經驗豐富的專家或教師命制新的試題。
3.每一道試題須包括以下9個屬性:編號、題型、難度、區分度、猜測度、知識點、認知層次、參考答案以及選中標識,以便于對試題進行分類、存儲、檢索、維護與管理。
篇9
一、兩大學派的特點和分歧
頻率學派堅持對概率的看法是頻率的穩定性,所以,凡是不能重復進行的試驗的有關結果都不能應用概率作出判斷。但是很多時候,人們都是根據已有的知識和邏輯推理能力來對統計問題作出判斷。在實際經濟環境中,情況總是比較復雜,很難具備可以進行重復試驗的條件,這個時候頻率學派的理論就很難運用上了。與之不同,貝葉斯學派認為,概率是反映事件發生可能性的一個度量,既可以是反映重復試驗的頻率穩定性,也可以反映人們的某一些類型的主觀信念。只要可以接受到任何先驗信息,就都能對特定問題進行邏輯推理。
頻率學派和貝葉斯學派之間激烈的爭論,促進了統計學的發展,使得統計學最為一門信息科學在學科體系上和思想上更完善。這兩大學派爭論的分歧:其一,對概率這個概念的認識。經典學派認為概率是純客觀的,是頻率穩定性的內在依據。而貝葉斯學派則認為概率應包含客觀概率與主觀概率;其二,是對統計問題的看法。頻率學派研究的重點是樣本空間,認為樣本是變化的,參數是固定不變的,并從中尋找規律來推斷參數的性質。貝葉斯學派的重點是研究參數空間,認為樣本就是已觀測到的值,它已不再變動而參數則是隨機變量。需要探討的是,參數取值的變化規律;其三,利用信息的范圍不同。貝葉斯學派既利用樣本信息又利用先驗信息,而經典學派只局限于從樣本獲取的信息。其四,推斷的過程不同。貝葉斯學派是從參數的先驗分布到后驗分布。而頻率學派卻僅是根據樣本的信息對參數作出推斷。可以說,先驗分布這是區分這兩個學派的一個重要特征。
二、統計分析方法的基本思路
在參數估計的基本方法上,對于單一方程模型,最常用的有普通最小二乘法、廣義矩估計和極大似然估計法等。對于聯立方程模型有常用二段最小二乘法和三段最小二乘法等。基本的理論框架是對未知參數的模型建立,參數估計包括點估計、區間估計、假設檢驗和預測等內容。并以此來研究各種模型,如線性回歸模型、非線性回歸模型、聯立方程組模型,面板數據模型、時間序列模型等。
而貝葉斯分析則采用不同的思路,來進行參數的估計,檢驗和模型的比較。一般有如下思路:在得到樣本數據的基礎上,建立模型,求出似然函數,同時先驗信息得到先驗分布,運用貝葉斯定理,推導出后驗分布,分析得出的結論。
可以說,經典的統計分析方法與貝葉斯分析的方法,孰優孰劣,也不可以一概而論。經典的方法在發展體系上很嚴密,有嚴謹的數理基礎,而貝葉斯方法則是提供了一種新的思維方式,是推進現代統計及相關學科理論發展的強大力量。
三、統計計算方法和軟件的發展
隨著現代電腦技術的發展,統計學也獲得了飛快的發展,尤其是促進了統計的計算方法的發展,特別是在針對貝葉斯方法的計算得到了新的進展。這主要分為兩類,一類是通過直接的抽樣手段,得到后驗均值的估計值,主要包括直接抽樣、分層抽樣、篩選抽樣等;它們的缺陷在于只能用于比較簡單、低維的后驗分布。第二類為 MCMC(Markov chainMonte Carlo),近年發展迅速,在各個相關領域得到了廣泛的應用。在實際研究工作中,經常遇到的是高維的復雜數據,這時運用傳統的方法就遇到困難了。而MCMC方法為這一復雜的計算過程開辟了新的方向。它的基本思想是把一個復雜的抽樣問題轉化為一系列簡單的抽樣問題,而不是直接從復雜的總體中抽取樣本,并利用電腦技術模擬這個過程。
篇10
數理統計學是全國高等院校統計系非常重要的一門專業基礎課,且許多非統計專業的學生需要以這門課程為基礎[1]。參數估計是數理統計課程講解的主要問題之一,它的思想是通過分析樣本來估計總體參數的取值(點估計)或估計總體參數落在什么范圍(區間估計),點估計得不足是未能給出估計值的誤差范圍和可靠程度,而區間估計是運用統計量構成的區間來估計未知參數的取值范圍,并指明此區間可以覆蓋住未知參數的置信度[2]。因此,區間估計不但彌補了點估計的不足,而且在某些情形下可用來計算假設檢驗問題。
二、R軟件的介紹及特點
區間估計傳統的教學方式注重講解概念、公式推導,再進行人工計算。隨著社會的發展,為了更省時、準確分析處理數據,人們研究出了各種統計軟件:Excel、R、SPSS、MATLAB、SAS、Statistics、S-plus、Eviews等[4],每種軟件都有獨特的優點,并且很多統計軟件備受廣大學者的推崇。R軟件是伴隨著統計學的發展而逐步興起的一種統計計算語言,由于具有免費、永遠正版、資源公開、程序方便簡潔等特點,自1990年誕生以來得到了越來越多的統計學者和專業人員的使用。R軟件在網站“https:///”上可以免費下載,也有支持多種平臺的預編譯版本,目前最新的版本是2016年6月的3.3.1。
R是一門簡單且高效的編程語言,擁有大量統計程序包,以及一些基層的統計工具和各種統計計算函數[2],在數據管理、數值計算及繪圖、統計分析等方面功能強大,許多傳統的及現代的統計方法和技術(回歸分析、參數估計、假設檢驗、方差分析、應用多元統計等)都可以在R中得以運算,學生只需根據統計模型,編寫和調用相應的函數,便可靈活地進行數據分析、統計計算等,甚至創造出符合需要的新的統計計算方法,幫助更好地進行決策[2]。因此,不妨將R軟件引入區間估計教學中,利用R軟件的學習可以進一步掌握置信區間和置信度的含義,也可以解決課本上煩瑣、復雜的例題和習題,能較好地強化教學效果,為學生以后運用R軟件統計建模、工作等提供一定的幫助。
四、結語
由第3節看出,R軟件非常高效簡潔地運算了區間估計的例題。雖然運用R軟件需要編寫程序,但這些語言是非常簡單易懂的,并且這些程序可以應用于類似的統計問題,也可以配合不同功能的擴展包應用于更廣闊的統計分析問題上。將R統計軟件應用到區間估計的教學中,不僅有利于教師的知識講解、貫徹融入,而且可以減少學生大量的煩瑣、重復的人工計算,提高計算的精準度,更為學生以后利用R軟件處理其他統計問題奠定基礎。在現今的大數據時代,處處離不開數據統計與分析,掌握統計學基礎課程和一門統計分析軟件十分必要,特別是對計劃畢業后在數據分析行業工作的學生來說,大學期間多積累統計軟件分析的知識和經驗為以后的工作提供知識保障。
參考文獻:
[1]茆詩松,程依明,濮曉龍.概率論與數理統計教程(第二版)[M].北京:高等教育出版社,2015:339-353.
篇11
[中圖分類號]P628+.2 [文獻標識碼]A [文章編號]1673-0194(2016)12-0-01
地質統計學被稱作空間信息統計學,是數學地質領域中發展較為迅速且具有廣泛發展空間的一門學科。它將區域之間的變化作為理論基礎,結合多孔介質空間結構變異函數,研究空間分布中具備一定規律性的自然現象,隨后使用取樣方案進行優化,對一些不規則取樣進行處理并插值計算。在礦業、石油、農業、林業等行業中具有廣泛的發展空間,取得了較大的研究應用成果。
1 地質統計學發展歷程
20世紀中期,南非的礦物工程師DG Krige結合對南非金鈾礫巖的研究經驗以及對金礦儲量的計算,根據樣本區域位置的差異及樣本關聯性差異,首次提出了對每一個樣本賦予相應的權值并在此基礎上進行波動加權,以此方式代替傳統的平均加權計算法。20世紀60年代,法國著名的統計學家G Matheron經過大量實驗后,將DG Krige的研究升華為了具體的理論結果,并系統地提出了區域變量這個概念,由此形成了地質統計學這門新型學科。
地質統計學基本理論是在1978年由我國地質專家侯景儒引進的,前后歷經了幾十年的發展,至今為止無論是在理論方法還是實踐應用方面都已經取得了一些進步,但是在環境科學領域方面的應用還不夠成熟。
在短短的半個世紀內,地質統計學已經在各個領域中被廣泛使用,目前為止形成了兩個理論學派,其中一個是以法國統計學家G Matheron為主的“楓丹白露地質統計學派”,另一個是以美國的統計學及AG Journel為主的“斯坦福地質統計學派”,這兩種學派根據其計算方法及應用方式的區別又分別被稱為“參數地質統計”和“非參數地質統計”。地質統計學領域還出現了局部空間估計法如普通克立格法、對數克立格法和因子克立格法等。此外,我國一些相關領域的研究人員也研究出了一批以地質統計學為基礎的軟件。
2 地質統計學在環境科學方面的應用
20世紀初期,人們利用統計方法研究空間變異性,該方法提出將所收集的信息轉變為單獨的數值進行觀測。可是隨著信息化時代的發展,人們掌握的信息量越來越多,依靠收集的信息進行空間變異性研究的弊端越來越明顯,很難實現對空間變異性的客觀研究和評價。隨著地質統計學的完善和進步,地質統計學在環境科學領域取得了很大的成就。
2.1 土壤環境研究中的地質統計學
自然環境下的土壤分布系統非常復雜,同樣性質的土壤受土壤深度和周圍環境的影響,土壤分布狀況存在很大的差異。研究證明,土壤的自然密度、粒徑等特性在同一水平或不同深度上的分布也是不同的。這些土壤特性的非均勻分布狀態決定了土壤特性在空間中的變異性,從而導致土壤理化性質也存在一定程度的空間變異性。
2.2 地質統計學在水環境研究中的運用
水環境污染遷移參數的離散性與隨機性兩大問題是水環境污染領域中的重點研究課題。地質統計學被引進該領域之前,利用傳統地下水水流和水質遷移模型的參數求證方式,對遷移參數的空間變異性進行合理的研究與評價。如果單純使用確定性或偶然性的研究模型是很難正確且全面地描述整個水環境污染物遷移參數的變異背景,地質統計學可以對空間信息與偶然信息進行隨機性處理,可以對這種隨機性進行客觀有效的分析。
2.3 地質統計學在環境科學其他領域中的運用
由于地質統計學可以有效描述同時具備結構性與隨機性的環境參數,因此利用地質統計學研究大氣污染物分布也有很好的研究效果,例如:孟健宇和馬曉明就通過指示克立格法對某個城市大氣中含有的二氧化硫濃度的變異特征進行分析與研究,最后得出該方法是研究大氣污染差值的最佳手段這一結論。
3 地質統計學在環境科學領域中的展望
隨著地質統計學的不斷進步和完善,其實踐方式和理論已經在環境科學研究方面得到了很好的應用,在土壤有毒物質研究以及水環境污染等研究課題方面取得了可觀的成績。由于土壤多孔介質特性中顯著存在空間的變異特征,地質統計學對于這種隨機性的事物來說是最佳研究手段。現階段,對于土壤污染物的空間分布研究重點在重金屬領域,并逐漸延伸到部分難降解污染物質的研究中,例如:影響內分泌物質及一些強致癌物質,他們的分布形態類似于重金屬,地質統計學在這一類物質的研究當中具有十分突出的優勢。自然界中含水介質的非均勻性導致了其他水環境污染參數遷移物質中具有高度變異性,特別是環境十分復雜的地下水環境系統。在以后的環境科學研究中,可以將地質統計學的分析方法、分形理論和灰色系統等一系列的研究方法和相關理論結合在一起進行使用,這樣不僅會進一步降低研究復雜性,還可以更加準確地進行污染物遷移預測以及污染物遷移參數的價值估算,提高環境科學研究的準確性和先進性,為環境模擬和環境評價建立高效、科學的模型。
4 結 語
將地質統計學的研究理論和方法,與地理信息系統的研究工具相結合,為目前的環境科學研究提供了更加科學有效的研究方法。在此基礎上將地質統計學的應用擴大到其他領域中,比如:水體污染和大氣污染研究領域,可以通過地質統計學更加科學、客觀地評價環境污染。
主要參考文獻
篇12
(一)理論基礎
數據科學中的數據處理和分析方法是在不同學科領域中分別發展起來的,譬如,統計學、統計學習或稱統計機器學習、數據挖掘、應用數學、數據密集型計算、密集計算方法等。在量化分析的浪潮下甚至出現了“metric+模式”,如計量經濟學、文獻計量學、網絡計量學、生物統計學等。因此,有學者將數據科學定義為計算機科學技術、數學與統計學知識、專業應用知識三者的交集,這意味著數據科學是一門新興的交叉學科。但是這種沒有側重的疊加似乎只是羅列了數據科學所涉及到的學科知識,并沒有進行實質性的分析,就好似任何現實活動都可以拆解為不同的細分學科,這是必然的。根據Naur(1960,1974)的觀點,數據科學或稱數據學是計算機科學的一個替代性稱謂。但是這種字面上的轉換,并沒有作為一個獨立的學科而形成。Cleveland(2001)首次將數據科學作為一個獨立的學科提出時,將數據科學表述為統計學加上它在計算技術方面的擴展。這種觀點表明,數據科學的理論基礎是統計學,數據科學可以看作是統計學在研究范圍(對象)和分析方法上不斷擴展的結果。一如統計學最初只是作為征兵、征稅等行政管理的附屬活動,而現在包括了范圍更廣泛的理論和方法。從研究范圍的擴展來看,是從最初的結構型大規模數據(登記數據),到結構型的小規模數據(抽樣數據)、結構型的大規模數據(微觀數據),再擴展到現在的非(半)結構型的大規模數據(大數據)和關系數據等類型更為豐富的數據。從分析方法的擴展來看,是從參數方法到非參數方法,從基于模型到基于算法,一方面傳統的統計模型需要向更一般的數據概念延伸;另一方面,算法(計算機實現)成為必要的“可行性分析”,而且在很多方面算法模型的優勢越來越突出。注意到,數據分析有驗證性的數據分析和探索性的數據分析兩個基本取向,但不論是哪一種取向,都有一個基本的前提假設,就是觀測數據是由背后的一個(隨機)模型生成,因此數據分析的基本問題就是找出這個(隨機)模型。Tukey(1980,2000)明確提到,EDA和CDA并不是替代關系,兩者皆必不可少,強調EDA是因為它被低估了。數據導向是計算機時代統計學發展的方向,這一觀點已被越來越多的統計學家所認同。但是數據導向仍然有基于模型與基于算法兩種聲音,其中,前文提到的EDA和CDA都屬于基于模型的方法,它們都假定數據背后存在某種生成機制;而算法模型則認為復雜的現實世界無法用數學公式來刻畫,即,不設置具體的數學模型,同時對數據也不做相應的限制性假定。算法模型自20世紀80年代中期以來隨著計算機技術的迅猛發展而得到快速成長,然而很大程度上是在統計學這個領域之外“悄然”進行的,比如人工神經網絡、支持向量機、決策樹、隨機森林等機器學習和數據挖掘方法。若響應變量記為y,預測變量記為x,擾動項和參數分別記為ε和β,則基于模型的基本形式是:y=f(x,β,ε),其目的是要研究清楚y與x之間的關系并對y做出預測,其中,f是一個有顯式表達的函數形式(若f先驗假定,則對應CDA;若f是探索得到的,則對應EDA),比如線性回歸、Logistic回歸、Cox回歸等。可見,傳統建模的基本觀點是,不僅要得到正確的模型———可解釋性強,而且要得到準確的模型———外推預測能力強。而對于現實中復雜的、高維的、非線性的數據集,更切合實際的做法是直接去尋找一個恰當的預測規則(算法模型),不過代價是可解釋性較弱,但是算法模型的計算效率和可擴展性更強。基于算法的基本形式類似于非參數方法y=f(x,ε),但是比非參數方法的要求更低yx,因為非參數方法很多時候要求f或其一階導數是平滑的,而這里直接跳過了函數機制的探討,尋找的只是一個預測規則(后續的檢驗也是基于預測構造的)。在很多應用場合,算法模型得到的是針對具體問題的解(譬如某些參數是被當作一個確定的值通過優化算法得到的),并不是統計意義上的推斷解。
(二)技術維度
數據科學是基于數據的決策,數據分析的本質既不是數學,也不是軟件程序,而是對數據的“閱讀”和“理解”。技術只是輔助數據理解的工具,一個毫無統計學知識的人應用統計軟件也可以得到統計結果,但無論其過程還是結果都是可疑的,對統計結果的解釋也無法令人信服。“從計算機科學自身來看,這些應用領域提供的主要研究對象就是數據。雖然計算機科學一貫重視數據的研究,但數據在其中的地位將會得到更進一步的加強”。不可否認,統計分析逐漸向計算機科學技術靠近的趨勢是明顯的。這一方面是因為,數據量快速膨脹,數據來源、類型和結構越來越復雜,迫切需要開發更高效率的存儲和分析工具,可以很好地適應數據量的快速膨脹;另一方面,計算機科學技術的迅猛發展為新方法的實現提供了重要的支撐。對于大數據而言,大數據分析丟不掉計算機科學這個屬性的一個重要原因還不單純是因為需要統計軟件來協助基本的統計分析和計算,而是大數據并不能像早先在關系型數據庫中的數據那樣可以直接用于統計分析。事實上,面對越來越龐雜的數據,核心的統計方法并沒有實質性的改變,改變的只是實現它的算法。因此,從某種程度上來講,大數據考驗的并不是統計學的方法論,而是計算機科學技術和算法的適應性。譬如大數據的存儲、管理以及分析架構,這些都是技術上的應對,是如何實現統計分析的輔助工具,核心的數據分析邏輯并沒有實質性的改變。因此,就目前而言,大數據分析的關鍵是計算機技術如何更新升級來適應這種變革,以便可以像從前一樣滿足統計分析的需要。
(三)應用維度
在商業應用領域,數據科學被定義為,將數據轉化為有價值的商業信息①的完整過程。數據科學家要同時具備數據分析技術和商業敏感性等綜合技能。換句話說,數據科學家不僅要了解數據的來源、類型和存儲調用方式,而且還要知曉如何選擇相應的分析方法,同時對分析結果也能做出切合實際的解釋②。這實際上提出了兩個層面的要求:①長期目標是數據科學家從一開始就應該熟悉整個數據分析流程,而不是數據庫、統計學、機器學習、經濟學、商業分析等片段化碎片化的知識。②短期目標實際上是一個“二級定義”,即,鼓勵已經在專業領域內有所成就的統計學家、程序員、商業分析師相互學習。在提及數據科學的相關文獻中,對應用領域有更多的傾向;數據科學與統計學、數學等其他學科的區別恰在于其更傾向于實際應用。甚至有觀點認為,數據科學是為應對大數據現象而專門設定的一個“職業”。其中,商業敏感性是數據科學家區別于一般統計人員的基本素質。對數據的簡單收集和報告不是數據科學的要義,數據科學強調對數據多角度的理解,以及如何就大數據提出相關的問題(很多重要的問題,我們非但不知道答案而且不知道問題何在以及如何發問)。同時數據科學家要有良好的表達能力,能將數據中所發現的事實清楚地表達給相關部門以便實現有效協作。從商業應用和服務社會的角度來看,強調應用這個維度無可厚非,因為此處是數據產生的土壤,符合數據科學數據導向的理念,數據分析的目的很大程度上也是為了增進商業理解,而且包括數據科學家、首席信息官這些提法也都肇始于實務部門。不過,早在20世紀90年代中期,已故圖靈獎得主格雷(JimGray)就已經意識到,數據庫技術的下一個“大數據”挑戰將會來自科學領域而非商業領域(科學研究領域成為產生大數據的重要土壤)。2008年9月4日刊出的《自然》以“bigdata”作為專題(封面)探討了環境科學、生物醫藥、互聯網技術等領域所面臨的大數據挑戰。2011年2月11日,《科學》攜其子刊《科學-信號傳導》、《科學-轉譯醫學》、《科學-職業》專門就日益增長的科學研究數據進行了廣泛的討論。格雷還進一步提出科學研究的“第四范式”是數據(數據密集型科學),不同于實驗、理論、和計算這三種范式,在該范式下,需要“將計算用于數據,而非將數據用于計算”。這種觀點實際上是將數據從計算科學中單獨區別開來了。
三、數據科學范式對統計分析過程的直接影響
以前所謂的大規模數據都是封閉于一個機構內的(數據孤島),而大數據注重的是數據集間的關聯關系,也可以說大數據讓孤立的數據形成了新的聯系,是一種整體的、系統的觀念。從這個層面來說,將大數據稱為“大融合數據”或許更為恰當。事實上,孤立的大數據,其價值十分有限,大數據的革新恰在于它與傳統數據的結合、線上和線下數據的結合,當放到更大的環境中所產生的“1+1>2”的價值。譬如消費行為記錄與企業生產數據結合,移動通訊基站定位數據用于優化城市交通設計,微博和社交網絡數據用于購物推薦,搜索數據用于流感預測、利用社交媒體數據監測食品價等等。特別是數據集之間建立的均衡關系,一方面無形中增強了對數據質量的監督和約束;另一方面,為過去難以統計的指標和變量提供了另辟蹊徑的思路。從統計學的角度來看,數據科學(大數據)對統計分析過程的各個環節(數據收集、整理、分析、評價、等)都提出了挑戰,其中,集中表現在數據收集和數據分析這兩個方面。
(一)數據收集方面
在統計學被作為一個獨立的學科分離出來之前(1900年前),統計學家們就已經開始處理大規模數據了,但是這個時期主要是全國范圍的普查登記造冊,至多是一些簡單的匯總和比較。之后(1920-1960年)的焦點逐漸縮聚在小規模數據(樣本),大部分經典的統計方法(統計推斷)以及現代意義上的統計調查(抽樣調查)正是在這個時期產生。隨后的45年里,統計方法因廣泛的應用而得到快速發展。變革再次來自于統計分析的初始環節———數據收集方式的轉變:傳統的統計調查方法通常是經過設計的、系統收集的,而大數據是零散實錄的、有機的,這些數據通常是用戶使用電子數碼產品的副產品或用戶自行產生的內容,比如社交媒體數據、搜索記錄、網絡日志等數據流等,而且數據隨時都在增加(數據集是動態的)。與以往大規模數據不同的是,數據來源和類型更加豐富,數據庫間的關聯性也得到了前所未有的重視(大數據的組織形式是數據網絡),問題也變得更加復雜。隨著移動電話和網絡的逐漸滲透,固定電話不再是識別住戶的有效工具變量,相應的無回答率也在增加(移動電話的拒訪率一般高于固定電話),同時統計調查的成本在增加,人口的流動性在增加,隱私意識以及法律對隱私的保護日益趨緊,涉及個人信息的數據從常規調查中越來越難以取得(從各國的經驗來看,拒訪率或無回答率的趨勢是增加的),對時效性的要求也越來越高。因此,官方統計的數據來源已經無法局限于傳統的統計調查,迫切需要整合部門行政記錄數據、商業記錄數據、個人行為記錄數據等多渠道數據源,與部門和搜索引擎服務商展開更廣泛的合作。
(二)數據分析方面
現代統計分析方法的核心是抽樣推斷(參數估計和假設檢驗),然而數據收集方式的改變直接淡化了樣本的意義。比如基于瀏覽和偏好數據構建的推薦算法,誠然改進算法可以改善推薦效果,但是增加數據同樣可以達到相同的目的,甚至效果更好。即所謂的“大量的數據勝于好的算法”這與統計學的關鍵定律(大數定律和中心極限定理)是一致的。同樣,在大數據分析中,可以用數量來產生質量,而不再需要用樣本來推斷總體。事實上,在某些場合(比如社會網絡數據),抽樣本身是困難的。數據導向的、基于算法的數據分析方法成為計算機時代統計學發展無法回避的一個重要趨勢。算法模型不僅對數據分布結構有更少的限制性假定,而且在計算效率上有很大的優勢。特別是一些積極的開源軟件的支撐,以及天生與計算機的相容性,使算法模型越來越受到學界的廣泛重視。大數據分析首先涉及到存儲、傳輸等大數據管理方面的問題。僅從數量上來看,信息爆炸、數據過剩、數據泛濫、數據墳墓、豐富的數據貧乏的知識……這些詞組表達的主要是我們匱乏的、捉襟見肘的存儲能力,同時,存儲數據中有利用價值的部分卻少之又少或塵封窖藏難以被發現。這除了對開采工具的渴求,當時的情緒主要還是遷怨于盲目的記錄,把過多精力放在捕捉和存儲外在信息。在這種情況下,開采有用的知識等價于拋棄無用的數據。然而,大數據時代的思路改變了,開始變本加厲巨細靡遺地記錄一切可以記錄的數據。因為:數據再怎么拋棄還是會越來越多。我們不能通過刪減數據來適應自己的無能,為自己不愿做出改變找借口,而是應該面對現實,提高處理海量數據的能力。退一步,該刪除哪些數據呢?當前無用的數據將來也無用嗎?顯然刪除數據的成本要大于存儲的成本。大數據存儲目前廣泛應用的是GFS、HDFS等基于計算機群組的文件系統,它可以通過簡單增加計算機來無限地擴充存儲能力。值得注意的是,分布式文件系統存儲的數據僅僅是整個架構中最基礎的描述,是為其他部件服務的(比如MapReduce),并不能直接用于統計分析。而NoSQL這類分布式存儲系統可以實現高級查詢語言,事實上,有些RDBMS開始借鑒MapReduce的一些思路,而基于MapReduce的高級查詢語言也使MapReduce更接近傳統的數據庫編程,二者的差異將變得越來越模糊。大數據分析的可行性問題指的是,數據量可能大到已經超過了目前的存儲能力,或者盡管沒有大到無法存儲,但是如果算法對內存和處理器要求很高,那么數據相對也就“大”了。換句話說,可行性問題主要是,數據量太大了,或者算法的復雜度太高。大數據分析的有效性問題指的是,盡管目前的硬件條件允許,但是耗時太久,無法在可容忍的或者說可以接受的時間范圍內完成。目前對有效性的解決辦法是采用并行處理。注意到,高性能計算和網格計算也是并行處理,但是對于大數據而言,由于很多節點需要訪問大量數據,因此很多計算節點會因為網絡帶寬的限制而不得不空閑等待。而MapReduce會盡量在計算節點上存儲數據,以實現數據的本地快速訪問。因此,數據本地化是MapReduce的核心特征。
四、結論
(一)數據科學不能簡單地理解為統計學的重命名,二者所指“數據”并非同一概念,前者更為寬泛,不僅包括結構型數據,而且還包括文本、圖像、視頻、音頻、網絡日志等非結構型和半結構型數據;同時,數量級也是后者難以企及的(PB以上)。但是數據科學的理論基礎是統計學,數據科學可以看作是統計學在研究范圍(對象)和分析方法上不斷擴展的結果,特別是數據導向的、基于算法的數據分析方法越來越受到學界的廣泛重視。
(二)從某種程度上來講,大數據考驗的并不是統計學的方法論,而是計算機科學技術和算法的適應性。譬如大數據的存儲、管理以及分析架構,這些都是技術上的應對,核心的數據分析邏輯并沒有實質性的改變。因此,大數據分析的關鍵是計算機技術如何更新升級以適應這種變革,以便可以像從前一樣滿足統計分析的需要。
(三)大數據問題很大程度上來自于商業領域,受商業利益驅動,因此數據科學還被普遍定義為,將數據轉化為有價值的商業信息的完整過程。這種強調應用維度的觀點無可厚非,因為此處是數據產生的土壤,符合數據科學數據導向的理念。不過,早在20世紀90年代中期,已故圖靈獎得主格雷就已經意識到,數據庫技術的下一個“大數據”挑戰將會來自科學領域而非商業領域(科學研究領域成為產生大數據的重要土壤)。他提出科學研究的“第四范式”是數據,不同于實驗、理論、和計算這三種范式,在該范式下,需要“將計算用于數據,而非將數據用于計算”。這種觀點實際上將數據從計算科學中單獨區別開了。
篇13
Biostatistics and
Epidemiology
A Primer for Health and
Biomedical Professionals
Third Edition
2004, 243pp.
Softcover $ 33.20
ISBN 0-387-40292-6
本書是由美國Albert Einstein醫學院流行病學和群體健康系流行病學室Sylvia Wassertheil Smoller教授編著的。第一版于1990年出版,第二版于1995年出版,現為第三版。本書的特點是根據流行病學和統計學的基本框架,使讀者理解流行病學與生物統計學的基本原理,理解“為什么做”和“做什么?”學會“如何做、如何解釋”。書中的內容都是臨床試驗和基礎研究中最常用的、或是在文獻中經常引用的。
全書共分9章。第1章講述科研方法問題,包括邏輯推理、變異、研究設計、變量的量化、無效假設、假設檢驗、檢驗錯誤的類型、顯著性水平等;第2章敘述概率的一些基本概念;第3章介紹常用的統計學檢驗方法;第4章介紹流行病學的基本概念,包括流行病學的應用、常用指標、流行病學研究類型、偏倚、混雜、交互、多變量分析等;第5章介紹篩檢的基本概念;第6章是敘述隨機對照臨床試驗;第7章介紹生活質量的評價,包括量表的結構、可靠性、真實性、敏感性(反應性)以及用量表評價生活質量的局限性;第8章介紹遺傳流行病學的基本概念,包括雙生子研究、連鎖和聯系分析、傳遞不平衡檢驗等;第9章闡述科研倫理學與統計學的關系。第8、9兩章的內容在人類研究中十分重要,是第三版新增加的,是一般流行病學或統計學入門書籍中所沒有的。
書后附有9項附錄,介紹正文中各種統計學計算的實例,以使讀者能夠更順利閱讀本書、以及如何實際計算,包括卡方、Z值及t-值的臨界值表、Fisher精確檢驗、幾組比較的Kruskal-Wallis非參數檢驗、相關系數計算、率的年齡調整、比值比的可信性、兩個變量的“J”或“U”型關系、量表記分改變的適宜性(敏感性)評價、以及遺傳學基本原理和知識。書后還附有參考文獻及建議閱讀的書目,讀者如需了解更深入的、超出本書范圍的內容、或涉及高等數學方面的內容,可閱讀這些推薦的教科書。書末附有主題索引,便于讀者檢索。
本書以科學的哲學和邏輯學原理,討論統計學檢驗的基本原理,而不是讓讀者去做具體的統計學檢驗。全書各章節都是獨立的,讀者可不按順序閱讀,只閱讀感興趣的部分。本書特別適合那些沒有或很少有數學背景的讀者,使他們能夠讀得懂、用得上。
本書內容既簡明,又適合范圍較廣的讀者需要,所闡述原理和方法適合多種領域,包括醫學、公共衛生、心理學、教育學。本書是一本簡明的流行病學與生物統計學教科書,適合從事臨床和基礎研究的醫生、醫學專業本科生、研究生,或非醫學專業學生參考,也可供程度較高的讀者、以及對生物統計學與流行病學的邏輯學和方法學感興趣的研究人員參閱。
烏正賚,教授