這是一本新穎的研究方法與統計分析教材。作者針對心理學與教育學的特點,以平實的語言深入淺出地介紹了定量研究設計與統計方法,以及如何利用統計軟件SPSS對研究數據進行統計分析。全書共四大部分,分別介紹:心理與教育測量、研究設計、單變量數據分析以及多變量數據分析。本書不但適合研究生將理論與研究實踐結合起來學習、貫通,也適合教育學、心理學、心理咨詢、康復醫學、社會學、社會工作學等學科的研究者。
本書從概念和方法論的層面上,幫助讀者深入理解教育學、心理學常用的中高級定量研究方法,同時在相應的內容中介紹了SPSS的統計分析操作,并介紹了如何對數據結果進行解讀。理論基礎知識與應用操作兼顧,具有實用性。
Dimiter M. Dimitrov 博士 美國喬治梅森大學教育與人類發展學院教育測量與統計學教授。
王愛民博士 美國邁阿密大學教育心理學系終身教授,現任邁阿密大學教育心理學國際研究生項目主任,教育學院中美聯絡部負責人;也曾任教于北京大學和內布拉斯加大學。主要教授研究方法、統計學、測量、評估、高級教育心理學、人類發展理論和學習理論等課程。主要科研興趣包括項目評估、自我控制、兒童社會化、跨文化研究和心理干預等方面。
及時部分 心理學與教育學中的測量
第1章 變量及測量的尺度
1.1 心理與教育研究中的變量
1.2 測量尺度
1.3 變量求和的符號和規則
1.4 總結
1.5 習題
第2章 信度
2.1 什么是信度?
2.2 信度的經典概念
2.3 信度的分類
2.4 復合分數的信度
2.5 SPSS的信度估計
2.6 總結 及時部分 心理學與教育學中的測量
第1章 變量及測量的尺度
1.1 心理與教育研究中的變量
1.2 測量尺度
1.3 變量求和的符號和規則
1.4 總結
1.5 習題
第2章 信度
2.1 什么是信度?
2.2 信度的經典概念
2.3 信度的分類
2.4 復合分數的信度
2.5 SPSS的信度估計
2.6 總結
2.7 習題
第3章 效度
3.1 效度
3.2 構念效度的種類
3.3 總結
3.4 習題
第二部分 研究方法
第4章 定量研究
4.1 研究問題和假設
4.2 定量研究的種類
4.3 總結
4.4 習題
第5章 基礎研究設計
5.1 前實驗設計
5.2 真實驗設計
5.3 準實驗設計
5.4 總結
5.5 習題
第三部分 單變量數據分析
第6章 統計學基礎
6.1 數據的組織和圖表繪制
6.2 分布描述
6.3 總結
6.4 習題
第7章 基本分布
7.1 正態分布
7.2 學生t分布
7.3 F分布
7.4 卡方分布
7.5 總結
7.6 習題
第8章 假設檢驗
8.1 什么是假設檢驗?
8.2 何時拒絕(或接受)虛無假設?
8.3 平均值的檢驗假設
8.4 總結
8.5 習題
第9章 比率的假設檢驗
9.1 單樣本比率檢驗
9.2 獨立樣本比率檢驗H0:P1=P2
9.3 相關樣本比率檢驗H0: P1=P2
9.4 總結
9.5 習題
第10章 相關性和簡單線性回歸
10.1 兩個變量之間的相關
10.2 簡單線性回歸
10.3 總結
10.4 習題
第11章 偏相關和部分相關
11.1 偏相關
11.2 部分相關
11.3 總結
11.4 習題
第12章 非參數檢驗
12.1曼–惠特尼U檢驗
12.2 對相關樣本的威爾科克森配對符號秩檢驗
12.3 卡方擬合優度檢驗
12.4 關聯性卡方檢驗
12.5 總結
12.6 習題
第13章 多元回歸
13.1 多元回歸的概念
13.2 全回歸模型和限定回歸模型的比較
13.3 多元共線性
13.4 交叉驗證
13.5 統計效能、效果量和樣本量
13.6 異常值與有影響的數據點
13.7 存在分類預測因素的多元回歸
13.8 多元回歸中預測因素間的交互作用
13.9 多元回歸中預測因素的篩選
13.10 多元回歸結果的APA格式圖表
13.11 總結
13.12 習題
第14章 單因素方差分析
14.1 單因素方差分析的概念
14.2 方差分析的假設
14.3 方差分析的效應
14.4 組內方差和組間方差
14.5 單因素方差分析的線性模型
14.6 檢驗方差分析的虛無假設
14.7 多重比較
14.8 效果量
14.9 樣本量的確定
14.10 違反方差分析假設的結果
14.11 單因素方差分析的SPSS結果解釋
14.12 總結
14.13 習題
第15章 兩個和三個因素的方差分析
15.1 雙因素方差分析
15.2 三因素方差分析
15.3 總結
15.4 習題
第16章 協方差分析
16.1 協方差分析背后的邏輯
16.2 進行協方差分析及對其結果的解釋
16.3 進步分數上協方差分析與方差分析的對比
16.4 總結
16.5 習題
第17章 多元回歸和方差分析
17.1 基于多元回歸思想的單因素方差分析
17.2 雙因素方差分析的多元回歸
17.3 總結
17.4 習題
第18章 隨機因素的方差分析
18.1 單隨機因素的方差分析
18.2 兩因素混合效應的方差分析模型
18.3 總結
18.4 習題
第19章 重復測量的方差分析
19.1 簡單的重復測量方差分析
19.2 組間因素的重復測量方差分析
19.3 用前后測數據進行重復測量方差分析
19.4 總結
19.5 習題
第四部分 多變量數據分析
第20章 邏輯回歸
20.1 邏輯回歸的概念
20.2 邏輯回歸結果的檢驗和解釋
20.3 類別預測因素的編碼
20.4 使用SPSS進行二元邏輯回歸
20.5 全模型與限定模型的比較
20.6 邏輯回歸中預測因素的選擇
20.7 邏輯回歸的假設
20.8 總結
20.9 練習
第21章 多元方差分析
21.1 多元方差分析的概念
21.2 多元方差分析與多個單獨的方差分析的區別
21.3 何時使用多個獨立的方差分析?
21.4 何時使用多元方差分析?
21.5 多元方差分析的假設
21.6 多元方差分析與判別分析
21.7 多元方差分析與按計劃比較
21.8 多元方差分析的樣本量
21.9 總結
21.10 習題
第22章 探索性因素分析
22.1 相關變量和潛在因素
22.2 探索性因素分析的基本概念
22.3 公因素方差及特征值
22.4 提取因素的主因素法
22.5 因素的旋轉
22.6 確定因素數量
22.7 使用SPSS進行探索性因素分析
22.8 總結
22.9 習題
第23章 驗證性因素分析
23.1 探索性因素分析模型和驗證性因素分析模型之間的差別
23.2 驗證性因素分析的基本步驟
23.3 總結
23.4 習題
第24章 結構方程模型的基本元素
24.1 路徑分析
24.2 結構方程模型的元素
24.3 總結
24.4 習題
參考文獻
附錄
第1章 變量及測量的尺度
與普遍看法不同,科學不只是發現新的事實,并把它們納入知識體系中。科學的基本目標是對自然現象的一般理論提供解釋。建立、修改和擴展理論過程的重要步驟,包括解釋、理解、預測和控制。正如Kerlinger(1986, p.9)所提到的,這是由理論的定義和性質決定的:
理論是一系列相互關聯的構念(概念)、定義和命題,通過確定這些變量之間的關系,呈現對某現象的系統觀點,以解釋和預測這一現象。
研究者可能希望通過諸如性別、社會經濟地位、考試焦慮、自尊、動機、語言能力以及數學能力等一系列變量來"解釋"(或"預測")一個學生的學習成績。在"解釋"的過程中,研究者應當遵循一定的科學方法:對于影響學生學習成績的"預測因素"的選擇,應在關于"如何在學校獲得成功"(在校成功)的理論模型指導下進行。想要更好地通過上述因素對學習成績進行"預測",研究者則需要使用兩個(或更多)相互"競爭"的在校成功理論模型來檢驗假定的預測關系。為了能夠從假設檢驗中得到有效的解釋和結論,收集假設關系中所涉及變量的測量指標(數據)是一個重要的前提條件。因此,研究者必須清楚地了解所要研究的變量的性質以及所用測量工具(量表)的特性。
1.1 心理與教育研究中的變量
一般情況下,變量是一個人(或對象)的任意一個特點,這個特點會因不同的人或不同的時間點而改變。例如,體重是一個變量,不同的人有不同的值,雖然有些人的體重可能是相同的。體重在不同的時間點也可以取不同的值,例如,當對一個人進行重復測量時(在為期一年的減肥治療中,每月監控減肥效果)。通常,我們用斜體的大寫字母X、Y和Z來表示變量。如果一項研究涉及很多的變量,我們可以使用有下角標的大寫字母表示不同的變量。例如,在教育研究中,用大學新生的高中平均績點(GPA)、學習能力傾向測驗(SAT)的成績和所修大學預修(AP)課程的數量來預測新生在大學的成功。我們可以用Y來表示被預測的變量(Y=在大學的成功),用帶下角標的X來表示作為預測源的變量,X1=高中平均績點,X2=SAT成績,X3=所修大學預修課程的數量。
變量也可以根據其性質、不同的特點、測量的量表進行描述(或分類),例如,可觀測變量與不可觀測(隱藏、潛伏)變量或連續與離散變量,下文將對這些進行討論。我們也可以使用斜體小寫字母(如,a、b、c、d或其他字母)來表示常數(constants),即在整個分析中保持不變的數字。
1.1.1 可觀測變量與潛在變量 第1章 變量及測量的尺度
與普遍看法不同,科學不只是發現新的事實,并把它們納入知識體系中。科學的基本目標是對自然現象的一般理論提供解釋。建立、修改和擴展理論過程的重要步驟,包括解釋、理解、預測和控制。正如Kerlinger(1986, p.9)所提到的,這是由理論的定義和性質決定的:
理論是一系列相互關聯的構念(概念)、定義和命題,通過確定這些變量之間的關系,呈現對某現象的系統觀點,以解釋和預測這一現象。
研究者可能希望通過諸如性別、社會經濟地位、考試焦慮、自尊、動機、語言能力以及數學能力等一系列變量來"解釋"(或"預測")一個學生的學習成績。在"解釋"的過程中,研究者應當遵循一定的科學方法:對于影響學生學習成績的"預測因素"的選擇,應在關于"如何在學校獲得成功"(在校成功)的理論模型指導下進行。想要更好地通過上述因素對學習成績進行"預測",研究者則需要使用兩個(或更多)相互"競爭"的在校成功理論模型來檢驗假定的預測關系。為了能夠從假設檢驗中得到有效的解釋和結論,收集假設關系中所涉及變量的測量指標(數據)是一個重要的前提條件。因此,研究者必須清楚地了解所要研究的變量的性質以及所用測量工具(量表)的特性。
1.1 心理與教育研究中的變量
一般情況下,變量是一個人(或對象)的任意一個特點,這個特點會因不同的人或不同的時間點而改變。例如,體重是一個變量,不同的人有不同的值,雖然有些人的體重可能是相同的。體重在不同的時間點也可以取不同的值,例如,當對一個人進行重復測量時(在為期一年的減肥治療中,每月監控減肥效果)。通常,我們用斜體的大寫字母X、Y和Z來表示變量。如果一項研究涉及很多的變量,我們可以使用有下角標的大寫字母表示不同的變量。例如,在教育研究中,用大學新生的高中平均績點(GPA)、學習能力傾向測驗(SAT)的成績和所修大學預修(AP)課程的數量來預測新生在大學的成功。我們可以用Y來表示被預測的變量(Y=在大學的成功),用帶下角標的X來表示作為預測源的變量,X1=高中平均績點,X2=SAT成績,X3=所修大學預修課程的數量。
變量也可以根據其性質、不同的特點、測量的量表進行描述(或分類),例如,可觀測變量與不可觀測(隱藏、潛伏)變量或連續與離散變量,下文將對這些進行討論。我們也可以使用斜體小寫字母(如,a、b、c、d或其他字母)來表示常數(constants),即在整個分析中保持不變的數字。
1.1.1 可觀測變量與潛在變量
能被直接測量的變量在行為學研究中被稱為可觀測變量(observable variables)。例如,在上面提到的教育研究中,學生的性別、種族、年齡、體重、身高、年級、社會經濟地位、大學預修課程的數量和高中平均績點均為可觀測變量。另一方面,如智力、對學習的態度、動機、焦慮、語言能力和數學能力等不能被直接觀測的變量被稱為潛在(不可觀測的或隱藏的)變量或構念。通常情況下,我們會給構念下一個可操作定義,以確定用哪些可觀測變量作為該構念的測量指標。例如,焦慮的測量指標包括一個人對于焦慮測驗題目的回答、心跳和皮膚電反應,或他對于實驗的反應,在后文中,潛在變量和構念是等價的概念。
值得注意的是,構念的操作定義應該基于一個特定的理論。因此,構念的測量指標的正確性取決于這個理論的正確程度。例如:一個關于創造力的理論假設,對于一個給定的問題,能提供不同的方法來解決這個問題的人更有創造力,那么解決單個問題(或任務)方法的數量,就可以被當作創造力的指標。然而,如果這個理論被證明是錯誤的,那么一個人在這個指標上的分數就不是對創造力的有效評估。我們會在第3章和第23章進一步學習關于構念的驗證和測量。
1.1.2 連續變量與離散變量
在研究性學習中,我們還須厘清所涉及的變量是連續變量還是離散變量。連續變量可以在特定的數字區間中取任何可能值。例如,在一個中學生群體中,學生的身高是一個連續變量,因為它可以是測量區間內的任何值(通常是四舍五入到厘米)。所有與距離、重量和溫度有關的變量在本質上都是連續的。連續變量的其他例子有學生的年齡;在課堂觀察中投入工作的時間;在數學、科學和閱讀能力等學科領域上的成就水平。在心理與教育研究中,所有的潛在變量(構念)在本質上是連續的——例如,學業成就、動機、焦慮、抑郁和態度(例如,對學校、宗教或種族群體的態度)。
離散變量只能取孤立的值(例如,整數)。離散變量的測量通常包括計算和枚舉某個事物的發生次數。例如,計數變量可以是一段作文里的拼寫錯誤次數,或者是一場籃球比賽中個體球員的進球次數(得分)。
1.2 測量尺度
1.2.1 什么是測量
對潛在變量(閱讀理解)的測量我們可以把測量看成一個過程,它包括三個組成部分——測量的對象、一組數字和一種標尺系統,通過這個系統我們可以給被測量變量的量級賦值。測量對象可以是可觀測變量(比如身高、年齡、年級)或者潛在變量(比如動機、語言能力或者態度)。任何潛在變量都可以被看成一個隱藏的連續體(維度),其量級在給定的方向上逐漸增長(如,若用一條直線表示連續體,則該直線為從左至右遞增,見圖1.1)。如1.1.1節所述,心理與教育中的潛在變量通常用可觀測的指標(如測驗題目)定義。一個人在這些指標上的總分數,就是這個人在潛在變量的連續體上的"隱藏"量級所被賦的值。
在這一章中,術語"量級"將表示一個人在潛在變量的連續體中的位置,而"在量級上被賦的值"將會代表一個人在潛在變量的可觀測指標上的得分(如測驗題目)。我們也將據此區分"量級間的距離"和"數字間的距離"。
比方說,我們用一個有20個二選一題目(1=正確,0=錯誤)的測驗來測量中學生的閱讀能力。這些題目可以作為閱讀能力這一潛在變量的可觀測指標。學生的總測驗成績是這名學生在閱讀理解的實際量級上所賦的值。如圖1.1中所示,M1、M2、M3、M4表示4個學生(米奇、克里斯蒂、彼得和吉爾)在閱讀能力這個連續體上的真實量級(但實際上是"隱藏"的),與這些量級對應的數字(總成績)分別是10、12、17和19。對21個二選一題目,存在著21個"離散"整數(也許這個測試的成績是0, 1, 2,…, 19, 20)可以賦予連續變量閱讀能力的量級。對于這個"悖論"的解釋是,每個值必須被看成一個得分區間的中點,這樣,所有分數區間的總體就在數軸上覆蓋了一個連續的、無"間斷"的區間。在這個例子中有21個這樣的區間:[–0.5, 0.5]中點為0,[0.5, 1.5]中點為1,等等,一直到區間 [19.5, 20.5] 中點為20。
1.2.2 類別尺度
類別尺度把人(或事物)分到獨有的類別中,比如,按性別、種族、職業,等等。類別尺度的值只可用來表示類別的"名稱",類別尺度由此得名(在拉丁語中,"nome"意為"名稱")。值得強調的是,類別尺度的值不能反映分類變量的"量級"。比如,如果我們用類別尺度"1=男,2=女"來表示性別,這并不代表1和2是賦予不同性別"量級"的值。因此,類別尺度實際上并不是一個真正的測量量度,因為我們不能根據人們在名稱上的分類,而把個體安置到任何(以增加或減少排序的)序列里。考慮到這一點,類別尺度僅被用于對心理與教育數據進行編碼和
分析。
1.2.3 順序尺度
順序尺度是對一個被測量的變量(特征、性質)的量級排序并賦予這些順序尺度與序值相同的數字。例如,圖1.1就是一個用順序尺度測量的例子,因為學生真實的閱讀理解的量級(M1、M2、M3和M4)與分數的增長順序相同(分別為10、12、17和19)。我們也可以說,在順序尺度中,對于任何兩個個體,在被測量的變量(特征)上擁有得更多的人,將會被賦予更高的分數。然而,順序尺度并沒有顯示這兩個人在這個變量上的差異有多少。換句話說,在被測量變量的真實量級上,順序尺度提供了個體間排序的信息,而非這些量級間的距離。比如在一個選美比賽中,如果順序尺度中的值1、2和3代表及時、第二和第三,表明了選手中哪個"更漂亮",相同的數字差異2–1=3–2并不一定意味著得及時和第二的選手之間在真實的"美貌程度的差異"跟得第二和第三的選手之間的差距是相同的。
1.2.4 等距尺度
等距尺度提供了被測量的變量在實際量級中關于順序和距離的信息。具體來說,如果被測變量量級間差異相同,這些量級在區間量表上所賦的值之間的差異也相同。為了說明這一點,我們再來看看圖1.1中閱讀理解的潛在量級。如果我們假設米奇和克里斯蒂在閱讀理解中的潛在差異與彼得和吉爾之間的差異相同(即,M2–M1=M4–M3),那么,這就是一個等距尺度。因為米奇和克里斯蒂被賦的值間的差異與彼得和吉爾的分值間的差異是相等的(12–10=19–17)。
然而,值得注意的是,等距尺度的零點是人為定義的。換句話說,用等距尺度測量一個變量時,賦予"零"一個給定量級并不意味著這個量級實際上是"缺失的"(即,沒有量級)。例如,溫度的測量是一個等距尺度,但是如果在某一時刻的溫度是"零度"(華氏或攝氏),并不意味著這一刻沒有溫度。等距尺度的零點(原點)是約定俗成的,而且可以通過適當的線性轉換來移動(上升或下降)。例如,從攝氏到華氏的轉換公式為:F=(9/5)C+32,其中C和F分別代表了攝氏和華氏的溫度計讀數。因此,如果C=0,那么F=32(即,0℃對應32℉)。要說明的是,因為零點(原點)在等距尺度中是人為定義的,而且不代表被測量特征的缺失,所以在等距尺度中,兩個值的比率不表示與這兩個值對應的特征的量級的比率。比如,如果兩個溫度計連續兩天的讀數是星期二20℃、星期三10℃,我們不能說,"星期二比星期三熱一倍",只能說星期三的溫度比星期二的溫度低了10℃(或者說溫度下降了10℃)。
1.2.5 比率尺度
比率尺度不僅提供了量級的順序和它們之間的距離的信息,也提供了關于被測量的變量量級間的比率的信息。比率尺度的零點(原點)是自然"固定"的。也就是說,"零"表示了被測量的特征的缺失。例如,一條直線上的兩個點之間是"零距離",表明這兩點之間沒有距離(在這種情況下,兩個點重合)。另外,所有測量距離的比率尺度的原點是相同的("零"英寸與"零"厘米表示同一個意思——沒有距離)。需要注意,這點與等距尺度不同——比如,0℃與華氏0℉代表了溫度的不同量級,但是不代表沒有溫度。進一步來說,假設用比率尺度測量物體的長度,如果這兩個物體分別是50厘米和25厘米長,我們可以說,"及時個物體的長度是第二個物體長度的兩倍"。可惜的是,用比率尺度來測量心理學與教育學中的潛在變量往往是不可能的。因此,如果在創造力測驗中,瑪麗得了100分而約翰得了50分,我們不能說,"瑪麗的創造力是約翰的兩倍"。我們最多能期待用等距尺度(或近似于等距尺度)來測量心理學與教育學中的潛在變量。
……