基于大數據時代生物醫學數據的爆炸式增長,本書從醫學科研中的實際問題出發,以案例的形式深入淺出地介紹了近年來嶄新的醫學數據挖掘技術,包括決策樹模型、支持向量機、森林分類、關聯規則、貝葉斯網絡構建等,并詳細介紹了數據挖掘軟件(SPSS、SAS、R等)的操作步驟,重點突出實用性和可操作性,以期提高讀者對醫學科研數據的深層次處理與分析的能力。 本書主要取材于編者近年來從事生物醫學數據深度挖掘方面的研究與教學工作內容,既適用于醫學院校本科生及研究生、醫學基礎及臨床科研工作者和相關技術人員作為教材,也可作為科學研究的參考用書。
(1)內容覆蓋面廣,涉及常見的復雜醫學數據分析及深層次數據挖掘;(2)結合醫學特色,理論聯系實際,案例典型,完備詳實;(3)軟件實現具體細致,方便讀者進行操作實踐;(4)避免大量公式及繁瑣計算,提高實用性與可操作性;(5)內容且有深度,可以為其他領域的研究人員提供參考。
目錄
第1章 數據預處理 1
1.1 異常值的常見處理方法 1
1.2 缺失值的填補 8
第2章 多元線性回歸分析 14
2.1 多元線性回歸的概念 14
2.2 多元線性回歸的模型結構 14
2.3 多元逐步線性回歸 17
第3章 Logistic回歸分析 22
3.1 Logistic回歸分析的基本概念 22
3.2 Logistic回歸的模型結構 22
3.3 應用實例1:一般資料的Logistic回歸 23
3.4 應用實例2:列聯表資料的Logistic回歸 27
3.5 應用實例3:多項Logistic回歸分析 29
第4章 非線性回歸擬合分析 32
4.1 非線性回歸基本概念 32
4.2 應用實例1:對新增SARS病例數的預測分析 32
4.3 應用實例2:對累計SARS病例數的預測分析 37
第5章 生存分析 41
5.1 生存分析的基本概念 41
5.2 生存分析的資料特點 41
5.3 生存資料的分析方法 42
5.4 應用實例1:累積生存率的計算 42
5.5 應用實例2:小樣本生存率的Kaplan-Meier估計 45
5.6 應用實例3:生存曲線比較的Log-rank檢驗 47
5.7 應用實例4:Cox回歸 51
5.7.1 Cox模型結構與參數估計 51
5.7.2 應用實例:Cox回歸分析 51
第6章 基于競爭風險模型的生存分析 56
6.1 競爭風險模型 56
6.2 應用實例:競爭風險模型的生存分析 56
第7章 Meta分析 62
7.1 Meta分析概述 62
7.2 Meta分析的方法與步驟 62
7.3 應用實例1:二分類資料的Meta分析 63
7.4 應用實例2:連續資料的Meta分析 71
第8章 劑量-反應模型的Meta分析 77
8.1 劑量-反應關系的數據結構 77
8.2 線性擬合 78
8.3 非線性擬合-三次曲線擬合 79
第9章 決策樹模型分析 82
9.1 分類的概念 82
9.2 分類的步驟 82
9.3 分類器性能的評估 83
9.4 決策樹分類器簡介 83
9.5 應用實例:決策樹分析 85
第10章 隨機森林法提取特征屬性 88
10.1 隨機森林方法基本概念 88
10.2 基于平均基尼指數減少量的特征屬性選擇 88
10.3 應用實例:隨機森林法提取特征屬性 90
第11章 傾向性得分匹配方法 94
11.1 傾向性得分匹配方法 94
11.2 傾向性得分匹配方法的步驟 94
11.3 應用實例:傾向性得分匹配 95
第12章 用廣義估計方程分析重復測量的定性資料 102
12.1 廣義估計方程的基本概念 102
12.2 廣義線性模型的結構 102
12.3 GEE算法 103
12.4 應用實例1:重復測量的實驗數據 103
12.5 應用實例2:問卷調查中的多選題數據 105
第13章 基于支持向量機的微陣列數據分類 109
13.1 支持向量機簡介 109
13.2 支持向量機的基本原理 109
13.3 應用實例:支持向量機分類 111
第14章 時間序列分析 113
14.1 時間序列分析的基本概念 113
14.2 時間序列分析的主要步驟 113
14.3 應用實例:時間序列分析 114
第15章 路徑圖分析 118
15.1 路徑圖分析基本理論 118
15.2 路徑圖分析的基本步驟 118
15.3 應用實例:路徑圖分析 119
15.3.1 及時個回歸分析 119
15.3.2 第二個回歸分析 121
15.3.3 第三個回歸分析 122
第16章 主成分分析與因子分析 124
16.1 主成分分析概念 124
16.2 應用實例1:主成分分析 124
16.3 因子分析概念 129
16.4 應用實例2:因子分析 129
第17章 判別分析 134
17.1 判別分析的概念 134
17.2 常用的判別分析方法 134
17.3 判別函數的驗證 135
17.4 應用實例:判別分析 135
第18章 聚類分析 144
18.1 聚類分析的概念 144
18.2 K均值聚類法 144
18.3 應用實例1:K均值聚類 145
18.4 系統聚類法 148
18.5 應用實例2:系統聚類 149
18.6 繪制雙向聚類熱圖 153
第19章 關聯規則 156
19.1 關聯規則的基本概念 156
19.2 關聯規則的質量和重要性 156
19.3 關聯規則分析的基本方法 157
19.4 應用實例:關聯規則分析 157
第20章 兩組ROC曲線下的面積比較 161
20.1 ROC曲線的構建 161
20.2 ROC曲線下面積 162
20.3 兩組ROC曲線下面積比較 162
20.4 應用實例:兩組ROC曲線下面積比較 162
第21章 診斷性試驗Meta分析 166
21.1 診斷性試驗Meta分析基本概念 166
21.2 診斷性試驗Meta分析的相關評價指標 166
21.3 應用實例:診斷性試驗Meta分析 167
第22章 貝葉斯網絡分析 173
22.1 貝葉斯網絡的概念 173
22.2 應用實例:貝葉斯網絡構建 174
第23章 偏最小二乘回歸分析 179
23.1 偏最小二乘回歸的基本步驟和原理 179
23.2 應用實例:偏最小二乘回歸分析 180
參考文獻 185