自然語言處理是計算語言學和人工智能之中與人機交互相關的領域之一。 本書是學習自然語言處理的一本綜合學習指南,介紹了如何用Python實現各種NLP任務,以幫助讀者創建基于真實生活應用的項目。全書共10章,分別涉及字符串操作、統計語言建模、形態學、詞性標注、語法解析、語義分析、情感分析、信息檢索、語篇分析和NLP系統評估等主題。 本書適合熟悉Python語言并對自然語言處理開發有一定了解和興趣的讀者閱讀參考。
自然語言處理(NLP)是有關計算語言學與人工智能的研究領域之一。NLP主要關注人機交互,它提供了計算機和人類之間的無縫交互,使得計算機在機器學習的幫助下理解人類語言。 本書詳細介紹如何使用Python執行各種自然語言處理(NLP)任務,并幫助讀者掌握利用Python設計和構建基于NLP的應用的zui佳實踐。本書引導讀者應用機器學習工具來開發各種各樣的模型。對于訓練數據的創建和主要NLP應用的實現,例如命名實體識別、問答系統、語篇分析、詞義消歧、信息檢索、情感分析、文本摘要以及指代消解等,本書都進行了清晰的介紹。本書有助于讀者使用NLTK創建NLP項目并成為相關領域的專家。 通過閱讀本書,你將能夠: ● 實現字符串匹配算法以及標準化技術; ● 實現統計語言建模技術; ● 深刻理解詞干提取器、詞形還原器、形態分析器以及形態生成器的開發; ● 開發搜索引擎并實現詞性標注和統計建模(包含n-gram方法)等相關概念; ● 熟悉諸如樹型庫建設、CFG建設、CYK以及Earley線圖解析算法等相關概念; ● 開發基于NER的系統并理解和應用情感分析的相關概念; ● 理解并實現信息檢索和文本摘要等相關概念; ● 開發語篇分析系統以及基于指代消解的系統。
對自然語言處理理論和算法感興趣的讀者,Python程序員對自然語言處理理論和算法感興趣的讀者,Python程序員對自然語言處理理論和算法感興趣的讀者,Python程序員
第1章 字符串操作 1
1.1切分 1
1.1.1將文本切分為語句 2
1.1.2其他語言文本的切分 2
1.1.3將句子切分為單詞 3
1.1.4使用TreebankWordTokenizer
執行切分 4
1.1.5使用正則表達式實現
切分 5
1.2標準化 8
1.2.1消除標點符號 8
1.2.2文本的大小寫轉換 9
1.2.3處理停止詞 9
1.2.4計算英語中的停止詞 10
1.3替換和校正標識符 11
1.3.1使用正則表達式替換
單詞 11
1.3.2用另一個文本替換文本的
示例 12
1.3.3在執行切分前先執行替換操作 12
1.3.4處理重復字符 13
1.3.5去除重復字符的示例 13
1.3.6用單詞的同義詞替換 14
1.3.7用單詞的同義詞替換的
示例 15
1.4在文本上應用Zipf定律 15
1.5相似性度量 16
1.5.1使用編輯距離算法執行相似性度量 16
1.5.2使用Jaccard系數執行相似性度量 18
1.5.3使用Smith Waterman距離算法執行相似性度量 19
1.5.4其他字符串相似性度量 19
1.6小結 20
第2章 統計語言建模 21
2.1理解單詞頻率 21
2.1.1為給定的文本開發
MLE 25
2.1.2隱馬爾科夫模型估計 32
2.2在MLE模型上應用平滑 34
2.2.1加法平滑 34
2.2.2Good Turing平滑 35
2.2.3Kneser Ney平滑 40
2.2.4Witten Bell平滑 41
2.3為MLE開發一個回退機制 41
2.4應用數據的插值以便獲取混合
搭配 42
2.5通過復雜度來評估語言模型 42
2.6在語言建模中應用
Metropolis-Hastings算法 43
2.7在語言處理中應用Gibbs
采樣法 43
2.8小結 46
第3章 形態學:在實踐中學習 47
3.1形態學簡介 47
3.2理解詞干提取器 48
3.3理解詞形還原 51
3.4為非英文語言開發詞干
提取器 52
3.5形態分析器 54
3.6形態生成器 56
3.7搜索引擎 56
3.8小結 61
第4章 詞性標注:單詞識別 62
4.1詞性標注簡介 62
默認標注 67
4.2創建詞性標注語料庫 68
4.3選擇一種機器學習算法 70
4.4涉及n-gram的統計建模 72
4.5使用詞性標注語料庫開發
分塊器 78
4.6小結 80
第5章 語法解析:分析訓練資料 81
5.1語法解析簡介 81
5.2Treebank建設 82
5.3從Treebank提取上下文無關
文法規則 87
5.4從CFG創建概率上下文無關
文法 93
5.5CYK線圖解析算法 94
5.6Earley線圖解析算法 96
5.7小結 102
第6章 語義分析:意義很重要 103
6.1語義分析簡介 103
6.1.1NER簡介 107
6.1.2使用隱馬爾科夫模型的
NER系統 111
6.1.3使用機器學習工具包訓練
NER 117
6.1.4使用詞性標注執行
NER 117
6.2使用Wordnet生成同義詞
集id 119
6.3使用Wordnet進行詞義消歧 122
6.4小結 127
第7章 情感分析:我很快樂 128
7.1情感分析簡介 128
7.1.1使用NER執行情感
分析 134
7.1.2使用機器學習執行情感
分析 134
7.1.3NER系統的評估 141
7.2 小結 159
第8章 信息檢索:訪問信息 160
8.1 信息檢索簡介 160
8.1.1停止詞刪除 161
8.1.2使用向量空間模型進行
信息檢索 163
8.2向量空間評分及查詢操作符
關聯 170
8.3使用隱性語義索引開發IR
系統 173
8.4文本摘要 174
8.5問答系統 176
8.6小結 177
第9章 語篇分析:理解才是可信的 178
9.1語篇分析簡介 178
9.1.1使用中心理論執行語篇
分析 183
9.1.2指代消解 184
9.2小結 188
第10章 NLP系統評估:性能分析 189
10.1NLP系統評估要點 189
10.1.1NLP工具的評估(詞性標注器、詞干提取器及形態分析器) 190
10.1.2使用黃金數據執行解析器
評估 200
10.2IR系統的評估 201
10.3錯誤識別指標 202
10.4基于詞匯搭配的指標 202
10.5基于句法匹配的指標 207
10.6使用淺層語義匹配的指標 207
10.7小結 208
ok ok
不錯的書,雖然還沒看,看起來不錯哈
很好很強大