文本處理是目前互聯(lián)網(wǎng)內(nèi)容應(yīng)用(如搜索引擎、推薦引擎)的關(guān)鍵技術(shù)。本書涵蓋了文本處理概念和技術(shù)的多個(gè)方面,包括文本預(yù)處理、搜索、字符串匹配、信息抽取、命名實(shí)體識(shí)別、分類、聚類、標(biāo)簽生成、摘要、問(wèn)答等。本書的特點(diǎn)在于通過(guò)實(shí)例來(lái)理解文本處理的這些概念和技術(shù),讀者利用現(xiàn)有的開源工具就可以自己實(shí)現(xiàn)這些實(shí)例。
總編薦書,經(jīng)典與你同行
第1章 開始駕馭文本
1.1 駕馭文本重要的原因
1.2 預(yù)覽:一個(gè)基于事實(shí)的問(wèn)答系統(tǒng)
1.2.1 嗨,弗蘭肯斯坦醫(yī)生
1.3 理解文本很困難
1.4 駕馭的文本
1.5 文本及智能應(yīng)用:搜索及其他
1.5.1 搜索和匹配
1.5.2 抽取信息
1.5.3 對(duì)信息分組
1.5.4 一個(gè)智能應(yīng)用
1.6 小結(jié)
1.7 相關(guān)資源
第2章 駕馭文本的基礎(chǔ)
2.1 語(yǔ)言基礎(chǔ)知識(shí)
2.1.1 詞語(yǔ)及其類別
2.1.2 短語(yǔ)及子句
2.1.3 詞法
2.2 文本處理常見工具
2.2.1 字符串處理工具
2.2.2 詞條及切詞
2.2.3 詞性標(biāo)注
2.2.4 詞干還原
2.2.5 句子檢測(cè)
2.2.6 句法分析和文法
2.2.7 序列建模
2.3 從常見格式文件中抽取內(nèi)容并做預(yù)處理
2.3.1 預(yù)處理的重要性
2.3.2 利用Apache Tika抽取內(nèi)容
2.4 小結(jié)
2.5 相關(guān)資源
第3章 搜索
3.1 搜索和多面示例:Amazon.com
3.2 搜索概念入門
3.2.1 索引內(nèi)容
3.2.2 用戶輸入
3.2.3 利用向量空間模型對(duì)文檔排名
3.2.4 結(jié)果展示
……
第4章 模糊字符串匹配
第5章 命名實(shí)體識(shí)別
第6章 文本聚類
第7章 分類及標(biāo)注
第8章 構(gòu)建示例問(wèn)答系統(tǒng)
第9章 未駕馭的文本:探索未來(lái)前沿