文本處理是目前互聯網內容應用(如搜索引擎、推薦引擎)的關鍵技術。本書涵蓋了文本處理概念和技術的多個方面,包括文本預處理、搜索、字符串匹配、信息抽取、命名實體識別、分類、聚類、標簽生成、摘要、問答等。本書的特點在于通過實例來理解文本處理的這些概念和技術,讀者利用現有的開源工具就可以自己實現這些實例。
總編薦書,經典與你同行
第1章 開始駕馭文本
1.1 駕馭文本重要的原因
1.2 預覽:一個基于事實的問答系統
1.2.1 嗨,弗蘭肯斯坦醫生
1.3 理解文本很困難
1.4 駕馭的文本
1.5 文本及智能應用:搜索及其他
1.5.1 搜索和匹配
1.5.2 抽取信息
1.5.3 對信息分組
1.5.4 一個智能應用
1.6 小結
1.7 相關資源
第2章 駕馭文本的基礎
2.1 語言基礎知識
2.1.1 詞語及其類別
2.1.2 短語及子句
2.1.3 詞法
2.2 文本處理常見工具
2.2.1 字符串處理工具
2.2.2 詞條及切詞
2.2.3 詞性標注
2.2.4 詞干還原
2.2.5 句子檢測
2.2.6 句法分析和文法
2.2.7 序列建模
2.3 從常見格式文件中抽取內容并做預處理
2.3.1 預處理的重要性
2.3.2 利用Apache Tika抽取內容
2.4 小結
2.5 相關資源
第3章 搜索
3.1 搜索和多面示例:Amazon.com
3.2 搜索概念入門
3.2.1 索引內容
3.2.2 用戶輸入
3.2.3 利用向量空間模型對文檔排名
3.2.4 結果展示
……
第4章 模糊字符串匹配
第5章 命名實體識別
第6章 文本聚類
第7章 分類及標注
第8章 構建示例問答系統
第9章 未駕馭的文本:探索未來前沿