更新时间:2020-08-31 09:20:53
封面
版权信息
版 权
版权声明
内容提要
关于作者
关于审稿人
前 言
资源与支持
第1章 什么是文本分析
1.1 什么是文本分析
1.2 搜集数据
1.3 若输入错误数据,则输出亦为错误数据(garbage in,garbage out)
1.4 为什么你需要文本分析
1.5 总结
第2章 Python文本分析技巧
2.1 为什么用Python来做文本分析
2.2 用Python进行文本操作
2.3 总结
第3章 spaCy语言模型
3.1 spaCy库
3.2 spaCy的安装步骤
3.3 故障排除
3.4 语言模型
3.5 安装语言模型
3.6 安装语言模型的方式及原因
3.7 语言模型的基本预处理操作
3.8 分词
3.9 词性标注
3.10 命名实体识别
3.11 规则匹配
3.12 预处理
3.13 总结
第4章 Gensim:文本向量化、向量变换和n-grams的工具
4.1 Gensim库介绍
4.2 向量以及为什么需要向量化
4.3 词袋(bag-of-words)
4.4 TF-IDF(词频-反向文档频率)
4.5 其他表示方式
4.6 Gensim中的向量变换
4.7 n-grams及其预处理技术
4.8 总结
第5章 词性标注及其应用
5.1 什么是词性标注
5.2 使用Python实现词性标注
5.3 使用spaCy进行词性标注
5.4 从头开始训练一个词性标注模型
5.5 词性标注的代码示例
5.6 总结
第6章 NER标注及其应用
6.1 什么是NER标注
6.2 用Python实现NER标注
6.3 使用spaCy实现NER标注
6.4 从头开始训练一个NER标注器
6.5 NER标注应用实例和可视化
6.6 总结
第7章 依存分析
7.1 依存分析
7.2 用Python实现依存分析
7.3 用spaCy实现依存分析
7.4 从头开始训练一个依存分析器
7.5 总结
第8章 主题模型
8.1 什么是主题模型
8.2 使用Gensim构建主题模型
8.3 隐狄利克雷分配(Latent Dirichlet Allocation)
8.4 潜在语义索引(Latent Semantic Indexing)
8.5 分层狄利特雷过程(Hierarchical Dirichlet Process)
8.6 动态主题模型
8.7 使用scikit-learn构建主题模型
8.8 总结
第9章 高级主题建模
9.1 高级训练技巧
9.2 探索文档
9.3 主题一致性和主题模型的评估
9.4 主题模型的可视化
9.5 总结
第10章 文本聚类和文本分类
10.1 文本聚类
10.2 聚类前的准备工作
10.3 K-means
10.4 层次聚类
10.5 文本分类
10.6 总结
第11章 查询词相似度计算和文本摘要
11.1 文本距离的度量
11.2 查询词相似度计算
11.3 文本摘要
11.4 总结
第12章 Word2Vec、Doc2Vec和Gensim
12.1 Word2Vec
12.2 用Gensim实现Word2Vec
12.3 Doc2Vec
12.4 其他词嵌入技术
12.4.1 GloVe
12.4.2 FastText
12.4.3 WordRank
12.4.4 Varembed
12.4.5 Poincare
12.5 总结