Gensim 是用于主题模型、文档索引和海量文本的相似检索的 Python 库,目标受众是自然语言处理(NLP)和信息检索(IR)社区。
Gensim 3.4.0 已发布,主要更新如下:
- 新增 cython 版 gensim.models.LdaModel ,带来大幅优化,训练速度更快。
- 新增 Cython 版 MmReader,给 corpus I/O 带来大幅提速。
- gensim.models.FastText 性能和内存优化
- 开始使用 Soft Cosine Measure ,这是一个评估文件相似性的新方法,是 WMD 的一个很好的替代方法
此外,该版本还包含大量改进和 bug 修复,详情可查阅发行列表。
转自 http://www.oschina.net/news/93842/gensim-3-4-0