Apache Tika 0.6 发布,内容抽取工具包

来源:oschina 作者:oschina
  

Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次,Tika也提供了便利的扩展API,用来丰富其对第三方文件格式的支持。

0.6 版本值得关注的改进内容有:

* 改进了对 HTML 的 Mime-type 检测
* Tika 使用一个附加的 OSGi 模块来引入所有解析库
* Apache POI 升级到 3.6 版本,该版本可显著的减小 ooxml jar包的大小
* 改进了对HTML文档的编码处理,支持HTML文档中的<meta>元素编码定义
* 改进对Excel文档中的计算公式支持
* 默认使用 UTF-8 输出信息
* 增加对 Flash 视频 (video/x-flv) 的解析器
* 增加对Excel的日期和数值单元格式化的支持

Apache Tika 0.6 发布,内容抽取工具包

下载地址: http://lucene.apache.org/tika/download.html


时间:2010-02-01 08:25 来源:oschina 作者:oschina 原文链接

好文,顶一下
(9)
100%
文章真差,踩一下
(0)
0%
------分隔线----------------------------


把开源带在你的身边-精美linux小纪念品
无觅相关文章插件,快速提升流量