Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次,Tika也提供了便利的扩展API,用来丰富其对第三方文件格式的支持。
0.6 版本值得关注的改进内容有:
* 改进了对 HTML 的 Mime-type 检测
* Tika 使用一个附加的 OSGi 模块来引入所有解析库
* Apache POI 升级到 3.6 版本,该版本可显著的减小 ooxml jar包的大小
* 改进了对HTML文档的编码处理,支持HTML文档中的<meta>元素编码定义
* 改进对Excel文档中的计算公式支持
* 默认使用 UTF-8 输出信息
* 增加对 Flash 视频 (video/x-flv) 的解析器
* 增加对Excel的日期和数值单元格式化的支持
下载地址: http://lucene.apache.org/tika/download.html
时间:2010-02-01 08:25
来源:oschina
作者:oschina
原文链接