Apache Tika 1.19.1 已发布,Tika 是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了 POI 和 Pdfbox,并且为文本抽取工作提供了一个统一的界面。其次,Tika 也提供了便利的扩展 API,用来丰富其对第三方文件格式的支持。
Apache Tika 1.19.1 主要包括对 MP3Parser 和 SAX 解析处理的两个关键 bug 修复,具体如下:
- Update PDFBox to 2.0.12, jempbox to 1.8.16 and jbig2 to 3.0.2
- Fix regression in parser for MP3 files
- Updated Python Dependency Check for TesseractOCR
- Improve SAXParser robustness
- Remove dependency on slf4j-log4j12 by upgrading jmatio
- Replace com.sun.xml.bind:jaxb-impl and jaxb-core with org.glassfish.jaxb:jaxb-runtime and jaxb-core
下载地址:
http://tika.apache.org/download.html
转自 https://www.oschina.net/news/100693/tika-1-19-1-released