皇上,还记得我吗?我就是1999年那个Linux伊甸园啊-----24小时滚动更新开源资讯,全年无休!

Apache Tika 1.19.1 发布,内容抽取工具集合

Apache Tika 1.19.1 已发布,Tika 是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了 POI 和 Pdfbox,并且为文本抽取工作提供了一个统一的界面。其次,Tika 也提供了便利的扩展 API,用来丰富其对第三方文件格式的支持。

Apache Tika 1.19.1 主要包括对 MP3Parser 和 SAX 解析处理的两个关键 bug 修复,具体如下:

  • Update PDFBox to 2.0.12, jempbox to 1.8.16 and jbig2 to 3.0.2
  • Fix regression in parser for MP3 files
  • Updated Python Dependency Check for TesseractOCR
  • Improve SAXParser robustness
  • Remove dependency on slf4j-log4j12 by upgrading jmatio
  • Replace com.sun.xml.bind:jaxb-impl and jaxb-core with org.glassfish.jaxb:jaxb-runtime and jaxb-core

下载地址:

http://tika.apache.org/download.html

转自 https://www.oschina.net/news/100693/tika-1-19-1-released