Gecco 1.2.4 发布,易用的轻量化爬虫

来源:开源中国社区 作者:xtuhcy
  

Gecco 1.2.4 发布了,DynamicGecco 实现了爬虫规则的热部署,是首个支持动态加载的java爬虫框架。

DynamicGecco 的目的是在不定义 SpiderBean 的情况下实现爬取规则的运行时配置。其实现原理是采用字节码编程,动态生成 SpiderBean,而且通过自定义的 GeccoClassLoader 实现了抓取规则的热部署。使用方法可以参考《教您使用DynamicGecco抓取JD全部商品信息》这个DEMO:

http://www.geccocrawler.com/dynamic-demo-jd/

更新内容:

  • 1、修复GeccoEngine生命周期EventListener,onStart无效的bug

  • 2、修改图片自动下载方式,对@Image提供单独的渲染器ImageFieldRender

  • 3、修复大规模爬取时有时httpclient阻塞的bug

  • 4、优化异常处理,RenderException将不会中断渲染和pipeline处理,而是记录日志

  • 5、升级guava到最新的19.0版本


时间:2016-09-12 21:19 来源:开源中国社区 作者:xtuhcy 原文链接

好文,顶一下
(0)
0%
文章真差,踩一下
(0)
0%
------分隔线----------------------------


把开源带在你的身边-精美linux小纪念品
无觅相关文章插件,快速提升流量