Gecco 1.2.4 发布了,DynamicGecco 实现了爬虫规则的热部署,是首个支持动态加载的java爬虫框架。
DynamicGecco 的目的是在不定义 SpiderBean 的情况下实现爬取规则的运行时配置。其实现原理是采用字节码编程,动态生成 SpiderBean,而且通过自定义的 GeccoClassLoader 实现了抓取规则的热部署。使用方法可以参考《教您使用DynamicGecco抓取JD全部商品信息》这个DEMO:
http://www.geccocrawler.com/dynamic-demo-jd/
更新内容:
-
1、修复GeccoEngine生命周期EventListener,onStart无效的bug
-
2、修改图片自动下载方式,对@Image提供单独的渲染器ImageFieldRender
-
3、修复大规模爬取时有时httpclient阻塞的bug
-
4、优化异常处理,RenderException将不会中断渲染和pipeline处理,而是记录日志
-
5、升级guava到最新的19.0版本
时间:2016-09-12 21:19
来源:开源中国社区
作者:xtuhcy
原文链接