新版变动
- 完美支持SpringBoot,可以尽情的集成SpringBoot现有生态,demo参考
- 回调函数支持方法引用,设置起来更自然
push(Request.build(s.toString(),Basic::getTitle));
- 非SpringBoot模式全局配置项通过
SeimiConfig
进行配置,包括 Redis集群信息,SeimiAgent信息等,SpringBoot模式则通过SpringBoot标准模式配置
常规模式:
SeimiConfig config = new SeimiConfig(); config.setSeimiAgentHost("127.0.0.1"); //config.redisSingleServer().setAddress("redis://127.0.0.1:6379"); Seimi s = new Seimi(config); s.goRun("basic");
SpringBoot模式,在application.properties中配置
seimi.crawler.enabled=true # 指定要发起start请求的crawler的name seimi.crawler.names=basic,test seimi.crawler.seimi-agent-host=xx seimi.crawler.seimi-agent-port=xx #开启分布式队列 seimi.crawler.enable-redisson-queue=true #自定义bloomFilter预期插入次数,不设置用默认值 () #seimi.crawler.bloom-filter-expected-insertions= #自定义bloomFilter预期的错误率,0.001为1000个允许有一个判断错误的。不设置用默认值(0.001) #seimi.crawler.bloom-filter-false-probability=
- 默认的分布式队列改用Redisson实现,底层依旧为redis,去重引入BloomFilter以提高空间利用率,一个线上的BloomFilter调参模拟器地址
- JDK要求 1.8+
转自 https://www.oschina.net/news/97373/seimicrawler-v2-0-released