雅虎发布了其发布-订阅消息平台Pulsar,这个平台在他们内部已经用在了多项服务的生产环境之中。
按照雅虎的说法,Pulsar是一个低延迟的发布/订阅消息系统,它可以进行水平扩展,跨多个主机和数据中心。雅虎从2015年第二季度开始,就一直在邮件、财经、Gemini Ads、Sherpa(雅虎的分布式key-value服务——译注)以及体育相关的功能中使用Pulsar。通过将其开源,他们希望Pulsar能够与其他开源项目进行集成,从而促使它得到广泛的应用。雅虎已经将Pulsar部署到了十个以上的数据中心中,在超过140万主题(topic)的情况下,达到了每天1000亿条消息,而平均的发布延迟时间在5毫秒以内。Pulsar能够保证消息的正常投递,并会为消息提供两个持久化副本、针对消息读者的自动化游标管理以及跨数据中心的复制。
我们可以搭建Pulsar来提供消息即服务(messaging-as-a-service)功能,使其运行在一个集群或多个集群上,并且能够通过API对其进行管理:添加/移除用户、添加计算和存储容量、核算和监控等等。客户端(包括生产者和消费者)都会作为租户(tenant),它们能够通过一个Java库来访问这些功能。这个库会负责服务发现、消息投递以及其他相关的任务。
Pulsar采用了主题的理念,将其作为消息生产者和消费者之间的媒介。生产者会采用同步或异步的方式将消息发送到主题上。消息可以进行批量处理或压缩(LZ4和ZLIB)。客户端通过订阅的方式来消费消息,处理过程可以进行排除(exclusive)、共享(round-robin)或故障恢复。
为了保证消息的投递,Pulsar会通过Apache BookKeeper ledger(指的是独立的log——译注)将消息持久化到稳定的存储中。读取和写入会指向不同的物理磁盘,从而尽可能降低发布带来的延迟。雅虎确认如果采用SSD作为bookie(指的是Bookkeeper的主机——译注) journal设备的话,Pulsar“在保证两个副本和完全有序的情况下,能够保证第99个百分位(99 percentile)达到5毫秒”。
雅虎将来计划支持非持久化的消息,从而减少消息broker之间主题迁移的时间,目标是从现在的10秒降低到1秒以下,将消息发布的第99.9个百分位达到5毫秒以下(目前是第99个百分位),并且还要支持除了Java以外的其他客户端语言。
查看英文原文:Yahoo! Open Sources Pulsar, a Pub/Sub Messaging Platform