canal 是阿里巴巴在 2012 年开源的基于 MySQL 数据库增量日志解析,提供增量数据订阅&消费。基于 canal 的准实时日志订阅消费,你可以完成类似的业务:
- 同步到另一个数据库,比如异地容灾、同步离线库等
- 构建多级索引 (卖家和买家各自分库索引)
- 实时构建搜索引擎,比如同步给 elasticsearch
- 业务 cache 刷新
- 价格变化等重要业务消息
项目开源地址:https://github.com/alibaba/canal。经历了 4 个月的蛰伏,canal 1.1 系列的 1.1.3 正式发布了,主要围绕自建的生态能力,完善消息投递到 MQ 和 Client Adapter 做了比较多的测试和修复工作,具体的变更日志:
功能新增
- 支持 MySQL 8.0 新的 caching_sha2_password 认证协议
- 支持 Azure MySQL 的认证协议
- canal 投递 MQ 消息【MQ投递】
- 支持按表规则定义 dynamic topic、partition 路由的能力
- 新增 kafka 消息投递事务
- canal 内置的客户端【ClientAdapter】
- rds-adapter 增加 MySQL 整个 DB 层面的同步配置
- es-adapter 新增父子文档索引适配
小需求 & bugfix
- 解决 server 单核服务器无法接收数据的问题 #1605
- 修复 TableMeta TSDB 支持 utf8mb4 #1550
- 修复 MQ 消息发送时非 flatMessage 模式出现数据重复 #1551
- 修复 Kafka 配置为分区模式时出现数据 #1636
- 修复 fastsql 的几个 DDL 解析问题 #1306 #1546 #1626
- 修复 rdb-adapter 同步的类型转化、空指针、大小写、DDL 同步等问题 #1313 #1338 #1341 #1408 #1433
- 修复投递 MQ 模式,Canal server HA 在切换后不生效 #1229
- 修复 es-adapter 数据库主键类型错误 #1559
- 修复 charset 编码不存在 #1662
更多详情,可以参见 https://github.com/alibaba/canal/releases
canal 工作原理
原理相对比较简单:
- canal 模拟 MySQL slave 的交互协议,伪装自己为 MySQL slave,向 MySQL master 发送 dump 协议
- MySQL master 收到 dump 请求,开始推送 binary log 给 slave(也就是 canal)
- canal 解析 binary log 对象(原始为 byte 流)
canal 整体架构
说明:
- server 代表一个 canal 运行实例,对应于一个 jvm
- instance 对应于一个数据队列 (1个 server 对应 1..n 个 instance)
instance 模块:
- eventParser (数据源接入,模拟 slave 协议和 master 进行交互,协议解析)
- eventSink (Parser 和 Store 链接器,进行数据过滤、加工、分发的工作)
- eventStore (数据存储)
- metaManager (增量订阅&消费信息管理器)
整个 canal-server 可以有两种交付方式
- client/server 架构,可以独立部署一个 canal server 进程去抓取 MySQL binlog,然后业务代码里启动1个或多个 canal client 来做消费。优点:开箱即用,运维简单
- 嵌入式架构,允许业务代码里启动 canal server 直接来做消费。优点:方便和业务系统做集成
canal 相比于其他开源的 binlog 产品,比如 open-replicator、mysql-binlog-connector-java、Tungsten Replicator、maxwell 有比较多的优势:
- 高可用性。canal 支持 MySQL 主备、server 和 client 多个层面的高可用机制,可以作为生产使用
- 跨语言。canal 的通讯协议选择了 protobuf 3.6.1,client 层面目前支持 java、c#、go 多个语言的客户端
- 整体性。canal 支持增量数据投递到 MQ,同时引入 Client Adpater 扩展机制,目前支持 rdb、elasticsearch、hbase 等目标的写入
来源 DRDS乐园