适用场景 |
面向传统数据的ETL工具 |
面向数据仓库的建模传统ETL工具 |
|
面向大数据场景的etl/实时计算工具 |
使用方式 |
CS客户端户模式,开发和生产环境需立部署,任务的编写和调试修改都在本地,器 要发布到生产环境,线上生严环境没有界面, 需要通过日志来调试 debug,效低, 费事耗力 |
Datax是脚本本的方式执行任 需要完全吃透原码才可以使用,学习成本高,没有图形开发化界面和监控界面,运 运维成本相对对高 |
以配置文件为主, 学习成本高, 相对于运维和实施有门槛 ----------------------------------------------------------------------------------------- |
filling是bs架构 只要对数据结构了解, 都可以快速上手, 学习成本低, 有图形化页面, 方便监控可运维 |
底层架构 |
主从结构高可用, 扩展属性差, 架构容错低, 不适用于大量数据 |
支持单机部罗和集群部署两种方式 |
只支持单机部署, 存在单点故障 |
支持多种化集群部署, 运行在yarn/k8s/独立集群 |
CDC机制 |
基于时间戳, 触发器等 |
|
无 |
基于数据库binlog |
对数据库影响 |
对数据表结构有要求, 存在一定侵入性 |
通过sql, select采集数据, 对数据源没有侵入性 |
通过sql, select采集数据, 对数据源没有侵入性 |
数据库必须开启binlog功能 |
自动断点续传 |
不支持 |
依赖工具日志故障定位问题, 没有图形化运维页面和预警机制, 需要自定义开发 |
依赖外部文件 |
checkpoin机制t天然支持 |
监控预警 |
可视化过程监控, 提供多样化图标, 复制运维, 故障问题可实时预警 |
不支持 |
需要配合kibana来实现 |
可以针对算子级别的监控 |
数据清洗 |
围绕数据仓库的数据需求进行建模计算, 清洗功能相对复杂, 需要手动编程 |
需要根据自身清洗规则编写清洗脚本, 进行调试 |
围绕数据仓库的数据需求进行建模计算, 清洗功能相对复杂, 需要手动编程 |
可拖拽式设计, +可视化编程, 提供在线调试功能, 支持javascript语法 |
数据转换 |
手动配置schema mapping |
手动配置列, 字段 |
自动识别 |
自动识别 |
数据实时性 |
非实时 |
定时 |
非实时 |
实时 |
应用难度 |
高 |
高 |
高 |
低 |
是否需要开发 |
是 |
是 |
否 |
否 |
易用性 |
低 |
低 |
高 |
高 |
稳定性 |
低 |
中 |
中 |
高 |
|
|
|
|