Apache SeaTunnel
应用场景
Apache SeaTunnel 在银行以下三个主要场景中发挥着重要作用:
- 数据加速:数据仓库在数据模型层对模型进行加工,完成后将大数据平台数据推送至OLAP专属引擎(目前配置ClickHouse引擎),支持用户即时查询。
- 数据推送:将内部管理系统,如指标管理系统、标签管理系统加工后的结果数据推送至目标数据源(MySQL)。
- 数据采集:提高业务系统的数据时效性,及时采集至目标数据源。
SeaTunnel 定制化(V2.1.3)
为了更好地适应银行的需求,我们对SeaTunnel进行了一系列的定制化改进:
- 数据源支持:增加了对非Spark直接支持数据源的支持,例如星环Inceptor和Hive事务表。
- 插件优化:
- 自定义插件的增加。
- 迭代优化已有插件,如Jdbc、ClickHouse、Hive、ElasticSearch。
- 其他运行时优化。
特定插件的定制化
- Jdbc:
- 增加多查询支持、根据指定字段自动分区。
- Jdbc Sink增加PreSQL执行支持。
- 增加对Inceptor表中事务表的支持。
- ClickHouse & Hive:
- 增加PreSQL执行支持。
- 调整Hive数据写入方式。
SeaTunnel的集成应用
与Apache Livy
的集成
我们把Apache SeaTunnel融入到已有的Apache Livy服务中,在快速启动、安全性、灵活性上得到了提高。
- 快速启动:通过Livy Client,在同一个SparkContext下运行多个SeaTunnel Job,提升启动效率。
- 安全性:通过Livy访问大数据平台,客户端设置安全认证,无需将整个大数据集群暴露,从而保护大数据集群安全性。
- 灵活性:通过与Livy集成,无需生产本地配置文件,通过Livy job提交SeaTunnel任务,提升系统灵活性。
与Apache DolphinScheduler
的集成
- 共享数据源:与SQL等任务使用相同数据源配置,降低配置变更复杂度。
- 参数一致:支持与调度系统一致的参数配置,便于用户学习和使用。
- 元数据一致:银行开发了支持血缘相关功能,支持在任务层面提供与SQL等任务相对的元数据配置,便于系统自动触发。
作者:Jeebiz 创建时间:2024-07-10 22:52
最后编辑:Jeebiz 更新时间:2024-07-10 22:56
最后编辑:Jeebiz 更新时间:2024-07-10 22:56