Apache SeaTunnel

应用场景

Apache SeaTunnel 在银行以下三个主要场景中发挥着重要作用:

  • 数据加速:数据仓库在数据模型层对模型进行加工,完成后将大数据平台数据推送至OLAP专属引擎(目前配置ClickHouse引擎),支持用户即时查询。
  • 数据推送:将内部管理系统,如指标管理系统、标签管理系统加工后的结果数据推送至目标数据源(MySQL)。
  • 数据采集:提高业务系统的数据时效性,及时采集至目标数据源。

SeaTunnel 定制化(V2.1.3)

为了更好地适应银行的需求,我们对SeaTunnel进行了一系列的定制化改进:

  • 数据源支持:增加了对非Spark直接支持数据源的支持,例如星环Inceptor和Hive事务表。
  • 插件优化:
    • 自定义插件的增加。
    • 迭代优化已有插件,如Jdbc、ClickHouse、Hive、ElasticSearch。
    • 其他运行时优化。

特定插件的定制化

  • Jdbc:
    • 增加多查询支持、根据指定字段自动分区。
    • Jdbc Sink增加PreSQL执行支持。
    • 增加对Inceptor表中事务表的支持。
  • ClickHouse & Hive:
    • 增加PreSQL执行支持。
    • 调整Hive数据写入方式。

SeaTunnel的集成应用

Apache Livy的集成

我们把Apache SeaTunnel融入到已有的Apache Livy服务中,在快速启动、安全性、灵活性上得到了提高。

  • 快速启动:通过Livy Client,在同一个SparkContext下运行多个SeaTunnel Job,提升启动效率。
  • 安全性:通过Livy访问大数据平台,客户端设置安全认证,无需将整个大数据集群暴露,从而保护大数据集群安全性。
  • 灵活性:通过与Livy集成,无需生产本地配置文件,通过Livy job提交SeaTunnel任务,提升系统灵活性。
Apache DolphinScheduler的集成
  • 共享数据源:与SQL等任务使用相同数据源配置,降低配置变更复杂度。
  • 参数一致:支持与调度系统一致的参数配置,便于用户学习和使用。
  • 元数据一致:银行开发了支持血缘相关功能,支持在任务层面提供与SQL等任务相对的元数据配置,便于系统自动触发。
作者:Jeebiz  创建时间:2024-07-10 22:52
最后编辑:Jeebiz  更新时间:2024-07-10 22:56