Airbyte 是一个开源数据集成引擎,可用于从 API、数据库和文件到数据库、数据仓库和数据湖的 ELT 管道的数据集成平台,可帮助您整合数据仓库、数据湖和数据库中的数据。

https://mp.weixin.qq.com/s/sa3y5MompT8NWU7Sqs5AUw

Airbyte 优点

  • 开放平台统一所有数据管道

    使用预构建和自定义连接器在几分钟内复制数据。通过开源的灵活性满足您的所有特定需求。

  • 拥有众多连接器

    Airbyte的目录中有300多个预构建的无代码连接器,是业内最大的,由于其开源社区,每年都在翻一番,而闭源目录则停滞不前。

  • 通过可扩展性满足您的定制需求

    Airbyte的连接器代码是开源的,因此您可以根据需要对其进行编辑,可自定义任何Airbyte连接器以满足您的自定义需求。可使用Airbyte连接器开发工具包(CDK)可以在 10 分钟内构建自定义连接器,并由官方或社区维护它们。将它们添加到 Airbyte 中,使您的整个团队都能利用它们。

  • 通过自动化将时间从维护连接器中解放出来

    通过直观的UI、API和CLI(即将推出),让您的管道在几分钟内实现自动化运行。

    1. 自动化模式更改处理、数据规范化等

    2. 通过airbyte的 dbt 集成实现自动化数据转换编排

    3. 通过airbyte的Airflow、Dagster和Prefect集成实现自动化工作流程

  • 各个层面的可靠性

    1. Airbyte确保您团队的时间不再花在维护我们GA连接器的可靠性SLA上。

    2. Airbyte还将很快为您提供所有连接的流级别数据新鲜度的可见性和控制。

  • 控制您的数据工程成本

    使您的数据工程团队能够专注于对您的业务更有价值的项目。使用 Airbyte,构建和维护自定义连接器变得容易了 5 倍。

Airbyte 核心概念

Airbyte 使您能够构建数据管道并将数据从源复制到目标。您可以配置数据同步的频率、复制的数据、数据在目标中写入的格式以及数据是以原始表格式还是基本规范化(或 JSON)格式存储的。

图片

Source

从源中获取数据的 API、文件、数据库或数据仓库。

01

Destination

目的地是数据仓库、数据湖、数据库或分析工具,您希望在其中加载摄入的数据。

02

Connector

一个 Airbyte 组件,它从源中提取数据或将数据推送到目的地。

03

Connection

连接是将数据从源复制到目标的自动化数据管道。

04

Stream

 流是一组相关的记录。如: 关系数据库中的表;REST API 的资源或 API 端点;来自文件系统中包含许多文件的目录。

05

Field

 字段是流中记录的属性。如: 关系数据库中表中的列;API 响应中的字段。

06

Namespace

 命名空间是源或目标中的一组流。命名空间的常见用例是强制执行权限、隔离测试和生产数据以及一般数据组织。

 关系数据库系统中的模式是名称空间的一个示例。在源中,命名空间是将数据复制到目标的位置。在目标中,命名空间是复制数据在目标中的存储位置。同步模式控制着 Airbyte 如何从源读取和写入目的地。

07

Connection sync modes

同步模式控制着 Airbyte 如何从源读取和写入目的地。Airbyte 提供不同的同步模式来应对各种用例。

1.Full Refresh | Overwrite: 同步源中的所有记录并通过覆盖替换目标中的数据。

2.Full Refresh | Append: 从源同步所有记录并将它们添加到目标而不删除任何数据。

3.Incremental Sync | Append: 从源同步新记录并将它们添加到目标而不删除任何数据。

4.Incremental Sync | Deduped History: 从源同步新记录并将它们添加到目标。还提供镜像源中流状态的去重视图。

08

Normalization

 规范化是将数据从源结构化为适合在目标中使用的格式的过程。例如,当将数据从嵌套的动态类型源(如 JSON API)写入关系目标(如 Postgres)时,规范化是将 JSON 从源取消嵌套为关系表格式的过程,该格式在目标中使用适当的列类型。

请注意,规范化仅与以下关系数据库和仓库目的地相关:

BigQuery

Snowflake

Redshift

Postgres

Oracle

MySQL

MSSQL

09

Workspace

工作区是一组源、目标、连接和其他配置。

10

airbyte本地部署

前提

安装docker以及docker-compose
#Clone Airbyte
git clone https://github.com/airbytehq/airbyte.git

启动 Airbyte

cd airbyte

./run-ab-platform.sh

docker-compose ps

03

登录 Airbyte

在浏览器中访问http://localhost:8000,默认用户airbyte,默认密码password。

如需更改密码,可在当前安装目录下配置.env文件更改BASIC_AUTH_USERNAME和BASIC_AUTH_PASSWORD的值。

04

关于airbyte数据库

 Airbyte使用Postgres数据库来存储数据,镜像为airbyte/db,各种实体保存在两个内部数据库中:

Job database: 有关 Airbyte 作业执行和各种运行时元数据的数据。有关 Airbyte、Temporal.io 使用的内部编排器的数据(任务、工作流数据、事件和可见性数据)。

Config database: 连接器、同步连接和各种 Airbyte 配置对象。

  请注意,来自源(或目标)连接器的实际数据不会传输或保留在此内部数据库中。

图片

关于Connector版本

1.Generally Available: 一般可用的连接器已被视为可以在生产环境中使用,并得到 Airbyte 的正式支持。

2.Beta: Beta 连接器被认为是稳定的,没有向后不兼容的更改,但尚未得到更广泛的用户组的验证。

3.Alpha: alpha 连接器表示正在开发中的连接器,可帮助 Airbyte 收集早期采用者报告的早期反馈和问题。

作者:Jeebiz  创建时间:2023-07-10 23:07
最后编辑:Jeebiz  更新时间:2024-07-10 22:56