入湖入仓,数据传输管道。开源软件Airbyte中文社区
微信号:AirbyteCN
QQ群:114917858
Airbyte产品介绍
-
一、Airbyte是做什么的?
简单来讲,airbyte是做数据集成和连接的。将应用程序、API和数据库中的数据同步到数据仓库、数据湖和其他目的地支持200个Source类型连接器,100 个Destination类型的连接器
2021年,9000多家公司使用Airbyte从PostgreSQL、Oracle、MySQL、Facebook广告、Salesforce、Stripe等来源同步数据,并连接到Redshift、Snowflake、Databricks和BigQuery等目的地
社区:拥有4500名数据从业者和200名贡献者
预计到2022年底将有500个高质量连接器且涵盖更多类型的数据移动,包括反向ETL和流式接收
Airbyte解决了什么问题?
第一:公司总是必须自己构建和维护数据连接器,因为大多数不太流行的“长尾”数据连接器不受封闭源ELT技术的支持。第二:数据团队通常必须围绕预建连接器进行定制工作,以使其在其独特的数据基础架构中工作。
二、整体架构
Airbyte一些核心概念
Airbyte Connector——连接器在Airbyte的概念中,connector或者是收集从数据源推送过来的数据,或者去跟数据源发送请求去抓取数据。
Airbyte规定每个connector都放在一个完整的docker镜像中
Airbyte的connector的类型如下图:
三、流程演示
配置同步作业
1、从Airbyte支持的“Sources”中选择想要连接的数据源,并配置相应信息
2、从Airbyte支持的“Destinations”中选择数据
3、刷新数据源schema
4、数据同步
5、结果展示
6、10w数据同步测试