入湖入仓,数据传输管道。开源软件Airbyte中文社区
微信号:AirbyteCN
QQ群:114917858
什么是Airbyte
-
背景
数据是任何企业不可或缺的方面。它允许解决方案开发、指标跟踪,并为简化和集成的流程创建结构。数据助力业务决策。
我之所以这么说,是因为像麦肯锡这样的咨询公司发现,在他们的研究中,使用人工智能和分析的公司可以将20%的收入归因于人工智能和分析。同样,我已经能够为几个客户提供咨询,并帮助他们找到新的收入来源以及降低成本的机会。有一个问题。您将需要开发某种形式的数据基础架构或更新当前的数据基础架构,以确保您可以充分利用现代数据世界提供的所有好处。澄清一下,我并不是说你需要使用最豪华和最昂贵的数据工具。有时,在数据分析工具方面,我会引导客户使用更简单、最具成本效益的解决方案。
重要的决策点之一是选择合适的数据管道和连接器提供商。这些数据管道是将数据导入未来数据仓库和数据湖的原因。
许多公司都在这一点上挣扎,通常只是选择自定义代码数据管道。这并不总是一个好的选择。
它可能导致大量可以避免的技术债务和未来成本。
这就是像Airbyte这样的工具的用武之地。什么是Airbyte?
Airbyte是一个开源数据管道平台,可替代Stitch数据和Fivetran。尽管现有的数据管道平台提供了与Stripe和Salesforce等知名来源的大量集成,但当前模型中存在一个差距,遗漏了小型服务集成。Airbyte 通过构建和维护连接器来解决此问题,同时培养一个从彼此的自定义连接器中受益的用户社区。公司通常的做法是构建自定义连接器来支持其应用程序。Airbyte的开源模型创建了一个社区,公司可以通过构建和维护其独特的连接器来相互支持。
Airbyte 上的连接器在 Docker 容器中运行,允许独立操作。您可以轻松监视每个连接器,根据需要刷新它们,并计划更新。Airbyte 首先对新连接器进行认证,以确保它们已准备好投入生产;目前,有超过 46 种连接器可用。已经有超过250家公司从这个开源数据管道平台中受益。
为什么转向Airbyte?
公司正面临一个持续存在的问题。他们现有的 ETL(提取、转换和加载)平台通常难以维护。
大多数需要大量自定义代码,反过来也需要许多开发人员来创建一些管道。
许多公司正在构建内部连接器。问题是定制连接器的维护是有代价的。ETL专注于他们的底线,限制提供的连接器数量,即使这在使用其平台的公司的解决方案中造成了差距。
此外,现有的 ETL 具有基于数量的定价模型,如果其中一名员工意外复制大型数据库,最终可能会使公司损失数千美元。随着安全问题空前高涨,公司对ETL系统缺乏可见性,这造成了怀疑和不信任。
由于这些问题持续存在,公司正在寻找更便宜的解决方案,允许他们的公司扩展,而不必构建和维护其ETL解决方案应该涵盖的相同类型的管道。为什么ETL要选择开源产品?
ETL 需要开源,因为它授予您直接访问更正代码错误的权限。您不必在来回支持票证上浪费时间,而是拥有编辑代码、清理数据并继续执行下一个任务所需的访问权限。
使用开源,您不再受 ETL 提供商的摆布。与其试图说服他们您需要的连接器类型值得花费时间和金钱来开发和维护它,不如完全绕过您的 ETL 提供商,并在 Airbyte 社区的帮助下继续构建所需的连接器。
Airbyte的开源模型全面提高了效率。您不必依靠客户服务团队在几个工作日内处理您的请求,而是获得了随意调试的自主权。通过自己修复任何错误,将解决问题所需的时间缩短一半以上。
Airbyte 未来?
Airbyte的目标是到今年年底提供200个连接器。开发人员可以用任何语言编写连接器,他们的图形界面非常适合那些技术不如开发人员的用户。由于它们的连接器作为Docker镜像运行,因此它们受到包括Fargate和Kubernetes在内的众多系统的支持。此优化允许用户根据需要运行连接器,而无需担心他们所处的环境类型。
Airbyte 最近增加的内容
最近,Airbyte发布了一个连接器开发工具包(CDK),允许用户在大约两个小时内构建一个连接器。这是通过使用特定于连接器的代码实现的,这意味着用户可以享受简化的过程,将 75% 的代码从开发阶段中取出。Airbyte正在通过其开源模型解决集成问题,并缩短连接器构建过程,同时创建一个支持性的社区,从彼此的独创性中受益。
他们的长期目标是实施开放核心战略,这意味着他们可以提供企业版。他们正在努力包括简单的登录、角色和访问管理、合规性功能以及数据质量协议。
当前用户的反馈也让他们努力创建托管版本。Airbyte的目标是成为行业的数据标准。通过发展其社区和工具,它正在顺利进行。
我应该为Airbyte聘请数据解决方案架构师吗
像Airbyte这样的工具使开发ELT变得非常容易。调度、连接器和转换消除了许多需要数据和软件工程师的繁重基础设施负担。但是,这并不意味着您不需要数据专家。
在需要根据数据构建仪表板以及创建可靠且健壮的 SQL 查询之间,拥有强大的数据专家非常重要。