DataHub:现代数据堆栈的元数据平台

DataHub:现代数据堆栈的元数据平台

2022-09-30 0 902
资源编号 44035 最近更新 2022-09-30
¥ 0人民币 升级VIP
立即下载 注意事项
下载不了?请联系网站客服提交链接错误!
增值服务: 安装指导 环境配置 二次开发 模板修改 源码安装

本期推荐的是DataHub 一个现代数据堆栈的开源元数据平台。

DataHub 是一个现代数据目录,旨在支持端到端数据发现、数据可观察性和数据治理。这个可扩展的元数据平台是为开发人员构建的,以驯服他们快速发展的数据生态系统的复杂性,并让数据从业者在其组织内利用数据的全部价值。

功能特征

1 跨数据库、数据湖、BI 平台、ML 功能存储、工作流编排

这是搜索与该术语相关的资产的示例health:我们看到跨越 Looker 仪表板、BigQuery 数据集和 DataHub 标签和用户的结果,并最终导航到“DataHub Health”Looker 仪表板概述。

DataHub:现代数据堆栈的元数据平台

2 通过跨平台、数据集、管道、图表

使用沿袭视图,我们可以导航仪表板的所有上游依赖项,包括 Looker Charts、Snowflake 和 s3 数据集以及 Airflow Pipelines。

DataHub:现代数据堆栈的元数据平台

3 数据集分析

DataHub 为流行的数据仓库平台提供数据集分析和使用统计数据,使数据从业者可以轻松了解数据的形状以及数据如何随时间演变。

DataHub:现代数据堆栈的元数据平台

4 强大的文档

随着定义和用例的发展,DataHub 可以轻松更新和维护文档。除了通过 GMS 管理文档外,DataHub 还通过 UI 提供了丰富的文档和对外部链接的支持。

DataHub:现代数据堆栈的元数据平台

5 元数据质量和使用

深入了解 DataHub 中元数据的健康状况以及最终用户如何与平台交互。分析视图提供资产数量和百分比的快照,包括分配的所有权、每周活跃用户以及最常见的搜索和操作。

DataHub:现代数据堆栈的元数据平台

安装部署

1 安装docker、jq和docker-compose(如果使用 Linux)。确保为 Docker 引擎分配足够的硬件资源。经过测试和确认的配置:2 个 CPU、8GB RAM、2GB 交换区和 10GB 磁盘空间。

2 从命令行或桌面应用程序启动 Docker 引擎。

3 安装 DataHub CLI,在终端中运行以下命令:

python3 -m pip install --upgrade pip wheel setuptools
python3 -m pip uninstall datahub acryl-datahub || true  # sanity check - ok if it fails
python3 -m pip install --upgrade acryl-datahub
datahub version

如果您看到“找不到命令”,请尝试运行带有前缀 ‘python3 -m’ 的 cli 命令:python3 -m datahub version

4 要部署 DataHub,请从终端运行以下 CLI 命令:

datahub docker quickstart

5 要提取示例元数据,请从终端运行以下 CLI 命令:

datahub docker ingest-sample-data

6 要清除 DataHub 的所有状态(例如,在摄取您自己的状态之前),您可以使用 CLInuke命令:

datahub docker nuke

如果要删除容器但保留数据,可以–keep-data在命令中添加标志。这允许您运行quickstart命令以使 DataHub 与您之前提取的数据一起运行。

元数据摄取简介

该模块为 DataHub 托管一个可扩展的基于 Python 的元数据摄取系统。这支持使用 Kafka 或通过 REST API 将数据发送到 DataHub。它可以通过我们的 CLI 工具、Airflow 等编排器或作为库使用。

在运行任何元数据摄取作业之前,您应该确保 DataHub 后端服务都在运行。

配方是一个配置文件,它告诉我们的摄取脚本从哪里(源)提取数据以及将数据放在哪里(接收器)。这是一个简单的示例,它从 MSSQL(源)中提取元数据并将其放入 datahub rest(接收器)。

# A sample recipe that pulls metadata from MSSQL and puts it into DataHub
# using the Rest API.
source:
  type: mssql
  config:
    username: sa
    password: ${MSSQL_PASSWORD}
    database: DemoData

transformers:
  - type: "fully-qualified-class-name-of-transformer"
    config:
      some_property: "some.value"


sink:
  type: "datahub-rest"
  config:
    server: "http://localhost:8080"

CLI 摄取

pip install 'acryl-datahub[datahub-rest]'  # install the required plugin
datahub ingest -c ./examples/recipes/mssql_to_datahub.yml

该命令的–dry-run选项ingest执行所有摄取步骤,但写入接收器除外。这有助于确保摄取配方在将它们摄取到 datahub 之前生成所需的工作单元。

# Dry run
datahub ingest -c ./examples/recipes/example_to_datahub_rest.yml --dry-run
# Short-form
datahub ingest -c ./examples/recipes/example_to_datahub_rest.yml -n

该命令的–preview选项ingest执行所有摄取步骤,但将处理限制为仅由源生成的前 10 个工作单元。此选项有助于对摄取配方进行快速的端到端烟雾测试。

# Preview
datahub ingest -c ./examples/recipes/example_to_datahub_rest.yml --preview
# Preview with dry-run
datahub ingest -c ./examples/recipes/example_to_datahub_rest.yml -n --preview

如果您想在数据到达摄取接收器之前对其进行修改——例如,添加额外的所有者或标签——您可以使用转换器编写自己的模块并将其与 DataHub 集成。

相关截图

DataHub:现代数据堆栈的元数据平台

DataHub:现代数据堆栈的元数据平台

—END—

开源协议:Apache-2.0 License

资源下载此资源为免费资源立即下载

申明:本文由第三方发布,内容仅代表作者观点,与本网站无关。对本文以及其中全部或者部分内容的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。本网发布或转载文章出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,也不代表本网对其真实性负责。

七爪网 免费源码 DataHub:现代数据堆栈的元数据平台 https://www.7claw.com/44035.html

分享免费的开源源码

常见问题
  • 1、自动:拍下后,点击(下载)链接即可下载;2、手动:拍下后,联系卖家发放即可或者联系官方找开发者发货。
查看详情
  • 1、源码默认交易周期:手动发货商品为1-3天,并且用户付款金额将会进入平台担保直到交易完成或者3-7天即可发放,如遇纠纷无限期延长收款金额直至纠纷解决或者退款!;
查看详情
  • 1、七爪会对双方交易的过程及交易商品的快照进行永久存档,以确保交易的真实、有效、安全! 2、七爪无法对如“永久包更新”、“永久技术支持”等类似交易之后的商家承诺做担保,请买家自行鉴别; 3、在源码同时有网站演示与图片演示,且站演与图演不一致时,默认按图演作为纠纷评判依据(特别声明或有商定除外); 4、在没有”无任何正当退款依据”的前提下,商品写有”一旦售出,概不支持退款”等类似的声明,视为无效声明; 5、在未拍下前,双方在QQ上所商定的交易内容,亦可成为纠纷评判依据(商定与描述冲突时,商定为准); 6、因聊天记录可作为纠纷评判依据,故双方联系时,只与对方在七爪上所留的QQ、手机号沟通,以防对方不承认自我承诺。 7、虽然交易产生纠纷的几率很小,但一定要保留如聊天记录、手机短信等这样的重要信息,以防产生纠纷时便于七爪介入快速处理。
查看详情
  • 1、七爪作为第三方中介平台,依据交易合同(商品描述、交易前商定的内容)来保障交易的安全及买卖双方的权益; 2、非平台线上交易的项目,出现任何后果均与互站无关;无论卖家以何理由要求线下交易的,请联系管理举报。
查看详情

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务