本期推荐的是DataHub 一个现代数据堆栈的开源元数据平台。
DataHub 是一个现代数据目录,旨在支持端到端数据发现、数据可观察性和数据治理。这个可扩展的元数据平台是为开发人员构建的,以驯服他们快速发展的数据生态系统的复杂性,并让数据从业者在其组织内利用数据的全部价值。
功能特征
1 跨数据库、数据湖、BI 平台、ML 功能存储、工作流编排
这是搜索与该术语相关的资产的示例health:我们看到跨越 Looker 仪表板、BigQuery 数据集和 DataHub 标签和用户的结果,并最终导航到“DataHub Health”Looker 仪表板概述。
2 通过跨平台、数据集、管道、图表
使用沿袭视图,我们可以导航仪表板的所有上游依赖项,包括 Looker Charts、Snowflake 和 s3 数据集以及 Airflow Pipelines。
3 数据集分析
DataHub 为流行的数据仓库平台提供数据集分析和使用统计数据,使数据从业者可以轻松了解数据的形状以及数据如何随时间演变。
4 强大的文档
随着定义和用例的发展,DataHub 可以轻松更新和维护文档。除了通过 GMS 管理文档外,DataHub 还通过 UI 提供了丰富的文档和对外部链接的支持。
5 元数据质量和使用
深入了解 DataHub 中元数据的健康状况以及最终用户如何与平台交互。分析视图提供资产数量和百分比的快照,包括分配的所有权、每周活跃用户以及最常见的搜索和操作。
安装部署
1 安装docker、jq和docker-compose(如果使用 Linux)。确保为 Docker 引擎分配足够的硬件资源。经过测试和确认的配置:2 个 CPU、8GB RAM、2GB 交换区和 10GB 磁盘空间。
2 从命令行或桌面应用程序启动 Docker 引擎。
3 安装 DataHub CLI,在终端中运行以下命令:
python3 -m pip install --upgrade pip wheel setuptools
python3 -m pip uninstall datahub acryl-datahub || true # sanity check - ok if it fails
python3 -m pip install --upgrade acryl-datahub
datahub version
如果您看到“找不到命令”,请尝试运行带有前缀 ‘python3 -m’ 的 cli 命令:python3 -m datahub version
4 要部署 DataHub,请从终端运行以下 CLI 命令:
datahub docker quickstart
5 要提取示例元数据,请从终端运行以下 CLI 命令:
datahub docker ingest-sample-data
6 要清除 DataHub 的所有状态(例如,在摄取您自己的状态之前),您可以使用 CLInuke命令:
datahub docker nuke
如果要删除容器但保留数据,可以–keep-data在命令中添加标志。这允许您运行quickstart命令以使 DataHub 与您之前提取的数据一起运行。
元数据摄取简介
该模块为 DataHub 托管一个可扩展的基于 Python 的元数据摄取系统。这支持使用 Kafka 或通过 REST API 将数据发送到 DataHub。它可以通过我们的 CLI 工具、Airflow 等编排器或作为库使用。
在运行任何元数据摄取作业之前,您应该确保 DataHub 后端服务都在运行。
配方是一个配置文件,它告诉我们的摄取脚本从哪里(源)提取数据以及将数据放在哪里(接收器)。这是一个简单的示例,它从 MSSQL(源)中提取元数据并将其放入 datahub rest(接收器)。
# A sample recipe that pulls metadata from MSSQL and puts it into DataHub
# using the Rest API.
source:
type: mssql
config:
username: sa
password: ${MSSQL_PASSWORD}
database: DemoData
transformers:
- type: "fully-qualified-class-name-of-transformer"
config:
some_property: "some.value"
sink:
type: "datahub-rest"
config:
server: "http://localhost:8080"
CLI 摄取
pip install 'acryl-datahub[datahub-rest]' # install the required plugin
datahub ingest -c ./examples/recipes/mssql_to_datahub.yml
该命令的–dry-run选项ingest执行所有摄取步骤,但写入接收器除外。这有助于确保摄取配方在将它们摄取到 datahub 之前生成所需的工作单元。
# Dry run
datahub ingest -c ./examples/recipes/example_to_datahub_rest.yml --dry-run
# Short-form
datahub ingest -c ./examples/recipes/example_to_datahub_rest.yml -n
该命令的–preview选项ingest执行所有摄取步骤,但将处理限制为仅由源生成的前 10 个工作单元。此选项有助于对摄取配方进行快速的端到端烟雾测试。
# Preview
datahub ingest -c ./examples/recipes/example_to_datahub_rest.yml --preview
# Preview with dry-run
datahub ingest -c ./examples/recipes/example_to_datahub_rest.yml -n --preview
如果您想在数据到达摄取接收器之前对其进行修改——例如,添加额外的所有者或标签——您可以使用转换器编写自己的模块并将其与 DataHub 集成。
相关截图
—END—
开源协议:Apache-2.0 License