为追随者产生期望

我们来看看公司套件中关注者字段生成的 6 个期望:

    • 期望最小列数介于
  • 期望列最大介于
  • 期望列平均值介于
  • 期望列中位数介于
  • 期望列值不为空
  • 期望列值在类型列表中

我们知道,followers 字段代表的 谎言数据​​ 是公司粉丝的数量。知道了这一点,我们可以说这个字段会随着时间而变化,所以我们不能期望最大值、平均值或中位数是相同的。

但是,我们可以期望最小值大于 0,并且值为整数。我们还可以期望值不为空,因为如果没有关注者,则值应为 0。因此,我们需要摆脱不适合此字段的期望:。

但是每个字段都不同

 

因此期望值可能需要相应调整。例如,字段 completeness_score 表示公司的完整性分数。对于此字段,期望值介于 0 到 100 之间是合理的,因此我们不仅可以保留 expect_column_min_to_be_between,还可以保留。

查看期望图库,看看您可以对 在线与客户互动:最有效的方式 您的数据使用什么样的期望。

运行演示

要查看所有运行情况,请转到项目根目录并运行以下命令:

构建 Docker 映像:

运行 Docker 容器:

运行上述命令后,Dagit(Dagster UI)将在 localhost:3000 上可用。从启动板使用默认配置运行 demo_coverage 作业。作业执行后,您应该会看到为每个嵌套对象动态生成的 ge_validation 操作。

在这种情况下,数据通过了所有检查,一切都很顺利。如果任何嵌套对象的数据验证失败,则 postprocess_ge_validation 操作将被标记为失败(显然,它将是红色而不是绿色)。假设 company_ceo 验证失败。postprocess_ge_validation[company_ceo] 操作将被标记为失败。要查看哪些期望具体失败,请单击 ge_validation[company_ceo] 操作,然后单击“[Show Markdown]”链接打开“期望结果”。它将打开验证结果概览模式,其中包含有关 company_ceo 数据集的所有数据。 

结论

根据数据管道的阶段,测试 博目录 数据质量的方法有很多。但是,必须有一个运行良好的自动化数据质量检查机制来确保数据的准确性和可靠性。 Great Expectations 和 Dagster 等工具并不是绝对必要的(静态夹具测试不使用任何这些工具),但它们可以极大地帮助建立更强大的数据质量保证流程。无论您是想增强现有的数据质量流程还是从头开始构建新系统,我们都希望本指南能为您提供宝贵的见解。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注