近日,谷歌推出了名为“PAIR”(People + AI Research)的人工智能项目,旨在让人工智能系统的内部工作机制更加透明,促进智能机器与人类之间更紧密的合作。通过PAIR项目,谷歌发布了Facets——,这是一个开源可视化工具,可以让用户理解和分析各种机器学习数据集。
Facets提供了两种可视化方法,允许您以不同的比例查看图像的所有数据特征。例如,您可以使用Facet Overview 功能来了解数据中每个功能的形状,并使用Facet Dive 功能来了解数据中每个功能的形状。分别分析一组数据。
众所周知,要从机器学习(ML) 模型中获得最佳结果需要详细了解数据。然而,ML 数据集可能包含数亿个数据点,而每个数据点又由数百个(甚至数千个)特征组成,这使得以直观的方式理解整个数据集几乎是不可能的。可视化可以洞察大型数据集的微妙之处。一张图片可以表达一千个单词,但交互式可视化工具可以帮助您表达更多。
新的可视化允许您调试数据。这与机器学习过程中的模型调试一样重要。该功能可以嵌入到网页中。除了提供开源代码之外,Google 还创建了Facets 演示网站(https://pair-code.github.io/facets/)。这使得任何人都可以直接在浏览器中可视化他们的数据集,而无需安装任何其他软件或进行任何更改。额外的设置,用户可以放心,他们的计算机不会泄露任何数据。
以下是这两个功能的详细信息:
方面概览功能
Facet Overview 允许用户快速了解数据集中特征的分布,并允许用户在分析训练和测试集时同时可视化多个数据集。更有价值的是机器学习过程中可能出现的问题,例如意外的特征值、缺失特征值的比例较高、特征分布不平衡以及数据集之间的特征分布有偏差。
图丨如上图所示,facet 摘要可视化了UCI 人口普查数据集的6 个数据特征。它按照不均匀性排列,最不均匀分布的特征在顶部,红色数字表示潜在的故障点。在这种情况下,具有高百分比值的数字特征被设置为零。右侧的直方图比较了训练数据(蓝色)和测试数据(橙色)之间的分布差异。
图丨如上图所示,facet 摘要可视化显示了UCI 人口普查数据集的九个分类特征中的两个。这些特征按照分布距离排序。训练数据(蓝色)显示在图表的顶部。测试数据(橙色)之间的偏差最大。在“Target”栏中,可以看到训练数据集和测试数据集有不同的标准值。这反映在数据特征表和顶部列表条目中。此错误导致模型在训练和测试数据集时失败。
小面潜水功能
Facet Dive 功能提供了一个易于自定义且直观的界面,您可以使用该界面探索与不同数据集中的特征相对应的数据点之间的关系。使用Facets Dive 根据特征值控制每个数据点的位置、颜色和视觉显示。如果数据点有与之关联的图像,您可以使用该图像作为视觉表示。
图丨展示了Facets Dive可视化方法对大量“Quick, Draw!”面部涂鸦图像的处理效果。这个结果表明,“Quick, Draw!”图像的正确分类与笔划数和点数有关。在照片里。
一个有趣的发现:在像CIFAR-10 这样的大型数据集中,小的人为标记错误很容易被忽视。然而,使用Facets Dive 功能分析CIFAR-10 数据集发现了一张青蛙图像“青蛙猫”——,该图像被错误地标记为猫。
图片丨你能找到青蛙猫吗?
版权声明:本文由今日头条转载,如有侵犯您的版权,请联系本站编辑删除。