探索性数据分析：裁夺人工智能与机器学习效果的第一步

发布时间：2021-06-03 15:03:23 所属栏目：大数据来源：互联网

导读：数据质量低下正严重损害人工智能(AI)与机器学习(ML)技术的实际表现。这个问题困扰着不同规模的企业，从小型初创公司到谷歌这类科技巨头都无法幸免于难。但数据质量为什么总不可靠?人为因素可能才是关键所在。如今，企业手中掌握的数据总量远超以往任何时候

数据质量低下正严重损害人工智能(AI)与机器学习(ML)技术的实际表现。这个问题困扰着不同规模的企业，从小型初创公司到谷歌这类科技巨头都无法幸免于难。但数据质量为什么总不可靠?人为因素可能才是关键所在。

如今，企业手中掌握的数据总量远超以往任何时候，但将这些数据转化为实际价值却仍然困难重重。AI与ML带来的自动化功能，已被广泛视为解决现实数据复杂难题的有效手段;众多公司也迫切希望利用它们增强自身业务。但是，这种热潮本身，也引起大量上游数据分析项目的匆忙上马。

在自动化管道构建完成之后，其中的算法已经能够完成大部分工作，而且几乎不需要更新数据收集过程。但请注意，管道建成并不代表它可以一劳永逸地永远运作。我们需要随时间推移不断探索并分析底层数据，关注哪些漂移模式正不断侵蚀管道性能。

好消息是，数据团队完全有能力降低这种侵蚀风险，但成本就是付出必要的时间与精力。为了维持自动化管道的执行效率，我们必须定期进行探索性数据分析(EDA)，保证整个体系始终精准运行。

探索性数据分析是什么?

EDA是成功实现AI与ML的第一步。在分析算法本体之前，我们首先需要理解数据内容。数据质量，终将决定下游分析管道的实际效果。在正确起效之后，EDA将帮助用户识别出数据中不必要的模式与噪声，同时指导企业更准确地选取适当算法。

在EDA阶段，我们需要积极查询数据以确保其中的行为模式合乎预期。首先，先从以下十个需要全面分析的重要问题起步：

1、是否拥有充足的数据点?

2、数据中心与离散的量度，是否与预期相符?

3、有多少个数据点质量良好、可用于实际分析?

4、是否存在缺失值?这些坏值是否构成数据中的重要部分?

5、数据的经验分布如何?数据是否符合正态分布?

6、数值中是否存在特殊聚类或分组?

7、是否存在离群值?应如何处理这些离群值?

8、不同维度间是否具有相关性?

9、是否需要通过重新格式化等手段进行数据转换，以供下游分析及解释?

10、如果数据为高维形式，是否能够在不损失过多信息的前提下降低维数?其中某些维度是否属于噪声?

（编辑：漯河站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!