探索性数据分析:裁夺人工智能与机器学习效果的第一步
发布时间:2021-06-03 15:03:23 所属栏目:大数据 来源:互联网
导读:数据质量低下正严重损害人工智能(AI)与机器学习(ML)技术的实际表现。这个问题困扰着不同规模的企业,从小型初创公司到谷歌这类科技巨头都无法幸免于难。但数据质量为什么总不可靠?人为因素可能才是关键所在。 如今,企业手中掌握的数据总量远超以往任何时候
|
数据质量低下正严重损害人工智能(AI)与机器学习(ML)技术的实际表现。这个问题困扰着不同规模的企业,从小型初创公司到谷歌这类科技巨头都无法幸免于难。但数据质量为什么总不可靠?人为因素可能才是关键所在。
如今,企业手中掌握的数据总量远超以往任何时候,但将这些数据转化为实际价值却仍然困难重重。AI与ML带来的自动化功能,已被广泛视为解决现实数据复杂难题的有效手段;众多公司也迫切希望利用它们增强自身业务。但是,这种热潮本身,也引起大量上游数据分析项目的匆忙上马。
在自动化管道构建完成之后,其中的算法已经能够完成大部分工作,而且几乎不需要更新数据收集过程。但请注意,管道建成并不代表它可以一劳永逸地永远运作。我们需要随时间推移不断探索并分析底层数据,关注哪些漂移模式正不断侵蚀管道性能。
好消息是,数据团队完全有能力降低这种侵蚀风险,但成本就是付出必要的时间与精力。为了维持自动化管道的执行效率,我们必须定期进行探索性数据分析(EDA),保证整个体系始终精准运行。
探索性数据分析是什么?
EDA是成功实现AI与ML的第一步。在分析算法本体之前,我们首先需要理解数据内容。数据质量,终将决定下游分析管道的实际效果。在正确起效之后,EDA将帮助用户识别出数据中不必要的模式与噪声,同时指导企业更准确地选取适当算法。
在EDA阶段,我们需要积极查询数据以确保其中的行为模式合乎预期。首先,先从以下十个需要全面分析的重要问题起步:
1、是否拥有充足的数据点?
2、数据中心与离散的量度,是否与预期相符?
3、有多少个数据点质量良好、可用于实际分析?
4、是否存在缺失值?这些坏值是否构成数据中的重要部分?
5、数据的经验分布如何?数据是否符合正态分布?
6、数值中是否存在特殊聚类或分组?
7、是否存在离群值?应如何处理这些离群值?
8、不同维度间是否具有相关性?
9、是否需要通过重新格式化等手段进行数据转换,以供下游分析及解释?
10、如果数据为高维形式,是否能够在不损失过多信息的前提下降低维数?其中某些维度是否属于噪声?
![]() (编辑:漯河站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |

