探索性数据分析是什么?
|
EDA是成功实现AI与ML的第一步。在分析算法本体之前,我们首先需要理解数据内容。数据质量,终将决定下游分析管道的实际效果。在正确起效之后,EDA将帮助用户识别出数据中不必要的模式与噪声,同时指导企业更准确地选取适当算法。 在EDA阶段,我们需要积极查询数据以确保其中的行为模式合乎预期。首先,先从以下十个需要全面分析的重要问题起步: 1、是否拥有充足的数据点? 2、数据中心与离散的量度,是否与预期相符? 3、有多少个数据点质量良好、可用于实际分析? 4、是否存在缺失值?这些坏值是否构成数据中的重要部分? 5、数据的经验分布如何?数据是否符合正态分布? 6、数值中是否存在特殊聚类或分组? 7、是否存在离群值?应如何处理这些离群值? 8、不同维度间是否具有相关性? 9、是否需要通过重新格式化等手段进行数据转换,以供下游分析及解释? 10、如果数据为高维形式,是否能够在不损失过多信息的前提下降低维数?其中某些维度是否属于噪声? 这些问题又会衍生出更多问题。这不是完整的问题清单,而仅仅只是思考的开始。最终,希望大家能对现有数据模式建立起更好的理解,而后正确处理数据并选择最适合的处理算法。
底层数据一直在不断变化,这就要求我们在EDA上引入更多时间,确保算法接收到的输入特征始终保持稳定。例如,Airbnb发现,数据科学家在模型开发周期中近七成的时间被用于数据收集与特征工程,通过大量分析工作确定数据结构与模式。简而言之,如果不花时间理解这些数据,那么AI与ML计划将极易失控。 (编辑:漯河站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |

