香港留学之数据岗位高频面试题

2020-08-19 01:12:45 · 作者:编辑部  
大数据时代,数据分析早已成为能够帮助管理者和企业做出正确决策的必备法宝.越来越多的企业在面对应聘者时,会优先录取既懂业务又懂数据的人才。如何处理可疑或缺失数据区别在于数据分析是针对个别属性的实例分

  大数据时代,数据分析早已成为能够帮助管理者和企业做出正确决策的必备法宝.越来越多的企业在面对应聘者时,会优先录取既懂业务又懂数据的人才。

  如何处理可疑或缺失数据

  区别在于数据分析是针对个别属性的实例分析,并提供值范围,离散值及其频率,空值发生,数据类型,长度等信息。而数据挖掘是重点关注聚类分析,异常记录检测,依赖关系,序列发现,多个属性之间的关系控制等。

  如何处理可疑或缺失数据

  准备提供所有可疑数据信息的验证报告。它应该提供信息,如失败的验证标准以及发生的日期和时间,有经验的数据分析师应该检查可疑数据以确定其可接受性。应该找出无效数据并用验证码替换,对缺失数据进行处理,使用最佳分析策略,如删除,单一插补方法,基于模型的方法等。

  列出清理数据的最佳实践

  首先按不同的属性排序数据,对于大数据集,逐步清理并改进数据,直到获得良好的数据质量;对大型数据集,可以先将其分解为小数据集,使用更少的数据将增加迭代速度。

  要处理常见的清理任务,请创建一组实用程序函数/工具/脚本。它可能包括基于CSV文件或SQL数据库重映射值,或者正则表达式搜索和替换,消除所有不匹配正则表达式的值。最后分析每列的汇总统计数据(标准差,均值,缺失值的数量)。

 

【本文为找大学网转载,文章版权归原作者及原出处所有。文章系作者个人观点,不代表大学生在线立场,转载请联系原作者及原出处获得授权。有任何疑问都请联系(kf@zhaodaxue.cn)】
  • 相关阅读

TOPS
  • 日排行/
  • 周排行/
  • 原创