数据挖掘的基本流程

网友投稿 1540 2022-11-17

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。

数据挖掘的基本流程

数据挖掘基本流程,包括商业理解、数据准备、数据理解、模型建立、模型评估和模型应用几个步骤。

明确需求后,接下来就是要收集并整理数据建模所需要的数据。这个过程是资源调配的过程,需要与企业的相关部门明确可以使用的数据维度有哪些,哪些维度与建模任务相关性比价高。这个过程通常需要一定的专业背景知识。

数据理解指的是对用于挖掘数据的预处理和统计分析过程,有时也称为ETL过程。主要包括数据的抽取、清洗、转换和加载,是整个数据挖掘过程最耗时的过程,也是最为关键的一环。数据处理方法是否得当,对数据中所体现出来的业务特点理解是否到位,将直接影响到后面模型的选择及模型的效果,甚至决定整个数据挖掘工作能否完成预定目标。该过程需要有一定的统计学理论和实际经验,并具备一定的项目经验。

模型建立是是整个数据挖掘流程中最为关键的一步,需要在数据理解的基础上选择并实现相关的挖掘算法,并对算法进行反复调试、实验。通常模型建立和数据理解是相互影响,经常需要经过反复的尝试、磨合,多次迭代后方可训练处真正有效的模型。

模型评估是在数据挖掘工作基本结束的时候,对最终模型效果进行评测的过程。在挖掘算法初期需要制定好最终模型的评测方法、相关指标等,在这个过程中对这些评测指标进行量化,判断最终模型是否可以达到预期目标。通常模型的评估人员和模型的构建人员不是同一批人,以保证模型评估的客观、公正性。

最终,当挖掘得到的模型通过评测后可以安排上线、正式进入商业化流程中。为了避免由于建模数据与线上真实情况不一致而导致模型失效的状况出现,通常在应用过程中采取A/B测试的步骤,对模型在实际线上环境中的运行状况进行观察跟踪,确保模型在线上环境中符合预期。

了解了数据挖掘的基本流程,常用的数据挖掘任务和所用到的挖掘大数据技术有哪些?总的来说,数据挖掘任务可以概括为描述性预测性两大类。描述性任务主要是对现有数据的理解和整理,从中发现其中的一般特性,是对历史知识的总结和归纳。预测性任务则是利用当前数据对事务的未来发展趋势进行推断,是知识的外延和推理过程。

上一篇:BI大数据之数据挖掘技术
下一篇:人工智能拥抱大数据
相关文章

 发表评论

暂时没有评论,来抢沙发吧~