数据发掘的办法越严厉就越杂乱,假如短少其间一个过程,数据发掘作业就或许失利,也很或许“获取到不实在的常识”或许“获取实在但无用的常识”。本节对数据发掘的过程进行简略介绍,读者能够经过阅览参考文献了解更具体的过程。
第一步:将实际问题转换为数据发掘问题。将实际问题转换为数据发掘问题时,首要要与前面介绍的7类数据发掘使命进行比较,清晰要处理的实际问题归于数据发掘的哪一类使命。常见的病案信息发掘使命包含回归、猜测、分类、聚类和相关,本节要点对这五类数据发掘使命进行介绍。
第二步:选取适宜数据。在所有或许的状况中,最好是所需数据现已存储在一起的数据仓库中,经过整理,数据可用,前史准确而且常常更新。事实上,它们常常由于种种原因以不兼容的方式散列在各种操作系统渠道的核算机上,这些核算机之间运转着不同的操作系统,经过不兼容的桌面东西来访问。
第三步:设法了解与改换数据。在开端树立模型之前,首要需求了解数据,对数据有一个开始的知道。常用的办法是对数据做描述性计算、画出散点图或直方图等。
第四步:树立模型并设置模型参数。每类数据发掘使命都有许多模型,其适用条件不同;每种模型都有许多参数,挑选不同的参数得到的发掘成果也不同。
第五步:模型阅读与解说。在运转模型后需求阅读发掘成果,并对成果进行解说。
本节经过实例侧重介绍病案信息回归剖析、病案信息时刻序列剖析、病案信息分类、病案信息聚类和病案信息相关剖析,并运用EXCEL及其数据发掘插件进行实践。对EXCEL数据发掘插件的装置和使用有疑问的读者,能够和本节作者联络。