一、数据挖掘的背景
互联网、计算机信息技术迅猛的发展势头,数据从结构化存储以及转化为非结构化的存储,数据存储形式的转变,不同数据类型的存储变多,音频、视频等大格式的信息存储在多个应用中实现。行业中的计算机化、信息化和网络化,使计算机和服务器上积累了各种各样海量的数据。传统的人工分析已经不能满足和适应如此大量的数据,各行各业都产生了巨大数据信息,包括生产加工、研究、物流运输、客户、营销、售后等数据,人们却不知道怎么利用这些数据实现价值的增长。如果能将这些数据进行挖掘分析,很可能会产生巨大的商业价值,很多有价值的信息可以被发现。现在,越来越多的公司和企业意识到数据挖掘的重要性,但是怎么能从如此海量的数据中挖掘出有价值有用的信息,已经成为研究的热门话题。在传统的数据分析基础上,相关人员结合新开发人工智能和数据挖掘等相关的技术,数据库孕育而生,让我们能从海量的数据中挖掘出有价值的信息,促使信息化的发展,称之为数据挖掘。
二、数据挖掘的过程
1、数据收集。将要进行数据分析的海量数据资源收集到数据仓库中。把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,抽象出分析相关的数据,进行非结构化数据的分类,筛选出不相关或者无价值的数据,减少数据集的容量。
2、数据清洗和转换。数据清洗是为了删除掉无用的数据信息。数据转换的目的最直接的是把所有信息统一化。将完整,有效的信息存入数据仓库。
3、模型建立。模型建立是数据挖掘的核心阶段。首先,要和相关领域的专家组成团队,进行需求分析,明确数据挖掘的目的和具体的数据挖掘任务。根据不同的任务,选择相关算法,利用这些算法来建立模型,再用专业的模型评估工具比较模型的准确度。即使是同一种算法,参数选取的不同,所建模型的准确度也不一样。
4、模型评估。从商业角度来讲,模型评估是对我们所建立的预测模型的正确性进行价值评估,如若模型中模式无价值,就要重复数据挖掘过程中的2~4步,即数据清洗和转换、模型建立。
5、知识表示。将数据挖掘最后的结果以最直观的方式呈现给用户,通常用数据图形展示工具来表示。
6、应用集成。将数据挖掘集成到现实的实际应用中。例如,CRM中有了数据挖掘功能,就可以对客户进行等级分类。
7、模型管理。根据不同数据模型的生命周期做好数据应用和管理。
三、WEB数据挖掘
基于WEB内容的挖掘就是针对网页内容进行数据挖掘,通过用户对网页访问的交互,留下的数据信息进行收集分类,完成数据挖掘。目前对文本内容的挖掘技术取得了一定的成果,对图像、音频、视频等各种多媒体数据的数据挖掘技术都开始采用非结构化大数据应用技术来完成。基于WEB结构的挖掘是发现页面、文档和WEB的结构,主要是发现WEB潜在的结构模式,利用分析这些结构我们可以得到很多潜在有价值的信息。基于WEB使用的数据挖掘,即针对用户的访问网页的轨迹收集分析。WEB内容的挖掘和结构的挖掘面对的主要挖掘对象是大规模的轨迹数据,对挖掘数据进行分析可以让管理者了解用户的不同需求,从而为用户提供个性化的服务。
四、数据挖掘在WEB中个性化定制的应用
通过网站与用户的交互,可以得到用户访问的内容、时间、方式、频率等,从中发现潜在的商业价值,通过价值数据进行数据挖掘以及算法分析得出商业结论。就可以根据挖掘到的信息对这些客户进行特定的推销策略,进行个性化定制。在商业领域中,通过对相似轨迹数据的客户进行分类,分析他们的共性,帮助管理者发现不同客户的需求和兴趣,提供适宜各类人的服务。按照不同用户的不同兴趣和爱好,向用户提供动态的浏览建议。对大多数用户来说,如果可以访问该网站可以体会到量身定做的服务,那么数据挖掘个性化定制就成功完成了。
五、数据挖掘技术在WEB中的应用
网站的功能设计及其版面的内容直接影响到网站的访问率。相关人员发现用户的需要和兴趣,对需求强烈的地方提供优化,使用数据挖掘去发现页面间的关联,针对不同的用户动态调整网站的设计和链接,使用户可以便捷地访问到自己想要访问的页面。将数据挖掘技术的在WEB中的应用,吸引更多的用户。随着数据挖掘技术在WEB中的应用,用户可以通过分析挖掘的结果了解各种客户的需求和喜好,得到各种定制个性化服务。随着互联网上轨迹数据信息量的急速增长,不断复杂化的数据结构,挖掘技术也面临着一系列新的问题和挑战。
参考文献:
[1]胡继平、数据挖掘技术[J]、景德镇高专学报,1998
[2]NguyenT,SrinivasanV、AccessingrelationaldatabasesfromtheWorldWideWEB、In:ProcofIEEEDataEngineering[J]、NewOrleansLouisiana,2006
本文来源:http://www.010zaixian.com/shiyongwen/1544211.htm