摘要:
该文对数据挖掘的相关技术与理论进行了一系列的研究工作,主要的研究集中在聚类分析,重点研究了K-means算法及挖掘算法在实际中的应用.主要工作包括:1)对聚类算法进行研究,特别研究了K-means这一经典的聚类算法,同时指出了该算法在算法上及实际应用中...
展开
该文对数据挖掘的相关技术与理论进行了一系列的研究工作,主要的研究集中在聚类分析,重点研究了K-means算法及挖掘算法在实际中的应用.主要工作包括:1)对聚类算法进行研究,特别研究了K-means这一经典的聚类算法,同时指出了该算法在算法上及实际应用中的局限性:只有在簇的平均值被定义的情况下才能使用;对于"噪声"和孤立点数据是敏感的;对初始聚类中心是敏感的等.2)针对K-means算法的不足,该论文对其进行了改进,主要的改进在于初始聚类中心的寻找上.由于K-means算法对初始中心点的选择是敏感的,初始中心点不同,聚类的结果也不相同.针对这种情况,该文给出了一种网格划分的方法用以寻找初始聚类中心,并给出了基于网格划分的聚类算法CGKM(Center Finding Based on Gridding K-means).该论文通过随机点和模拟数据两种方式分别对算法进行了验证.实验结果表明,新算法能够比传统算法找到具有更优聚类质量的聚类划分,且能减少算法的迭代次数.3)根据改进的算法,结合汽车贸易行业的实际情况,设计了面向汽车贸易行业的数据挖掘模型CLV-Miner(Customer Lifetime Value Miner),并对客户生命周期价值进行了挖掘.模型的设计遵循了数据挖掘的建模过程.模型主要包括以下功能:数据抽取与转换,客户生命周期价值挖掘(根据不同属性组合进行挖掘,以CGKM聚类算法作为基础算法),并将挖掘结果进行显示.4)最后,该文对挖掘算法及挖掘模型的设计进行了总结,以作为将来对汽车贸易行业数据挖掘模型的进一步设计和研究的基础,同时也为其他行业的数据挖掘模型的设计和研究提供一种思路.
收起