冀进朝,赵晓威,何飞,胡英慧,白天,李在荣.基于模糊质心的混合属性数据模糊加权聚类算法[J].计算机科学,2018,45(2):109-113
基于模糊质心的混合属性数据模糊加权聚类算法
Fuzzy Weighted Clustering Algorithm with Fuzzy Centroid for Mixed Data
投稿时间:2017-03-16  修订日期:2017-05-26
DOI:10.11896/j.issn.1002-137X.2018.02.019
中文关键词:  模糊聚类,数据挖掘,混合数据,相异性度量
英文关键词:Fuzzy clustering,Data mining,Mixed data,Dissimilarity measure
基金项目:本文受国家自然科学基金项目(61502093,61403077),吉林省教育厅科研项目(2016504),吉林省科技发展计划资助
作者单位E-mail
冀进朝 东北师范大学信息科学与技术学院 长春130117
东北师范大学计算生物研究所 长春130117 
 
赵晓威 东北师范大学信息科学与技术学院 长春130117
东北师范大学计算生物研究所 长春130117 
 
何飞 东北师范大学信息科学与技术学院 长春130117
东北师范大学计算生物研究所 长春130117 
 
胡英慧 东北师范大学信息科学与技术学院 长春130117  
白天 吉林大学计算机科学与技术学院 长春130012  
李在荣 东北师范大学传媒科学学院 长春130117 zairong0431@163.com 
摘要点击次数: 425
全文下载次数: 248
中文摘要:
      在模糊聚类算法中,模糊系数被用来控制簇可能重叠的程度,其负面影响是所有的数据对象会影响所有的簇。为解决该问题,Klawonn和Hppner使用模糊函数替换模糊系数(KH算法),但该方法是针对数值属性数据而设计的。然而,在许多真实的应用中,数据对象通常同时由数值属性和分类属性描述。面向混合属性数据,文中提出了一种新的基于模糊质心的模糊加权聚类算法。首先结合模糊质心和均值来表示混合属性条件下的簇中心,然后使用能够评估不同属性在聚类过程中作用的度量来评估数据对象和簇中心之间的相异度,最后给出算法框架。在3个混合属性数据集上对新算法进行了一系列的测试,实验结果表明新算法的性能优于传统算法。
英文摘要:
      In fuzzy c-means type algorithms,fuzy parameters are used to control the degree of possible overlap,but it also has the negative effects that all data objects tend to influence all clusters.To solve this issue,Klawonn and Hppner proposed a fuzzy function for replacing the fuzzier.However,this method is only designed for numeric data.In many real-world applications,data objects are usually described by both numeric and categorical attributes.In this paper,a novel weighted fuzzy clustering algorithm based on fuzzy centroid (FWFC) was proposed for the data with both numeric and categorical attributes,i.e.mixed data.In this method,the mean is first integrated with fuzzy centroid to represent the cluster centers.Then,a measure which can evaluate the influence of different attributes in the process of clustering is used to evaluate the dissimilarity between data objects and cluster centers.Finally,the algorithm is presented for clustering the data with mixed attributes.The proposed algorithm was tested by a series of experiments on three mixed datasets.Experimental results show that the proposed algorithm outperforms traditional clustering algorithms.
查看全文  查看/发表评论  下载PDF阅读器