7种常用的聚类方法
的有关信息介绍如下:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。
1、划分方法:给定一个有N个元组或者纪录的数据集,分裂法将构造K个分组,每一个分组就代表一个聚类,K 2、层次方法:这种方法对给定的数据集进行层次似的分解,直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。 3、基于密度的方法:基于密度的方法与其它方法的一个根本区别是:它不是基于各种各样的距离的,而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。这个方法的指导思想就是,只要一个区域中的点的密度大过某个阀值,就把它加到与之相近的聚类中去。 4、基于网格的方法;这种方法首先将数据空间划分成为有限个单元(cell)的网格结构,所有的处理都是以单个的单元为对象的。这么处理的一个突出的优点就是处理速度很快,通常这是与目标数据库中记录的个数无关的,它只与把数据空间分为多少个单元有关。 5、基于模型的方法:基于模型的方法给每一个聚类假定一个模型,然后去寻找能够很好的满足这个模型的数据集。这样一个模型可能是数据点在空间中的密度分布函数或者其它。 6、图论聚类方法:建立与问题相适应的图,图的节点对应于被分析数据的最小单元,图的边(或弧)对应于最小处理单元数据之间的相似性度量。 7、最大最小距离聚类算法:这种方法的核心思想是先计算出聚类中心,再把所有的样本点按照就近原则,归到离自身最近的聚类中心所对应的类。最大最小是指在所有的最小距离中选取最大的。