物以类聚,人以群分。

聚类简述

将数据分成多个类别,在同一个类别内对象之间就有较高的相似性,不同类对象之间的差异性则较大。对一批没有标注数据的样本,相似的归为一类,不相似的归为其他类,称为聚类分析,聚类的质量拒绝于度量标准的选择。

聚类方法分类

  • 聚类类型
    • 统计聚类方法:基于全局数据的聚类,即从全体 样本中通过距离比较,获得聚类中心(马氏距离)
    • 概念聚类方法:将数据按按一定的方式和准则进 行分组,得到的分组代表着不同的概念。
    • 按度量方法分类:距离(k-means),密度,连通性(谱聚类)

距离与相似度度量

image-20200219191644847

image-20200219191715323

image-20200219191752693

最大似然估计

给定一个包含n个无类别标签的数据集,假定这些样本符合一个形式已知,但是参数位置的函数:
$$
p(\mathbf{x} | \boldsymbol{\theta})=\sum_{j=1}^{c} p\left(\mathbf{x} | \omega_{j}, \boldsymbol{\theta}_{j}\right) P\left(\omega_{j}\right)
$$
采用最大似然方法对参数$\theta$ 进行估计。

最大似然估计的方式是首先对函数取对数,随后计算对$\theta$的梯度,令梯度等于零,求解其中待估计的参数$\theta$。

image-20200221005723555

K-均值聚类

image-20200221015505581

image-20200221015600990

image-20200221015922143

image-20200221022258398

image-20200221022334981