抱歉,您的浏览器无法访问本站
本页面需要浏览器支持(启用)JavaScript
了解详情 >

基于密度的聚类算法:DBSCAN

只要一个区域中的点的密度大于某个阈值,就把它加到与之相近的聚类中去。

对于一个类中的每个对象,在其给定半径的领域中包含的对象不能少于某一给定的最小数目;

概念:

设置半径阈值,数量阈值;

核心对象的-邻域至少包个对象;

从核心对象出发,对任何邻域内的点直接密度可达

如果存在一个对象链,对是从关于直接密度可达的,则对象是从对象​相互密度可达的。

如果存在一个对象,使得对象是从关于密度可达的,那么对象​是密度相连的。

一个基于密度的簇是基于密度可达性的最大的密度相连对象的集合 ;

  • 连接性:密度相连;
  • 最大性:密度可达,

DBSCAN算法先任选数据集中的一个核心对象为“种子” ,再由此出发确定相应的聚类簇;

算法类似于BFS搜索,维护一个队列;

image-20240528023600204

优点:

  • 能克服基于距离的算法只能发现“类圆形”的聚类的缺点,可发现任意形状的聚类;
  • 对噪声数据不敏感;

缺点:

  • 计算复杂度大,需要建立空间索引来降低计算量;
  • 数据维数的伸缩性较差;
  • 对参数非常敏感;
  • 如果数据库比较大的时候要进行大量的I/O 开销;
  • 很难找到不同密度的簇;

评论




博客内容遵循 [署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0) 协议](https://creativecommons.org/licenses/by-nc-sa/4.0/deed.zh)
本站使用 Volantis 作为主题 字数统计:318.5k
<