抱歉,您的浏览器无法访问本站
本页面需要浏览器支持(启用)JavaScript
了解详情 >

离群点检测:cell-based挖掘DB(r,p)离群点

Background

循环嵌套发现离群点在离群点数目较少时,表现出线性的性能,因为循环经常提前退出,尽管它的算法复杂度为。当数据集很大时,开销主要来源是不能将数据集放入主存,而对检查每个对象都需要潜在地遍历整个数据集

Content

将数据空间划分为维网络,网络单元格对角线长度为,边长为;

对于单元格,其余单元可以分为两类:

  • 层:直接与连接的单元;
  • 层:任意方向远离1格/2格的单元;

image-20240527152616912

有两条几何上的先验性质(凸包):

  • ,必有;
  • ,必有

那么有两条相应的启发式剪枝规则:

  • ,说明内对象均不离群的;
  • ,说明内对象均离群的;

大部分点经过两个规则的判断都可以确定是否是离群点了;

算法如何降低空间开销?

答案是三次数据集的扫描;

  • 第一次扫描:忽略掉空间内没有对象的单元格;
  • 第二次扫描:排除掉已经可以剪枝确认是否离群的点;
  • 第三次扫描:检查剩下的单元,找到所有离群点,

评论




博客内容遵循 [署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0) 协议](https://creativecommons.org/licenses/by-nc-sa/4.0/deed.zh)
本站使用 Volantis 作为主题 字数统计:318.5k
<