Home
Blog
category
tag
archive
note
report
Life
Dear MyFriend
views
About Me
黑暗降临!
Home
Blog
category
tag
archive
note
report
Life
Dear MyFriend
views
About Me
黑暗降临!
第三章:数据预处理
第三章:数据预处理 3.1 数据预处理:概述 3.1.1 为什么要进行数据的预处理 现实世界的数据是“肮脏的” 不完整的:有些感兴趣的属性缺少属性值,或仅包含聚集数据 含噪声的:包含错误或者“孤立点” 不一致的:在编码或者命名上存在差异 没有高质量的数据,就没有高质量的挖掘结果 数据质量 准确性 完整性 一致性 时效性:及时更新 可信性:数据是否被用户信赖 可解释性:数据是否容易理...
2025-05-01
阅读全文
第三章:关联模式挖掘
挖掘频繁模式、关联和相关性:基本概念和方法 频繁模式:频繁地出现在数据集中的模式(项集,序列,子结构) 频繁项集:频繁出现在交易数据集中的商品 频繁序列模式:交易序列频繁地出现购物历史中 6.1 基本概念 6.1.1 购物篮分析 商品是否被购买代表一个bool向量 购物篮可用一个bool向量代替 关联规则举例 support支持度:computer和software被同时购买的占全体...
2025-05-01
阅读全文
第一章:数据通信、数据网络和因特网
第一章:数据通信、数据网络和因特网 1.1 现代企业的数据通信和网络构成 1.1.1 趋势 通信量的上升 新服务的发展 技术的进步 1.1.2 数据传输和网络容量需求 高速局域网的出现 网络处理的数据量不断上升,数据传送的可接受延迟必须变小 企业广域网需求 由集中式数据处理模式迭代到高速广域网的建立; 数字电器 大大增加了网络运载的图像和视频的通信量 1.1.3 融合 使用网际协议基于...
2025-05-01
阅读全文
离群点检测:基于统计学的方法
2025-05-01
阅读全文
离群点检测:cell-based挖掘DB(r,p)离群点
离群点检测:cell-based挖掘DB(r,p)离群点 Background 循环嵌套发现离群点在离群点数目较少时,表现出线性的性能,因为循环经常提前退出,尽管它的算法复杂度为。当数据集很大时,开销主要来源是不能将数据集放入主存,而对检查每个对象都需要潜在地遍历整个数据集 Content 将数据空间划分为维网络,网络单元格对角线长度为,边长为; 对于单元格,其余单元可以分为两类: 层:直...
2025-05-01
阅读全文
离群点(Outlier)检测
离群点(Outlier)和异常(Anomaly)检测 Background 异常数据通常作为噪音而忽略,但是在欺诈检测,入侵检测等领域,离群点能带来新的启发。 Content 概念 离群点:显著不同于其它数据对象,好像它是被不同的机制产生的一样; 噪声:观测变量的随机性产生; 分类 全局离群点:显著地偏移其他对象 情景离群点:依赖情景属性和行为属性,例如夏天的28℃和冬天的28℃ 局部离...
2025-05-01
阅读全文
矩阵论基础
向量 表示 通常用箭头表示或者,或者黑体; 没有绝对的开始位置,; 具有长度; 具有方向,可以用其单位向量表示: 通常我们表示单位向量的过程也称为正则化(normalization); 向量也可以在坐标系上用两个正交的向量表示,进而表示成一列形成坐标: 加法 向量的加法遵循三角形法则和平行四边形法则 点乘 点乘(dot product)可以描述向量之间的方向的相似性,投影运算, 两...
2025-05-01
阅读全文
知识推理
逻辑的一般原理 基于知识的Agent通过对知识的内部表示进行操作而推理,其核心部件是知识库KB,知识库作为语句的集合,用知识表示语言表达,用以表示关于世界的某些断言,某些语句直接给定,我们尊称其为公理; Agent如何维护其知识库? Tell:告诉知识库Agent感知的内容; Ask:询问知识库应该采取什么行动,这个过程可能包括大量的推理; Tell:告诉知识库Agent选择的行动后并执行...
2025-05-01
阅读全文
爬山算法,模拟退火算法
局部搜索算法 爬山算法 原理 选择随机解作为起点 邻域搜索:在当前解的邻域搜索使目标函数最大化的解 迭代: 如果邻居中有性质更好的解,更新为当前解 若达到预定迭代次数,或者当前解局部最优停止 Python实现 选取目标函数,函数明显在处取得最大值16 优点 简单 目标函数具有单峰性时,效果较好 缺点 局部最优全局最优 对初始解和迭代次数敏感 模拟退火算法
2025-05-01
阅读全文
概率论:常见分布的数字特征
应用随机过程:常见分布的数字特征 退化分布(单点分布) 若随机变量只取常数,即 则并不随机,但我们把它看作随机变量的退化情况更为方便,因此称之为退化分布,又称单点分布. 离散均匀分布 若随机变量的分布律为 则称之为离散均匀分布,记作. Property 特征函数 Bernoulli分 布 若 随 机 变 量的分布律为 则称之为离散均匀分布,记作Ber. 设事件出现的概率为,则为...
2025-05-01
阅读全文
上一页
4 / 21
下一页
查看上一篇
查看下一篇
粘贴文本
全选文本
剪切文本
复制文本
站内搜索
必应搜索
谷歌搜索
新标签页打开
复制链接地址
复制图片
谷歌识图
常见问题
示例博客
加入社区
本站源码
主题源码
暗黑模式
打印页面
阅读模式
<