人工智能(机器学习)
第5章 机器学习 5.2 神经网络学习 5.3 因果信念网络学习 第 5 章 机器学习 什么是机器学习 归纳学习 能够学习的程序 S 任务 T,性能度量 P,经验 E, S能够通过经验 E,改善执行任务 T的性能(用 P来度量) 通过 实例集{(x1,y1),, xk,yk} 求函数 yfx使得 y1 ≈ fx1, yi ≈ fxi, ,yk ≈ fxk 5.1 归纳式学习 Inductive Learning 什么是归纳学习和演绎推理(保真)的比较 例子,训练实例集合 1.乌鸦 w1,羽毛黑; 2.乌鸦 w2,羽毛浅黑; 3. 麻雀 w3,羽毛灰;4.鸽子 w4,羽毛白; 5. 乌鸦 w1,羽毛白;6.偶数 8,两素数 3,5之和 根据训练实例集合提出假说 HYPOTHESIS GOAL 乌鸦,黑色的羽毛 x ̄x ̄x xx ̄xxx 乌鸦黑 黑乌鸦亦即,黑乌鸦 1.支持性正例;2.灰色支持的正例; 3. 支持性负例;4.支持性负例 5.否定性反例;6.无关实例 要求归纳得到简洁的规则, 并使得规则的可信度高 归纳的可信度规则的可信度是 0.99其含义为,10000个乌鸦中大约可能有 1个否定性 反例非黑的乌鸦 决策树学习。 从数据取样Xi,Yi, 利用外推插值方法,求函数. 决策树学习,适用于 离散性样点Xi,Yi, Xi∈离散集合,Yi∈离散集合 从数据例子中提出有规律的假设,使其符合数据实例, 挖掘数据中的 Pattern模式,规律 Ockham‘s Razor 最简单的是最好的. 决策树 FF(A,B,C) A B C F 0 0 0 0 0 0 1 1 0 1 0 0 0 1 1 1 A B C F 1 0 0 1 1 0 1 1 1 1 0 1 1 1 1 0 A 1 0 B 0.1 C 1 0 TRUE TRUE FALSE FALSE 挑选主要分类属性, 1. 分别挑选能够把 F0,1的肯定,或否定例集合 分开的决策属性 C, 使 C的某种取值覆盖 F肯 定集合或 F否定集合 的大小 尽可能地小(方法 布尔 0,1合并法) 2. 对 C属性的每一种取值,列出它对 F肯定集合或 F否定集的覆盖集合它们分别是 F肯定集合 和 F否定集的子集合, 进一步从其他属性中挑选能够把正反例分开的属性递归算法; 直到 3. 某覆盖集合为空,DONE 4. 决策属性集已经全部挑完,但正反例集合非空有 NOISE FA∧ ̄B ∨C FTRUE的取值元组集合 正集合 {001,011,100,101,111}0来探讨该电影评价倾向所 根据的特性是否和 X 电影分类特性一致 对电影实例数据集合的划分,使得我们对电影评价问题认识深化; 熵 ENTROPY 减少;系统从无序向有序过渡; ENTROPY 的定义 |S|12 共 12 部电影; m2 正反两类电影;|S|4;|S-|8; EntropyS -[4/12log4/128/12log8/12] 1/3log32/3 log3-10.528350.390030.918383 sspppentropy ii m i ii /;log 1 2 实例划分) ∑为 4/12*0 4/12*-1 4/12*-1 -2/3 -0.666667 gain0.25172 , i m i iSEntropy S S SEntropySgain划分) default 表示 没有实例描述,无法决定该属性取值 对 肯定或否定 电影实例分类有帮助. YES 分支 对 肯定‖ 电影实例分类有帮助, NO 分支 对 否定‖ 电影实例分类有帮助. 决策树归纳式学习的不足 1. 仅仅对离散型取值变量有效,对连续型取值例如钱必须离散化, 人工痕迹大 2. 训练实例集合可能 有矛盾相同的 X,不同的 Y; ---NOISE 例如饭馆排队的例子,如果有三个训练例子 ‗队很长 且听说要等60 分钟‘则走人 但同时有 1 个训练例子 ‗队很长 且听说要等60 分钟‘则不走继续等; 可以忽略后者. 3. 决策树熵增益方法挑选属性的方法 偏向于取值集合大值域宽的变量, 熵 增益容易增大. 4. OVERFITTING,牵强附会 归纳学习的一个大缺点是, OVERFITTING 把一些和 GOAL 无关但训练集合出现的 属性变量 表面地联系在一起.例如饭馆排队的例子,和菜价是否昂贵关系不大 熵增益很小.但小到多小就不于考虑呢 统计学的理论告诉我们, 可以对 GOAL 和训练实例集合进行 无规律模式的统计学 检验---χ 2 分布表的标准检验, *另一个方法是,把训练实例集合中,事先随意取出一个子集合,作为假说归纳函数 的检验集合,用统计学方法,可以计算得出该归纳假说的可信程度. 5.训练实例集合增大时,如何推广 或 缩窄 已经提出的假说 5.2 人工神经网络 大脑在 解决问题的健壮性(robustness,在意外情况下得出合理的解答) 在 学习解决新问题等方面,它比计算机要高明得多; 但是计算机在精确计算方面,比人的大脑要高速得多; dendrites 树状神经突触(输入部) 可以分支接过多个外界 synapse 树状分支 末鞘 axon 神经轴突(输出轴突),synapse 树状分支末鞘 nucleur 神经元的细胞体,细胞核 人的大脑 1011 个 NEURON 神经元,平均每一个神经元和 10000 个神经元相连, 神经元的开关时间约 10-3 秒;[CPU 1000 MHZ] 存储信息单元数量 1014 个 SYNAPSE 突触,存储权重;[DISK 100 GBYTE] 通信带宽 10141016 bit/s; [104 个 CPU ,1000 MHZ ,64BIT] 神经元 的激励函数 activation function 表示了 输入 X 空间的 一种决策分割函 数 ,线性分割算子 gxsigmoidx有导数,是可微的, g’x gx * 1-gx x1 x2 x3 x10,1; w1 -1 t -1.5 x20,1; w2 -1 x30,1; w3 -1 f0,1 f1 三维的线性 分割函数算子 f 3 - 2*(xyz) 神经网络学习 给定上述人工神经网络, 以及 一组学习样本(k个) 目标是求假说空间{ (w1,w2,w3,w4)} 中的一个向量(权重向量) 使得 从统计学来说,神经网络的归纳假说问题 属于 非线性回归研究; 学习机制 wt wt alpha * xt * delta[ y – f ], t1,2,3,4 alpha 是一个常数,被称为 学习比率, 这是在假说空间{ (w1,w2,w3,w4)} 中的一种