人工智能(机器学习)
第5章 机器学习 §5.2 神经网络学习 §5.3 因果信念网络学习 第 5 章 机器学习 什么是机器学习? 归纳学习 能够学习的程序 S: 任务 T,性能度量 P,经验 E, S能够通过经验 E,改善执行任务 T的性能(用 P来度量) 通过 实例集{(x1,y1),…, (xk,yk)} 求函数 y=f(x)使得 y1 ≈ f(x1), yi ≈ f(xi), …,yk ≈ f(xk) §5.1 归纳式学习 Inductive Learning 什么是归纳学习?和演绎推理(保真)的比较 例子,训练实例集合: 1.(乌鸦 w1,羽毛黑); 2.(乌鸦 w2,羽毛浅黑); 3.( 麻雀 w3,羽毛灰);4.(鸽子 w4,羽毛白); 5.( 乌鸦 w1,羽毛白);6.(偶数 8,两素数 3,5之和)… 根据训练实例集合提出假说 HYPOTHESIS: GOAL (乌鸦,黑色的羽毛) )()( )()()()( x ̄x ̄x xx ̄xxx 乌鸦黑 黑乌鸦亦即,黑乌鸦 1.支持性正例;2.灰色支持的正例; 3. 支持性负例;4.支持性负例 5.否定性反例;6.无关实例 要求归纳得到简洁的规则, 并使得规则的可信度高 归纳的可信度:规则的可信度是 0.99%其含义为,10000个乌鸦中大约可能有 1个否定性 反例(非黑的乌鸦) 决策树学习。 从数据取样(Xi,Yi), 利用外推插值方法,求函数. 决策树学习,适用于 离散性样点(Xi,Yi), Xi∈离散集合,Yi∈离散集合 从数据例子中提出有规律的假设,使其符合数据实例, 挖掘数据中的 Pattern模式,规律 Ockham‘s Razor: 最简单的是最好的. 决策树 F=F(A,B,C) A B C F 0 0 0 0 0 0 1 1 0 1 0 0 0 1 1 1 A B C F 1 0 0 1 1 0 1 1 1 1 0 1 1 1 1 0 A 1 0 B 0…….1 C 1 0 TRUE TRUE FALSE FALSE 挑选主要分类属性, 1. 分别挑选能够把 F=0,1的肯定,或否定例集合 分开的决策属性 C, 使 C的某种取值覆盖 F肯 定集合或 F否定集合 的大小 尽可能地小(方法: 布尔 0,1合并法) 2. 对 C属性的每一种取值,列出它对 F肯定集合或 F否定集的覆盖集合(它们分别是 F肯定集合 和 F否定集的子集合), 进一步从其他属性中挑选能够把正反例分开的属性(递归算法); 直到 3. 某覆盖集合为空,DONE 4. 决策属性集已经全部挑完,但正反例集合非空:有 NOISE F=A∧ ̄B ∨C F=TRUE的取值元组集合: +正集合 {001,011,100,101,111}0来探讨该电影评价倾向所 根据的特性是否和 X 电影分类特性一致? 对电影实例数据集合的划分,使得我们对电影评价问题认识深化; 熵 ENTROPY 减少;系统从无序向有序过渡; ENTROPY 的定义 |S|=12 共 12 部电影; m=2 正反两类电影;|S+|=4;|S-|=8; Entropy(S)= -[(4/12)log(4/12)+(8/12)log(8/12)]= 1/3(log3)+2/3 (log3-1)=0.52835+0.39003=0.918383 sspppentropy ii m i ii /;log( 1 2 实例划分) ∑为 (4/12)*0 + (4/12)*(-1) + (4/12)*(-1)= -2/3 = -0.666667 gain=0.25172 )()(,( i m i iSEntropy S S SEntropySgain划分) default 表示 没有实例描述,无法决定该属性取值 对 肯定或否定 电影实例分类有帮助. YES 分支 对 ―肯定‖ 电影实例分类有帮助, NO 分支 对 ―否定‖ 电影实例分类有帮助. 决策树归纳式学习的不足: 1. 仅仅对离散型取值变量有效,对连续型取值(例如钱)必须离散化, 人工痕迹大 2. 训练实例集合可能 有矛盾(相同的 X,不同的 Y); ---NOISE 例如饭馆排队的例子,如果有三个训练例子 ‗队很长 且听说要等60 分钟‘则走人 但同时有 1 个训练例子 ‗队很长 且听说要等60 分钟‘则不走继续等; 可以忽略后者. 3. 决策树熵增益方法挑选属性的方法 偏向于取值集合大(值域宽)的变量, 熵 增益容易增大. 4. OVERFITTING,牵强附会 归纳学习的一个大缺点是, OVERFITTING: 把一些和 GOAL 无关但训练集合出现的 属性变量 表面地联系在一起.例如饭馆排队的例子,和菜价是否昂贵关系不大 熵增益很小.但小到多小就不于考虑呢? 统计学的理论告诉我们, 可以对 GOAL 和训练实例集合进行 无规律模式的统计学 检验---χ ^2 分布表的标准检验, *另一个方法是,把训练实例集合中,事先随意取出一个子集合,作为假说(归纳函数) 的检验集合,用统计学方法,可以计算得出该归纳假说的可信程度. 5.训练实例集合增大时,如何推广 或 缩窄 已经提出的假说 §5.2 人工神经网络 大脑在 解决问题的健壮性(robustness,在意外情况下得出合理的解答) 在 学习解决新问题等方面,它比计算机要高明得多; 但是计算机在精确计算方面,比人的大脑要高速得多; dendrites 树状神经突触(输入部) 可以分支接过多个外界 synapse 树状分支 末鞘 axon 神经轴突(输出轴突),synapse 树状分支末鞘 nucleur 神经元的细胞体,细胞核 人的大脑 10^11 个 NEURON 神经元,平均每一个神经元和 10000 个神经元相连, 神经元的开关时间约 10^-3 秒;[CPU 1000 MHZ] 存储信息单元数量 10^14 个 SYNAPSE 突触,存储权重;[DISK 100 GBYTE] 通信带宽 10^14—10^16 bit/s; [10^4 个 CPU ,1000 MHZ ,64BIT] 神经元 的激励函数 activation function 表示了 输入 X 空间的 一种决策分割函 数 ,线性分割算子 g(x)=sigmoid(x)有导数,是可微的, g’(x)= g(x) * (1-g(x)) x1 x2 x3 • • • x1=0,1; w1= -1 t = -1.5 x2=0,1; w2= -1 x3=0,1; w3= -1 f=0,1 f=1 三维的线性 分割函数(算子) f= 3 - 2*(x+y+z) 神经网络学习 给定上述人工神经网络, 以及 一组学习样本(k个) 目标是求假说空间{ (w1,w2,w3,w4)} 中的一个向量(权重向量) 使得 从统计学来说,神经网络的归纳假说问题 属于 非线性回归研究; 学习机制: wt := wt + alpha * xt * delta[ y – f ], t=1,2,3,4 alpha 是一个常数,被称为 学习比率, 这是在假说空间{ (w1,w2,w3,w4)} 中的一种