神经网络读书笔记
神经网络部分知识点总结神经网络部分知识点总结 一、神经网络的基础 1.1 神经网络概念 神经网络是由简单处理单元构成的大规模并行分布式处理器,天然具有存储 经验知识和使之可用的特性。神经网络在这两方面与大脑相似: 1. 神经网络是通过学习过程从外界环境中获取知识的。 2. 互连神经元的连接强度,即突触权值,用于存储获取的知识。 1.2 神经网络性质和能力 神经网络具有以下有用的性质和能力: 1.非线性:人工神经网络可以是线性或者非线性的。 2.输入输出映射:称之为有教师学习(learning with a teacher)或监督学习 (supervised learning)的关于学习的流行方法。它使用带标号的的训练样例 (training example)或任务样例(task example)对神经网络的突触权值进行修改。 3.自适应性:神经网络具有调整自身突触权值以适应外界环境变化的固有能 力。 4.证据响应(evidential response):在模式分类问题中,神经网络可以设计成不 仅能够提供选择哪一个特定模式的信息,还提供关于决策的置信度信息。后者 可以用来拒判那些可能出现的过于模糊的模式,从而进一步改善网络的分类性 能。 5.上下文信息(contextual ination):神经网络的特定结构和激发状态代表 知识。网络中每一个神经元都受到所有其他神经元全局活动的潜在影响。 6.容错性:一个以硬件形式实现的神经网络具有天生的容错性,或者是鲁棒 性的计算能力。 7.VLSI 实现:神经网络的大规模并行性使它具有快速处理某些任务的潜在 能力,很适合使用超大规模集成(VLSI)技术来实现。 8.分析和设计一致性。 9.神经生物类比。 1.3 神经元模型的三个基本元素 1、突触或连接链集,每一个都由其权值或者强度作为特征。如在连到神经 元 k 的突触 j 上的输入信号𝑥 𝑗被乘以 k 的突触权值𝑤𝑘𝑗,第一个下标指正在研究 的这个神经元,第二个下标指权值所在突触的输入端。 2、加法器,用于求输入信号被神经元相应突触加权的和。 3、激活函数,用于限制神经元输出振幅。 上图为非线性神经元模型,标记为第 k 个神经元。用数学方程描述神经 元: 其中𝑥 𝑗是输入信号,𝑤𝑘𝑗是神经元 k 的突触权值,𝑢𝑘是输入信号的线性组合 器的输出,𝑏𝑘为偏置,激活函数为φ(·),𝑦𝑘为神经元输出信号。 1.4 激活函数的类型 1、阈值函数(Heavside 函数):如图(a)所示 2、sigmoid 函数:sigmoid 函数的一个例子是 logistic 函数:如图(b)所示 其中 a 是 sigmoid 函数的倾斜参数。 1.5 网络结构 神经网络分为三个基本结构: 1、单层前馈网络:源节点构成输入层,直接投射到神经元输出节点上。 2、多层前馈网络:有一层或多层隐藏层,相应的计算机节点称为隐藏神经 元。隐藏是指神经网络的这一部分无论从网络的输入端或者输出端都不能直接 看到。 3、递归网络:和前馈网络的区别在于它至少有一个反馈环。 1.6 学习过程 广义上讲,可以通过对神经网络的功能来对其学习过程进行分类:有教师 学习和无教师学习。按同样标准,后者又可以分为无监督学习和强化学习两个 子类。 1、有教师学习:也称监督学习。从概念上讲,我们可以认为教师具有对周 围环境的知识,这些知识被表达为一系列的输入-输出样本。然而神经网络对环 境一无所知。 2、无教师学习:没有任何带标号的样例可以供神经网络学习。 强化学习:输入输出映射的学习是通过与环境的不断交互完成的,目的是 使一个标量性能指标达到最小。如左下图。无监督学习:没有外部的教师或者 评价来监督的学习过程。如右下图。 二、感知器 2.1 感知器模型 感知器神经元模型由一个线性组合器和随后的硬限幅器(执行一个符号函 数)组成。如图为感知器符号流图。 硬限幅器输入或神经元的诱导局部域是: 感知器的目的就是将外部作用激励正确分为两类。在最简单的感知器中存 在被一个超平面分开的两个决策区域,此超平面定义为: 2.2 感知器收敛定理 偏置 b(n)被当作一个等于+1 的固定输入量所驱动的突触权重。定义输入向量: n 代表迭代步数,对应的权值向量为: 线性组合器输出: 存在一个权值向量存在以下性质: 感知器不能正确对向量进行分类,在常量𝜂(𝑛) = 1的情况下有: 两边同时乘以行向量𝒘𝑇 0,有 根据定义有𝒘𝑇 0𝒘(n + 1) ≥ 𝑛𝛼 Cauchy-Schwarz不等式有: 对权值调整公式两边同取欧几里得范数的平方,得到 但是,𝒘𝑇(𝑘)𝒙(𝑘) ≤ 0,因此, 这里β是一个正数,定义为 比较发现一个是大于等于一个是小于等于相矛盾,故取相等求最大迭代次数。 2.3 感知器收敛算法概述 三、用于非线性模式识别的神经网络 非线性模式识别的神经网络包括多层感知器(MLP)网络、径向基函数 (RBF)网络、支持向量基(SVM) 、数据处理的通用模型(GMDH,也叫做 多项式网络) 、通用回归神经网络(GRNN)和通用神经网络(GNN) 。 带有一个隐含层的多层感知器模型: 在预报应用里(或函数逼近里)通常是单输出,在分类应用里是一个或多 用非线性多层感知器网络为多维数据建模,通常情况下有 n 个输入,m 个 第 j 个神经元的隐含神经元的输入𝑢 𝑗和输出𝑦𝑗是 𝑛 个输出。 隐含神经元和 k 个输出神经元,MLP 的中间处理构成: 𝑢 𝑗 = 𝑎 𝑗0 + ∑𝑎 𝑗𝑖𝑥𝑖 ,𝑦 𝑗 = 𝑓(𝑢𝑗) 𝑖=1 第 k 个神经元的隐含神经元的输入𝑣𝑘和输出𝑧𝑘是 𝑛 𝑣𝑘= 𝑏𝑘0+ ∑𝑎𝑘𝑗𝑦 𝑗 ,𝑧𝑘= 𝑓(𝑣𝑘) 𝑗=1 四、神经网络对非线性模式的学习 对于一个具有输出神经元的网络的所有训练模式的预报最通用的误差表示 MSE 可以写成:(式中,𝑡𝑖,𝑧𝑖分别表示目标输出和预报输出) 𝑁 E = 1 2𝑁 ∑(𝑡𝑖− 𝑧𝑖)2 𝑖 4.1 梯度下降法 梯度下降法提出将权值向误差下降最快的方向改变。 关于输出神经元权值的误差梯度 假设输出神经元的激励函数为 关于隐含神经元误差梯度 由于𝑣 = 𝑏0+ 𝑏1𝑦 ,因此, 𝜕𝑥 = 𝑏1 𝜕𝑦 学习率和权值更新,对m + 1次训练时间的新权值𝑤𝑚+1可以表示为 𝑁 𝑤𝑚+1= 𝑤𝑚+ ∆𝑤𝑚,∆𝑤𝑚= −𝜀𝑑𝑚,𝑑𝑚= ∑[ 𝑛=1 𝜕𝐸 ] 𝜕𝑤 𝑚 𝑛 动量法的思想就是利用所有以前权值的变化的指数平均导出当前变化。 式中,𝜇是一个在 0 到 1 之间的动量参数;∆𝑤𝑚−1是前一个训练时间里的权 值变化。因此𝜇表示过去权值变化对新的权值增量∆𝑤𝑚的相对重要性。动量可以 稳定学习过程。 多输入、多隐含神经元多输出网络 网络的总误差是每一个输出神经元的 MSE 之和,可以表示为 输出神经元权值的导数: 𝜕𝐸𝜕𝐸 = 𝑝1= (𝑧1− 𝑡1 )𝑧 1(1− 𝑧1),…