Pelhans Blog

道阻且长,行则将至

深度学习笔记(十)

Attention 基础

什么是 Attention Attention 的原理 Attention 机制的本质思想 Attention 机制的分类 Soft attention 与 Hard attention Global attention 与 Local attention Self-attention Transformer ...

深度学习笔记(九)

循环神经网络基础

概览 展开计算图 循环神经网络 循环网络的反向传播 双向 RNN 长期依赖问题 长期依赖的处理 RNN 的变种 LSTM Cell 状态 遗忘门 输入门 输出门 GRU ...

深度学习笔记(八)

卷积神经网络基础

概览 什么是卷积 为什么卷积要长成这个样子? 卷积的可交换性是啥意思? 为什么DL 中用的都是不翻转版本的? 为什么要用卷积 稀疏权重 参数共享 等变表示 卷积之外的组件-池化 CNN 的反向传播 CNN 的变体与应用 细节问题 ...

深度学习笔记(七)

激活函数

概览 Sigmoid tanh 函数 ReLU 整流线性单元 ReLU 的改进 Gaussian Error Linerar Units(GELUS) 什么样的函数能用来做激活函数 参考 概览 激活函数是神经网络的一个重要组成部分,它可以将线性分类器转换为非线性分类器,这已被证明是近年来在各种任务重所见到的高性能的关键。不同的激活函数在实践中经常表现出...

深度学习笔记(六)

正则化项

概览 L2 正则化 L1 正则化 Dropout 提前终止 数据增强 参数绑定和参数共享 Bagging 和其他集成方法 概览 正则化的本质就是对参数的先验假设。通过对参数的正则化,以偏差的增加换取方差的减少,从而使得机器学习算法的泛化性增加。偏差度量着偏离真实函数或者参数的误差期望,而方差度量着数据上任意特定采样可能导致的估计期望的偏差。因此高偏差相...

深度学习笔记(五)

常见损失函数

概览 分类 0-1 损失 交叉熵损失函数 Softmax 损失函数 Softmax 损失函数的改进 Focal loss Large-Margin Softmax Loss KL 散度 Hinge 损失 ...

深度学习笔记(四)

神经网络中的权值初始化

概览 随机初始化 Xavier 初始化 He 初始化 参考 概览 那么为什么会有这么多初始化策略呢?深度学习算法的训练通常是迭代的,因此要求使用者给一些开始迭代的初始点,而有些深度模型会受到初始点的影响,使得算法遭遇数值困难,并完全失败。此外初始点可以决定学习收敛的多快,以及是否收敛到一个代价高或低的点,更何况代价相近的点也可能有极大的泛化差别。不同的网络结构和激...

深度学习笔记(三)

牛顿法与BFGS

概览 牛顿法 拟牛顿法 BFGS 深度学习中为什么不用牛顿法去优化? 参考 概览 与一阶的相比,二阶梯度方法使用二阶导数改进了优化。最广泛使用的二阶方法是牛顿法。 牛顿法 牛顿法是给予二阶泰勒级数展开在某点 $\theta_{0}$附近来近似 $J(\theta)$的方法,它忽略了高于二阶的导数: \[f(x) = f(x...

深度学习笔记(二)

拉格朗日乘数法与KKT条件

概览 无约束条件 等式约束条件 一道练习题 不等式约束 例子 参考 概览 通常情况下,最优化问题会答题可分为三种情况:无约束条件、等式约束条件、不等式约束条件,对应的算法为费马定理、拉格朗日乘数法、KKT条件。 无约束条件 最简单的情况,根据费马定理,解决方法通常是函数对变量求导,零导数函...

深度学习笔记(一)

深度学习中的常见优化算法

概览 梯度下降 梯度下降的变种 批梯度下降(Batch gradient descent) 单样本随机梯度下降 随机梯度下降 梯度下降算法的优化 动量 Nesterov 动量 自适应学...