Pelhans Blog

Practice makes perfect
本站总访问量 本站访客数人次

深度学习笔记(十)

Attention 基础

眼睛看过只是别人的,整理出来并反复学习才是自己的。 什么是 Attention Attention 的原理 Attention 机制的本质思想 Attention 机制的分类 Soft attention 与 Hard attention Global attention 与 Local attention Self-a...

深度学习笔记(九)

循环神经网络基础

眼睛看过只是别人的,整理出来并反复学习才是自己的。 概览 展开计算图 循环神经网络 循环网络的反向传播 双向 RNN 长期依赖问题 长期依赖的处理 RNN 的变种 LSTM Cell 状态 遗忘门 输入门 输出门 ...

深度学习笔记(八)

卷积神经网络基础

眼睛看过只是别人的,整理出来并反复学习才是自己的。 概览 什么是卷积 为什么要用卷积 稀疏权重 参数共享 等变表示 卷积之外的组件-池化 CNN 的反向传播 概览 卷积神经网络 是一种专门用来处理具有类似网格结构的数据的神经网络。CNN 近年来在很多领域都表现优异。卷积神经网络依次的来源是因为该网...

深度学习笔记(七)

激活函数

眼睛看过只是别人的,整理出来并反复学习才是自己的。 概览 Sigmoid tanh 函数 ReLU 整流线性单元 ReLU 的改进 Gaussian Error Linerar Units(GELUS) 什么样的函数能用来做激活函数 参考 概览 激活函数是神经网络的一个重要组成部分,它可以将线性分类器转换为非线性分类器,这已被证明是近年来在各...

深度学习笔记(六)

正则化项

眼睛看过只是别人的,整理出来并反复学习才是自己的。 概览 L2 正则化 L1 正则化 Dropout 提前终止 数据增强 参数绑定和参数共享 Bagging 和其他集成方法 概览 正则化的本质就是对参数的先验假设。通过对参数的正则化,以偏差的增加换取方差的减少,从而使得机器学习算法的泛化性增加。偏差度量着偏离真实函数或者参数的误差期望,而方差...

深度学习笔记(五)

常见损失函数

眼睛看过只是别人的,整理出来并反复学习才是自己的。 概览 分类 0-1 损失 交叉熵损失函数 Softmax 损失函数 Softmax 损失函数的改进 Focal loss Large-Margin Softmax Loss ...

深度学习笔记(四)

神经网络中的权值初始化

眼睛看过只是别人的,整理出来并反复学习才是自己的。 概览 随机初始化 Xavier 初始化 He 初始化 参考 概览 那么为什么会有这么多初始化策略呢?深度学习算法的训练通常是迭代的,因此要求使用者给一些开始迭代的初始点,而有些深度模型会受到初始点的影响,使得算法遭遇数值困难,并完全失败。此外初始点可以决定学习收敛的多快,以及是否收敛到一个代价高或低的点...

深度学习笔记(三)

牛顿法与BFGS

眼睛看过只是别人的,整理出来并反复学习才是自己的。 概览 牛顿法 拟牛顿法 BFGS 参考 概览 与一阶的相比,二阶梯度方法使用二阶导数改进了优化。最广泛使用的二阶方法是牛顿法。 牛顿法 牛顿法是给予二阶泰勒级数展开在某点 $\theta_{0}$附近来近似 $J(\theta)$的方法,它忽略了高于二阶的导数: 对上式两侧同时求梯度,得到函数...

深度学习笔记(二)

拉格朗日乘数法与KKT条件

眼睛看过只是别人的,整理出来并反复学习才是自己的。 概览 无约束条件 等式约束条件 一道练习题 不等式约束 例子 参考 概览 通常情况下,最优化问题会答题可分为三种情况:无约束条件、等式约束条件、不等式约束条件,对应的算法为费马定理、拉格朗日乘数法、KKT条件。 无约束条件 最简...

深度学习笔记(一)

常见优化器

系统整理 tensorflow 相关技术,并随着学习随时更新。本篇包含深度学习中常用的优化器。 概览 梯度下降 梯度下降的变种 批梯度下降(Batch gradient descent) 单样本随机梯度下降 随机梯度下降 梯度...