Pelhans Blog

Practice makes perfect
本站总访问量 本站访客数人次

深度学习笔记(十二)

BERT

眼睛看过只是别人的,整理出来并反复学习才是自己的。 概述 模型结构 预训练任务 MLM NSP Fine-tuning Procedure 总结 概述 最近开始做关系抽取相关的任务,因为BERT 现在势头很猛所以一直想试一下,同时还可以学学 Transformer 的用法细节。这篇主要记录 BERT 的原理...

关系抽取笔记

综述(一)

论文 Relation Extraction: A Survey 的中文翻译,并对其中提到的模型进行补充。 摘要 随着互联网的出现,每天都会以新闻文章,研究出版物,博客,问答论坛和社交媒体的形式产生大量的文本。开发从这些文档中自动提取信息的技术是非常重要的,因为许多重要信息都隐藏在其中。提取的信息可用于改进对大文本语料库中隐藏的知识的访问和管理。诸如问答,信息检索等几个项目将受益...

深度学习笔记(十一)

Word2Vec

眼睛看过只是别人的,整理出来并反复学习才是自己的。 概述 CBOW 正向传播 反向传播 Skip-Gram 优化 分层 softmax 负采样 word2vec 问题 参考 概述 Word2Vec 是谷歌的分布式词向量工具。使用它可以很方便的得到词向量。W...

深度学习笔记(十)

Attention 基础

眼睛看过只是别人的,整理出来并反复学习才是自己的。 什么是 Attention Attention 的原理 Attention 机制的本质思想 Attention 机制的分类 Soft attention 与 Hard attention Global attention 与 Local attention Self-a...

深度学习笔记(九)

循环神经网络基础

眼睛看过只是别人的,整理出来并反复学习才是自己的。 概览 展开计算图 循环神经网络 循环网络的反向传播 双向 RNN 长期依赖问题 长期依赖的处理 RNN 的变种 LSTM Cell 状态 遗忘门 输入门 输出门 ...

深度学习笔记(八)

卷积神经网络基础

眼睛看过只是别人的,整理出来并反复学习才是自己的。 概览 什么是卷积 为什么要用卷积 稀疏权重 参数共享 等变表示 卷积之外的组件-池化 CNN 的反向传播 概览 卷积神经网络 是一种专门用来处理具有类似网格结构的数据的神经网络。CNN 近年来在很多领域都表现优异。卷积神经网络依次的来源是因为该网...

深度学习笔记(七)

激活函数

眼睛看过只是别人的,整理出来并反复学习才是自己的。 概览 Sigmoid tanh 函数 ReLU 整流线性单元 ReLU 的改进 什么样的函数能用来做激活函数 参考 概览 激活函数是神经网络的一个重要组成部分,它可以将线性分类器转换为非线性分类器,这已被证明是近年来在各种任务重所见到的高性能的关键。不同的激活函数在实践中经常表现出非常多样的行为...

深度学习笔记(六)

正则化项

眼睛看过只是别人的,整理出来并反复学习才是自己的。 概览 L2 正则化 L1 正则化 Dropout 提前终止 数据增强 参数绑定和参数共享 Bagging 和其他集成方法 概览 正则化的本质就是对参数的先验假设。通过对参数的正则化,以偏差的增加换取方差的减少,从而使得机器学习算法的泛化性增加。偏差度量着偏离真实函数或者参数的误差期望,而方差...

深度学习笔记(五)

常见损失函数

眼睛看过只是别人的,整理出来并反复学习才是自己的。 概览 分类 0-1 损失 交叉熵损失函数 Softmax 损失函数 Softmax 损失函数的改进 Focal loss Large-Margin Softmax Loss ...

深度学习笔记(四)

神经网络中的权值初始化

眼睛看过只是别人的,整理出来并反复学习才是自己的。 概览 随机初始化 Xavier 初始化 He 初始化 参考 概览 那么为什么会有这么多初始化策略呢?深度学习算法的训练通常是迭代的,因此要求使用者给一些开始迭代的初始点,而有些深度模型会受到初始点的影响,使得算法遭遇数值困难,并完全失败。此外初始点可以决定学习收敛的多快,以及是否收敛到一个代价高或低的点...