沐神的课

沐神的课

四月 11, 2023

BERT

链接

名字来源

Bidirectional Encoder Representations from Transformers

模型架构

In this work, we denote the number of layers (i.e., Transformer blocks) as L, the hidden size as H, and the number of self-attention heads as A.
We primarily report results on two model sizes:
BERTBASE (L=12, H=768, A=12, Total Parameters=110M ) and
BERTLARGE (L=24, H=1024, A=16, Total Parameters=340M)
image.png
每一个输入的词元变成三个标注:
1.token;词本身的信息
2.segment;代表是哪个句子
3.position;位置信息

超参数-》可学习参数的大小(回顾Transformer)

可学习参数主要来自两块:
1.嵌入层;
2.Transformer块;

模型使用的分词

wordPiece

根据词出现的频率来做分词

Transformer

模型架构

image.png

具体解释

Encoder

可以看到从输入进来之后,输入变成了三份(key, value, query),实际上就是输入本身复制了三份,因此,这种注意力机制也可以被称作为自注意力机制;
然后之所以使用多头注意力机制,是因为单个头注意力机制中需要学习的参数太少,而在多头注意力机制中,引入了W参数作为可学习参数,类似于卷积神经网络中的多通道。

Decoder

编码器端的key和value是来自于编码器的最后一层的输出,而query是来自于解码器经过多头注意力机制的输出,这一部分的含义是指寻找解码器的query于key相似的作为下一层的输入。

scaled dot-product attention & multi-head attention

image.png
可以看到头的个数为h。把输入映射到低维空间(d-model / h)中,然后最后进行拼接成原始的维度(d-model)

dropout 层

drop = 0.1?正则化?

GNN

静态图神经网络

动态图神经网络