Lecture9 自监督学习(Self-Supervised Learning)

课件下载 Lecture9
image.png

BERT series

image.png
image.png
image.png
image.png
BERT 阶段训练是 Self-supervised Learning,但是在 Downstream 做 fine-tune 的时候是 Supervised Learning
image.png

How to use BERT

Case1

image.png
image.png

Case2

image.png

Case3

image.png
image.png

Case4

image.png
image.png
image.png

seq2seq model

前面都是训练 BERT 做填空题,但是它也可以训练做 seq2seq model
image.png
image.png

Why does BERT work

Explanation1

image.png
image.png
我们可以看见对于同一个”苹果“,苹果汁的”苹果“和苹果手机的”苹果“,BERT 的学习的 embedding 是不一样的的。看热力图可知,对于可以吃的”苹果“,BERT 算出的 embedding 都比较相似,而对于苹果公司的”苹果“,他们的 embedding 比较相似。所以我们可以说 BERT 好像能够理解词语的具体意思,知道”苹果“是可以吃的苹果还是苹果公司的苹果。
image.png
image.png

Explanation2

在 explanation1 中说到 BERT 似乎是靠理解词语的意思工作,但是经过实验发现,事实可能不是那么简单。
image.png
image.png
image.png

Multi-lingual BERT

image.png
image.png
image.png
image.png
image.png
image.png
image.png
image.png

GPT series

image.png
image.png
image.png