三分钟速览GPT系列原理

我们知道，BERT中使用（1）扣取某个单词，学习完形填空（2）判断是否为下一句来学习句子的相关性，两个任务来使用海量数据进行训练。

在GPT中，训练分为无监督的预训练和有监督的微调，无监督的预训练使用标准语言模型，给定前i-1个单词，预测第i个单词；有监督的微调使用标准交叉熵损失函数。

针对不同的任务，只需要按照下列方式将其输入格式进行转换，转换为一个或多个token序列，然后送入Transformer模型，后接一个任务相关的线性层即可。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。