BERT 模型和 GPT 模型两者间孰优孰劣?两者的不同方式在于预训练的方式不一样。通俗讲,GPT 采用的方式“写出下文”,即对模型隐藏任意一段文本的下文,让其预测后面的文字,并通过和原文进行对比来不断训练模型。BERT 则是“完形填空”,对于任意一段文字随意隐藏 15%的字,让模型来补全。两者的区别在于 BERT 有除了上文外还有下文可以参考,而 GPT 只有上文,因此长期以来 BERT 模型在很多任务上通过微调都可以取得比 GPT 更好的效果。GPT 的优势则在于有更强大的“生成”能力,这代表更强的零样本学习能力、更强的泛化能力,作为通用型 AI 也就更具备向大众推广的价值。