场景下的长文本能力。 示,当前的突破主要集中在三个维度:高质量数据合成、自我演进的强化学 习以及面向真实场景的评测基准。其中,高质量数据合成又分为在持续预训 练阶段和后训练指令微调阶段。 持续预训练阶段在持续预训练数据合成方面,NExtLong[185]认为方法“有 效”意味着,预训练数据应具备长程依赖特性,同时尽可能地减少不相关上 下文对模型学习长程依赖关系的干扰。其探索通过引入对比学习中困难负样 本技术,引入难以区分的负样本来增强模型从干扰项中辨别相关样本的能 力。还有部分工作着力于探索持续预训练过程中的长文本和短文本的配比,