随着模型参数量和上下文长度的增加,其在推理过程中对于内存容量的要求也在不断提升。在推理过程中,模型的所有权重全部加载到内存中,才能完成计算。而随着参数量的增加,权重占用的内容也在不断增加,因此对于内存有更大的要求。此外,模型上下文越长,每一层输出的特征向量序列就越长,这些中间结果需要暂时缓存到内存中,用于后续层的计算。因此,当上下文长度增加时,推理过程中的内存开销也会相应增加。总体而言,近年来,模型参数量和上下文长度的增加使得其对于AI芯片内存容量的要求不断提升,而当前以HBM为主的AI芯片内存容量的升级速度是落后于模型对于内存容量的要求的。