问:大模型的涌现能力是什么,什么原因造成的?

  • 大模型的涌现能力是指当模型规模增大到一定程度时,其展现出的超出以往小模型能力范围的复杂且强大的新能力
  • 这主要是由于模型参数量的大幅增加,使其能够学习到更复杂的模式和关系,以及大规模数据训练提供了丰富的知识基础。

问:为何现在的大模型大部分是Decoder only结构?

decoder-only架构在无标注数据的zero-shot(Zero-shot学习是指模型在没有针对特定任务进行训练的情况下,能够理解和执行新任务的能力。)学习场景下表现优异,适合自监督学习。

它在参数效率和推理成本上具有优势

encoder-decoder架构需要更多标注数据进行多任务微调来达到最佳性能,且其双向注意力机制可能在某些情况下并不增加模型的表达能力。

问:什么是大模型?大模型的优缺点?

大模型通常指的是参数数量巨大的深度学习模型,如 GPT 系列

大模型具有强大的语言生成和理解能力,能处理多种复杂任务

但存在训练成本高、数据需求大、可能出现错误或偏见以及对硬件要求高等缺点。

问:如何评估大模型的性能?有哪些常用的评估指标?

问:请描述一下你如何对大模型进行优化,以提高其性能和效率同时降低模型大小和推理时间?

问:面对大模型训练和推理所需的庞大计算资源,你有什么解决方案或建议

问:为什么需要对大模型进行微调?

问:prompt tuning 和 prefix tuning 在微调上的区别

问:请解释什么是过拟合和欠拟合,并说明如何在大模型评测中避免它们。

问:请谈谈你对 A/B 测试的理解,并说明它在大模型评测中的应用。

问:如何让大模型处理更长的文本?

问:如何处理大模型训练过程中的梯度消失或梯度爆炸问题?