大型语言模型(LLMs)如GPT-3展示了强大的少样本学习能力——仅凭少数示例就能适应新任务和领域。
这种能力正在推动一个以检索增强生成(RAG)框架为中心的新的系统设计范式。
RAG系统将LLMs的广泛知识与可扩展的检索结合起来,从索引数据中检索信息,可能成为设计下一代AI应用的基石。
训练“一切模型”的局限性早期对LLMs的观察主要集中在它们在预训练期间吸收大量知识的能力上,理想情况下可以在其参数内获取任何想要的一切。但创建一个真正通用的LLM的极其困难。随着模型规模的扩大,研究发现它们在各种常识推理任务仍然存在问题,从而产生错局。可以确定的是,任何大语言模型不可能完全涵盖所有的人类知识或者没有偏见。
RAG——数据增强扩展知识RAG框架提供了一个绕过这些限制的替代方案。RAG系统不是在LLM中静态编码所有必要的知识,而是以可检索的格式索引相关数据。在运行时,它们检索最相关的信息并将其与用户查询一起传递给LLM。可检索的数据充当动态可扩展的知识源-当新信息添加到索引中时,模型无需任何重新训练即可获得感知。
这种范式在很大程度上依赖于最近的进展,这些进展使LLMs能够从少数示例中快速学习,这种能力被称为少样本学习。仅凭几个示例,LLMs就可以适应新的任务、术语和领域。索引数据提供了允许LLM立即学习和讨论新概念的示例。
此外,最近的一篇论文讨论了一个意想不到的发现,即大型语言模型(LLM)似乎能够在微调过程中快速记忆和学习单个示例。这挑战了神经网络需要许多示例来学习的普遍看法。
作者首先注意到奇怪的训练损失曲线,这表明LLM在一次数据传递后正在记忆示例。他们进行的实验支持了模型可以快速记住输入的假设。
该文件探讨了这种现象的潜在原因,包括:
LLM可能具有非常光滑的损失表面,接近最小的损失,允许在训练期间进行大步长
预训练的LLM具有丰富的抽象层次结构,可以很容易地适应新任务
使用Adam优化器可以提高动态学习率,从而实现大步长
作者还指出,这一发现可能需要重新思考LLMs的训练和使用:
挑战包括灾难性的遗忘和数据增强的效用降低。
建议采取的潜在缓解措施,如使用更多的dropout或仔细混合数据集。需要更多的研究来验证记忆假设并适当调整LLM训练。
RAG范式的好处将检索与上下文学习相结合有几个好处:
基础化——检索将LLM的响应基于可用数据,减少不忠实的幻觉。
扩展知识——索引作为可扩展的知识,随着新数据的添加而增长。
迁移学习——少样本适应允许快速定制到新领域和数据。
对话——上下文学习支持自然的前后对话。
与静态模型相比,这些优势使RAG系统具有高度的通用性和可扩展性。RAG范式减少了对模型参数和训练数据的过度依赖,而是利用索引知识和快速适应。
在认识RAG之前,你可能会使用手动的方法去检索,例如
在内部系统中执行关键字搜索。
使用Google等语义搜索引擎搜索更广泛的网络。
手动收集和合成结果。
使用模板系统或工具(如GoogleBard)生成最终响应。
与此手动方法相比,自动化的RAG流程提供了几个关键优势:
速度—自动检索和综合比手动搜索和整理要快得多。RAG系统可以在几秒钟内做出响应,而不是几分钟/几小时。
规模—RAG系统可以消化数百万个文档的语料库,远远超过人类手动分析的能力。这扩大了可用的知识。
一致性—自动化系统可长期可靠运行。手动过程会随着人类疲劳而退化。
成本—构建后,RAG系统每次查询的增量成本与持续的人力成本相比可能是微不足道的。
定制—RAG系统可以针对专业领域进行定制,而不是通用的Web/工具知识。
RAG作为系统设计的新基石展望未来,RAG范式的灵活性使其成为任何涉及生成式AI组件的系统中必不可少的新部分。
过去,集成摘要或翻译等功能需要使用大型数据集训练特定于任务的模型。由通用LLM提供支持的RAG系统极大地降低了门槛——只需对相关数据进行索引并提供一些示例即可添加功能。
因此,RAG很可能在不久的将来成为系统设计的基石。
动态索引知识和快速适应新领域的能力使RAG系统具备的可扩展性和可定制性。
添加新的对话功能或报告生成变得成本低廉,任何组织都可以使用。
就像数据库扩展了使用软件构建的可能性一样,RAG范式极大地扩展了利用AI作为软件组件的可能性。
结论最近的研究结果证实,LLM在知识和偏见方面仍存在基本的局限性。RAG范式通过引入扩展可用知识的可检索索引来规避这些问题,同时利用少量学习来促进向新领域的转移。这些特性共同使RAG系统具有高度的通用性和可扩展性,标志着该框架作为构建先进AI应用的重要基础。
参考资料:LanguageModelsareFew-ShotLearners:
转载请注明:http://www.0431gb208.com/sjszyzl/8906.html