Key Words:
网络舆情;;舆情分析;;大语言模型;;检索增强生成(RAG);;提示学习
Abstract:
[研究目的]为缓解大语言模型在网络舆情分析过程中出现输出与现实不符或不正确的“幻觉”现象,以及大语言模型的微调过程通常需要耗费大量的机器资源的问题,提出一种混合检索增强生成策略(Retrieval-Augmented Generation, RAG)来提升大语言模型的自然语言理解和生成能力,实现网络舆情的跨领域、跨任务分析。[研究方法]首先,整合高质量舆情事件数据集构建本地RAG知识库以适应不同领域,避免大规模参数微调,在生成过程中引入检索知识减缓“幻觉”现象。并且,引入上下文信息与提示样例进行知识增强,提升大语言模型在下游任务的准确性。最终整合检索内容、上下文信息、提示样例构建针对舆情分析任务的提示语句,将源领域知识迁移到目标领域。[研究结果/结论]实验结果表明,所构建的混合RAG框架在虚假信息检测、自动化报告生成、智能问答、信息抽取、情感分析多种跨领域、跨语言数据集中表现优异,且能够适应少样本学习的场景。