DOI number:
10.16353/j.cnki.1000-7490.2025.08.014
Abstract:
[目的/意义]通过在海量舆情数据中准确识别衍生话题,可解释性地挖掘衍生主题的演化过程,从而有效发掘危险话题,实现有针对性的舆论管控。[方法/过程]结合深度学习和复杂网络方法构建Graph-BERTopic主题模型。首先,通过加强模型的输出关联性显著提高主题聚类性能;其次,基于语义相似度将主题嵌入向量构建聚类图谱;最后,采用社区发现检测图谱中的衍生主题,采用最短路径算法捕捉主题间的演化关系。[结果/结论]对收集的“东航MU5735飞机失事”数据集进行实验验证,其聚类性能与多种基准模型相比取得最优性能,NPMI、TD分别达到0.187、0.873。通过聚类图谱划分的衍生主题结构的质量函数达到0.831。所构建的模型能够从大规模文本中精准挖掘衍生主题,可解释性地捕捉舆情主题之间的演变过程。