Key Words:
有害文本;;有害言论识别;;多任务模型;;RoBERTa;;BiLSTM
Abstract:
[研究目的]针对传统文本识别模型在应对社交媒体有害言论多样性和隐蔽性时的局限性,探索更精准、高效的识别方法,以提升有害言论识别的准确性与泛用性,助力构建健康安全的网络环境。[研究方法]提出了一种基于RoBERTa和多任务模型联合学习的方法,利用RoBERTa提取文本词向量,构建共享编码器和多个单任务编码器分别提取通用特征和专属特征,将两类特征融合生成文本的最终特征表达。[研究结果/结论]实验结果表明,多任务模型在精确率、准确率、召回率、F<sub>1</sub>上比传统的文本分类提升了10%左右,说明多任务模型能更充分地挖掘不同类型有害文本之间的关联.提升模型对有害言论检测的效果。