EN

张新生

教授   博士生导师  硕士生导师

个人信息 更多+
  • 教师英文名称: zhangxinsheng
  • 教师拼音名称: zhangxinsheng
  • 所在单位: 管理学院
  • 学历: 研究生(博士)毕业
  • 办公地点: 教学大楼828
  • 性别: 男
  • 学位: 博士学位
  • 在职信息: 在职
  • 主要任职: 西安建筑科技大学,管理学院,副院长
  • 其他任职: CNAIS理事 中国系统工程学会会员 陕西省电子学会图形图像专委会委员 CCF会员

其他联系方式

通讯/办公地址:

邮箱:

论文成果

当前位置: 中文主页 - 科学研究 - 论文成果

融合动态掩码注意力与多教师多特征知识蒸馏的文本分类

发布时间:2025-09-07
点击次数:
发表刊物:
中文信息学报
关键字:
动态掩码注意力;;多教师多特征;;知识蒸馏;;文本分类
摘要:
知识蒸馏技术可以将大规模模型中的知识压缩到轻量化的模型中,在文本分类任务中实现更高效的推断。现有的知识蒸馏方法较少同时考虑多种教师与多个特征层之间的信息融合。此外,蒸馏过程采用全局填充,未能动态关注数据中的有效信息。为此,该文提出一种融合动态掩码注意力机制与多教师多特征知识蒸馏的文本分类模型,不仅引入多种教师模型(RoBERTa、Electra)的知识源,还兼顾不同教师模型在多个特征层的语义信息,并通过设置动态掩码模型注意力机制使得蒸馏过程动态关注不等长数据,减少无用填充信息的干扰。在4种公开数据集上的实验结果表明,经过蒸馏后的学生模型(TinyBRET)在预测性能上均优于其他基准蒸馏策略,并在采用教师模型1/10的参数量、约1/2的平均运行时间的条件下,取得与两种教师模型相当的分类结果,平均准确率仅下降4.18%和3.33%,平均F<sub>1</sub>值仅下降2.30%和2.38%。其注意力热度图也表明动态掩码注意力机制切实加强关注了数据尾部与上下文信息。
卷号:
38
期号:
03
页面范围:
113-129
ISSN号:
1003-0077
是否译文:
发表时间:
2024-03-15