张新生

教授博士生导师硕士生导师

个人信息更多+

教师英文名称： zhangxinsheng
教师拼音名称： zhangxinsheng
所在单位：管理学院
学历：研究生(博士)毕业
办公地点：教学大楼828
性别：男
学位：博士学位
在职信息：在职
主要任职：西安建筑科技大学，管理学院，副院长
其他任职： CNAIS理事中国系统工程学会会员陕西省电子学会图形图像专委会委员 CCF会员

其他联系方式

通讯/办公地址：

邮箱：

论文成果

当前位置: 中文主页 - 科学研究 - 论文成果

基于CLIP文本特征增强的剪纸图像分类

发布时间：2025-09-07

点击次数：

DOI码：: 10.19734/j.issn.1001-3695.2024.11.0485

发表刊物：: 计算机应用研究

关键字：: 视觉语言大模型;;剪纸分类;;小样本分类;;模态融合;;提示学习

摘要：: 针对剪纸图像分类中文本与图像模态差异大、类原型表达能力弱的问题，提出了一种基于CLIP模型的文本特征增强方法(CLIP visual text enhancer, C-VTE)。该方法通过人工提示模板提取文本特征，设计了一种视觉文本增强模块，并利用Cross Attention和比例残差进行连接和融合图像特征与文本特征，以减小模态差异，增强类别特征表达能力。在剪纸数据集及Caltech101等4个公开数据集上进行了实验，验证其有效性：在剪纸数据集的基类分类任务中，C-VTE平均准确率达到了72.51%,较现有方法提升3.14百分点；在公开数据集的小样本分类任务中，平均准确率达到了84.78%,提升2.45百分点。消融实验表明，模态融合模块与比例残差对性能提升影响显著。该方法为视觉语言大模型在下游分类任务中的高效适配提供了新思路，尤其适用于小样本与基类主导的场景。

卷号：: 42

期号：: 07

页面范围：: 1994-2002

ISSN号：: 1001-3695

是否译文：: 否

发表时间：: 2025-03-14

上一条：融合动态掩码注意力与多教师多特征知识蒸馏的文本分类
下一条：融合多层次特征的网络暴力言论情绪分析