中文
Profile
VIEW MORE
>>欢迎咨询报考2026年硕士/博士研究生<<        张新生(1978~),男,博士,教授(博导),管理学院副院长。2009年12月毕业于西安电子科技大学,获得博士学位。2010年10月晋升为副教授,佛罗里达大学访问学者(2013-2014),2016年12月晋升为教授,现在西安建筑科技大学管理学院从事教学和科研工作。近年来主持国家自然科学基金1项、国家社科基金后期资助项目1项,教育部人文社科规划项目1项,陕西省重点产业链项目1项,陕西省自然科学基金3项、陕西省社科基金2项、陕西省教育厅自然科学基金3项等,主持横向项目6项,并参与了多项课题的研究工作。主要研究方向包括:智能社会治理;管理智能决策与优化;能资环(能源、资源、环境)智能管理与优化...
zhangxinsheng
Professor
Paper Publications
基于CLIP文本特征增强的剪纸图像分类
Release time:2025-09-07 Hits:
DOI number:
10.19734/j.issn.1001-3695.2024.11.0485
Journal:
计算机应用研究
Key Words:
视觉语言大模型;;剪纸分类;;小样本分类;;模态融合;;提示学习
Abstract:
针对剪纸图像分类中文本与图像模态差异大、类原型表达能力弱的问题,提出了一种基于CLIP模型的文本特征增强方法(CLIP visual text enhancer, C-VTE)。该方法通过人工提示模板提取文本特征,设计了一种视觉文本增强模块,并利用Cross Attention和比例残差进行连接和融合图像特征与文本特征,以减小模态差异,增强类别特征表达能力。在剪纸数据集及Caltech101等4个公开数据集上进行了实验,验证其有效性:在剪纸数据集的基类分类任务中,C-VTE平均准确率达到了72.51%,较现有方法提升3.14百分点;在公开数据集的小样本分类任务中,平均准确率达到了84.78%,提升2.45百分点。消融实验表明,模态融合模块与比例残差对性能提升影响显著。该方法为视觉语言大模型在下游分类任务中的高效适配提供了新思路,尤其适用于小样本与基类主导的场景。
Volume:
42
Issue:
07
Page Number:
1994-2002
ISSN No.:
1001-3695
Translation or Not:
no
Date of Publication:
2025-03-14

Pre One:融合动态掩码注意力与多教师多特征知识蒸馏的文本分类

Next One:融合多层次特征的网络暴力言论情绪分析