2月27日, 计算机视觉与模式识别国际会议IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR)公布录取结果,我院张帆教授课题组一篇论文入选。
论文信息:Qihao Zhao, Yalun Dai, Hao Li, Wei Hu, Fan Zhang, Jun Liu: “LTGC: Long-Tail Recognition via Leveraging Generated Content”
长尾图像识别一直都具有挑战性,因为它不仅要求模型从尾部类别中学习良好的表征,并要解决所有类别中的不平衡问题。在本文中,我们提出了一个新颖的生成式微调框架,LTGC,通过利用生成内容来处理长尾识别问题。首先,受大模型中隐含有丰富知识的启发,LTGC 利用这些模型的能力对原始数据进行解析和推理,从而生成与原始数据不同的多样化尾部类别内容。之后,我们为 LTGC 提出了几种新颖的设计模块,以确保生成数据的质量,并利用生成图像和原始图像对模型进行有效的微调。在实验结果中,我们通过可视化展示了 LTGC 中生成模块的有效性,它能生成准确且多样化的尾部数据。此外,对比实验结果表明,在流行的长尾基准上,我们的方法优于现有的最先进方法。
计算机视觉与模式识别国际会议(CVPR, IEEE/CVF Conference on Computer Vision and Pattern Recognition)由IEEE主办,是计算机领域世界顶级的学术会议之一,被中国计算机学会评为最高级别的学术会议(CCF-A)。CVPR在2024年Google Scholar公布的学术期刊会议影响力排名中,位列所有学科期刊/会议中第4,仅次于Science。
该论文第一作者为信息学院博士生赵启浩,共同一作与第二作者为信息学院18级本科毕业生,戴雅伦与李昊;张帆教授、胡伟副教授指导,并与新加坡科技设计大学合作完成,北京化工大学为第一完成单位。该工作得到了国家自然科学基金等项目的资助。