我校张帆教授团队最新研究成果入选CVPR口头报告

发布人:信息学院发布时间:2024-07-04浏览次数:12

国际计算机视觉与模式识别会议CVPRIEEE/CVF Conference on Computer Vision and Pattern Recognition2024617-21日在美国西雅图召开。在本次大会上,信息科学与技术学院张帆教授团队论文《LTGC: Long-Tail Recognition via Leveraging Generated Content》入选为口头报告(Oral)。

1. CVPR的谷歌学术影响力排行

本年度CVPR从全球11532篇投稿中接收了2719篇论文,并有90篇入选口头报告论文,入选率0.78%。该论文是我校首篇CVPR口头报告,CVPR 2024程序主席Zeynep Akata等祝贺道:“Only 90 papers out of about 11,500 submissions were selected as orals, so this is a rare honor.”

2. 口头报告现场

3. 论文在线版本


研究成果

现实场景下的图像识别是计算机视觉领域的研究热点,它不仅面对着如何从长尾分布的稀缺数据中学习高鉴别性表征的挑战,而且面对着众多类别样本数量不等引发的不平衡学习难题。本文提出了一种新颖的生成式微调框架LTGC,通过利用生成内容来处理现实场景下长尾分布下的图像识别问题。首先,受大模型中隐含有丰富知识的启发,LTGC利用多种大模型的能力协作对原始数据进行解析和推理,生成与原始数据不同的多样化的稀缺图像内容。之后,该方法设计了几种新颖的模块,以确保生成图像数据的质量,并提出有效的合成与真实数据微调框架进行模型训练。该方法旨在提高视觉大模型在现实场景下长尾数据下图像识别任务的识别率与泛化性,并通过与当前视觉大模型的对比实验验证了有效性和先进性。

4.方法流程图

结论与展望

与现有方法主要关注训练策略和自有数据特征不同,该研究工作首次将通用语言和视觉模态大模型引入解决长尾训练问题,利用大模型强大的表征能力和丰富的知识积累,有效扩充训练样本,缓解长尾分布带来的负面影响,最终取得良好效果。该工作为解决长尾问题提供了一种新的视角,为相关研究方向开启了新的研究思路,得到了评阅人和领域专家的高度认可。

该论文第一作者为信息学院21级博士生赵启浩,共同一作与第二作者为信息学院18级本科毕业生戴雅伦与李昊,张帆教授、胡伟副教授指导,并与新加坡科技设计大学刘俊教授合作完成,北京化工大学为第一完成单位。

论文链接https://ltgccode.github.io


通讯作者简介

  张帆,北京化工大学信息学院/人工智能中心教授,校学位委员会委员,中国电子学会/IEEE高级会员。2010年加入北京化工大学工作至今,期间赴美国伊利诺伊大学香槟分校、德国德累斯顿工业大学访问学习,主要研究方向为遥感图像处理、人工智能等,主持国家自然科学基金等项目30余项,在ISPRS P&RSIEEE TGRSCVPRICCV等期刊会议发表学术论文100余篇,总引用5000余次。荣获北京市自然科学二等奖、北京化工大学青年教学名师奖。