1月21日,International Conference on Learning Representations(ICLR 2023)公布录取结果,我院张帆教授课题组一篇论文入选。该论文为视觉图像数据增强方向做出了创新贡献。
论文信息:Qihao Zhao, Yangyu Huang, Wei Hu, Fan Zhang, Jun Liu,“MixPro: Data Augmentation with MaskMix and Progressive Attention Labeling for Vision Transformer (International Conference on Learning Representations 2023) ”
近年来,基于Vision Transformers(ViTs)的方法在各类视觉任务上取得了最先进的性能,并且正在成为不同任务的主流架构,这也对数据增强技术提出了更高要求。以往的数据增强方法主要针对卷积网络设计,很少有工作专门针对于ViTs。本文中,我们提出了一种新的方法,即MixPro。它引入了更加全局友好的补丁级混合图像和一种新的渐进式标签分配方案,解决了以往方法在ViTs上做混合图像时的问题(例如,混合图像缺少全局信息,标签配比不准确等)。得益于MixPro的轻量级设计,它可以很容易地在ViT中实现,并且有效提高基于ViTs方法的性能。
国际表征学习大会(International Conference on Learning Representations,简称ICLR)是人工智能领域的顶级会议,会议将于5月1日至5日在卢旺达首都基加利举办。ICLR在2022年 Google Scholar公布的学术期刊会议影响力排名中,位列所有学科期刊/会议中第9名,在计算机学科期刊会议中仅次于CVPR。
该论文第一作者为信息学院博士生赵启浩,张帆教授、胡伟副教授指导,并与微软亚洲研究院、新加坡科技设计大学合作完成,北京化工大学为第一完成单位。该工作得到了国家自然科学基金等项目的资助。