信息学院硕士生连续发表CCF-A论文

时间:2025-05-15浏览:10

北京化工大学信息学院22级硕士生苏雨航在音乐智能检索方向再次取得突破,继以第一作者身份在CCF-A级会议ACM Multimedia 2024发表论文音频检索方法AMG-Embedding后,其最新研究成果MIDI-Zero又被CCF-A级会议ACM SIGIR 2025接收。短短一年内连续在国际顶级学术会议发表论文,展示了苏雨航同学优秀的科研创新能力,以及信息学院在AI音乐检索领域的科研实力与人才培养水平。两篇论文的指导教师均为胡伟副教授和张帆教授。

MIDI-ZeroA MIDI-driven Self-Supervised Learning Approach for Music Retrieval

MIDI-Zero是一项全新的自监督学习框架,专注于音乐内容检索,涵盖音频识别、音频匹配和版本识别等核心子任务。与传统方法依赖音频信号或频谱图提取特征不同,MIDI-Zero完全基于MIDI表示运行。其最大亮点在于无需外部训练数据,所有训练数据根据预定义任务规则自动生成,彻底摆脱了对标注数据集或外部音乐库的依赖。MIDI-Zero不仅适用于符号音乐数据,还能通过音乐转录模型无缝处理音频任务。大量实验表明,MIDI-Zero在多项CBMR子任务中均取得优异表现。这一创新方法简化了特征提取流程,成功弥合了音频与符号音乐表示之间的差距,为音乐检索提供了灵活且高效的解决方案。

AMG-Embeddinga Self-Supervised Embedding Approach for Audio Identification

AMG-Embedding聚焦音频检索任务,旨在通过短音频片段从海量音乐库中精准检索完全匹配的内容。传统指纹识别方法依赖大量短时固定重叠片段特征,导致存储和计算成本高昂。而AMG-Embedding通过自监督学习和两阶段嵌入过程,将可变时长非重叠片段转化为高效嵌入表示,改变了传统范式。实验结果显示,AMG-Embedding在保持与传统指纹识别方法相当检索精度的同时,将存储需求和检索时间降低至不到其1/10。这一突破显著提升了音频检索系统的可扩展性和效率。

ACM SIGIRACM Multimedia作为中国计算机学会(CCF)认定的A级会议,代表了信息检索和多媒体领域的国际最高学术水平。研究团队在短短一年内连续在两大顶级会议上发表成果,体现了他们在AI音乐检索领域的深厚技术积累和学术引领力。