我院研究生团队在计算机视觉与多媒体领域取得突破性成果
时间: 2025-02-28 发布者: 吴庭芳 文章来源: 审核人: 刘纯平、李恩秀 浏览次数: 10

近日,我院机器学习与图像分析研究中心研究生团队在计算机视觉与多媒体领域连续取得突破性成果,两篇高水平论文分别被国际顶级会议CVPR 2025ACM MM 2024接收,相关技术成果在产业应用与国际竞赛中表现亮眼,彰显了研究中心在学术创新与实践落地中的双重优势。


CVPR 2025:零样本场景图生成新突破

中心2023级研究生黄文焕同学的论文《Navigating the Unseen: Zero-shot Scene Graph Generation via Capsule-Based Equivariant Features》被CVPR 2025正式接收。CVPR是计算机视觉与模式识别领域历史最悠久、影响力最大的国际顶级会议(CCF-A类),本届会议共收到13008篇投稿,录用率仅为22.1%。

论文针对零样本场景图生成(Zero-shot SGG)任务中未见谓词预测的难题,创新性地提出基于胶囊网络的等变特征框架CAPSGG。该框架通过三流管道(Three-Stream Pipeline)与GroupLoss损失函数,有效提升模型对未知谓词的组合泛化能力,在多项标准指标中实现显著性能提升,为零样本场景理解提供了全新解决方案。


ACM MM 2024:复杂场景文本识别技术落地B站业务

由硕士研究生乔谦(第一作者)、访问学生谢彧(共同一作)与樊佳庆教授(通讯作者)联合bilibili人工智能平台完成的论文《DNTextSpotter: Arbitrary-Shaped Scene Text Spotting via Improved Denoising Training》被ACM MM 2024接收。ACM MM是多媒体及多模态领域的国际顶级会议,也是中国计算机学会收录的计算机图形学与多媒体领域A类会议(CCF-A)。

论文提出了一种创新的降噪训练策略,显著提升了复杂场景下的文本识别鲁棒性。该技术已在bilibili平台实现落地应用:

低质量视频和图片处理:针对bilibili用户上传的低质量视频或图片进行文字识别,特别是在视频压缩、画质模糊、噪声较大的情况下,模型仍能准确识别文本内容。这对于处理用户生成内容(UGC)或低分辨率视频非常有价值。

恶劣环境下的文本识别:在视频拍摄于光线不足、天气恶劣(如雨天、雪天)、或有较多背景噪声(如霓虹灯干扰、图案复杂背景)的情况下,模型依然能有效地识别文本信息。这有助于提升用户在各种场景下的视频体验。

这些场景不仅能展现出此方案在复杂、高强度任务中的出色表现,还能为bilibili平台带来更多创新的应用和商业机会,进一步提升用户体验和平台竞争力。

与此同时,本文提出的模型架构在ICDAR 2024历史地图文字识别比赛中斩获三项第一、一项第二的比赛成绩,在三项第一的任务中,性能上大幅度领先第二名。使得模型的能力得到充分的验证。ICDAR比赛是国际公认的文字领域权威的比赛,文字领域顶会论文里的数据测评和测评指标往往都来源于ICDAR比赛的数据和指标。ICDAR竞赛因其极高的技术难度和强大的实用性享誉国内外,与赛后非正式刷榜不同,ICDAR官方认证的正式竞赛采用全新的数据集,并且在比赛期间不公布参赛团队的信息和成绩,同时限制了结果提交时间和次数,是一项较高难度的“盲打”比赛。