实验室博士生提出零样本学习方法在模式识别领域国际顶级期刊TPAMI发表

2023-01-10 13:17:46

    实验室最新研究成果“TransZero++:Cross Attribute-Guided Transformer for Zero-Shot Learning”发表在人工智能领域国际期刊IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI,影响因子为24.314)。论文第一作者为电信学院2019级博士生陈使明,导师为尤新革教授。


    模仿人对新事物的认知过程,零样本学习(Zero-shot learning,ZSL)使得机器学习模型能够从已知类泛化到未见类,其通过将语义知识从已知类泛化到未知类拟解决新类识别问题。语义知识通常由不同类之间共享的属性描述等辅助信息来表示,从而促使零样本学习进行有效的视觉-语义交互达到从未知类到已知类泛化的目的。零样本学习作为基本的学习任务,在多个下游任务中均有相应场景需求,如分类、检索、分割、检测等。在现实生活中的新事物识别、自动驾驶新场景认知、新型军事装备目标打击等方面具有广泛应用前景。


    在该论文中,作者针对零样本学习的视觉-语义的表示不一致性问题,提出了一种基于跨属性指导的Transformer模型(简称TransZero++),对全局视觉特征进行增强、定位局部属性增强视觉特征的语义表示、充分挖掘高置信度的语义属性增强视觉-语义嵌入,从而实现有效的语义知识迁移。大量实验表明,TransZero++在多个主流的ZSL基准测试集上取得了领先的性能。

    TransZero++模型框架图

    

    在尤新革教授的指导下,陈使明针对零样本学习中的跨数据集偏差、视觉-语义的表示差异性、视觉-语义的异构性等问题,分别提出基于特征增强的零样本学习(FREE,ViFR,GNDAN)、基于视觉-属性的关键公共语义知识的零样本学习(TransZero,MSDN,TransZero++)和基于层次语义-视觉适应的零样本学习(HSVA)等系统方法,在多个公开数据集上的实验结果表明所提出方法均取得了显著的性能提升,验证了所提出方法的有效性,为后续零样本学习研究提供了有效的支撑,受到国内外同行的广泛关注。


    据了解,陈使明已在NeurIPS/CVPR/ICCV/AAA/IJCAI/TPAMI/TNNLS等人工智能领域CCF-A类会议和权威期刊上发表论文10余篇,受邀为多个公众号(如AI TIME、AI新青年、AI Drive、VALSE等)做相关内容的学术分享,并获得华为终端“学术之星”、CCF优秀大学生学术秀、国家奖学金等奖项。