ICASSP(英文全称International Conference on Acoustics, Speech and Signal Processing)即国际声学、语音与信号处理会议,是全世界最大的,也是最全面的信号处理及其应用方面的顶级会议。它涵盖了音频和声学信号处理,图像、视频和多维信号处理,物联网的信号处理等多个方向,是中国计算机学会CCF推荐的B类会议。ICASSP2021拟于今年6月6日至11日在加拿大多伦举行,受疫情影响,暂改为线上举行。
信息科学与工程学院(网络空间安全学院)共有四篇论文被ICASSP 2021录用,表明我院师生对高水平国际会议论文发表和学术交流关注度的提升,标志着我院在该研究领域的人才培养、科学研究和国际交流合作在“双一流”建设新的突破。
论文1:《BIDIRECTIONAL FOCUSED SEMANTIC ALIGNMENT ATTENTION NETWORK FOR CROSS-MODAL RETRIEVAL》
《双向聚集语义对齐注意力网络的跨模态检索》
(程述立,汪烈军*,杜安钰,李永明)
论文由2018级计算机系博士研究生程述立在电子系汪烈军教授指导下完成。跨模态检索是一项极具挑战而意义重大的工作,存在的大多数注意力机制平等地考虑所有的语义,从而将它们统一起来,而不考虑它们的多样复杂性。事实上,语义是多样化的(即涉及不同种类的语义概念),而人类通常遵循一种隐式结构将它们组合成可理解的语言。为了进一步准确地捕获多模态语义信息,一种双向聚集语义对齐注意力网络(BFSAAN)被提出来处理跨模态检索任务。BFSAAN的核心思想如下:1)采用双向聚集注意力机制共享模态语义信息,进一步消除了不相关语义信息的负面影响。2)条带池化应用于图像和文本模态,这是一种轻量级的空间注意机制,用于捕获模态空间语义信息。3)探索了二阶协方差池,以获取多模态语义表示,捕获模态通道语义信息并实现图像-文本模态之间的语义对齐。实验验证:在跨模态检索数据集(Flickr30K和MS COCO)中,BFSAAN检索性能优于当前主流的跨模态检索算法性能。
论文2:《A SECURE SEARCHABLE IMAGE RETRIEVAL SCHEME WITH CORRECT RETRIEVAL IDENTITY》
《具有正确检索身份的安全可搜索图像检索方案》
(汪烈军*,于海涛)
该论文由信息科学与工程学院汪烈军教授完成。可搜索加密是数据库安全领域重要研究内容。基于内容的图像检索是相对成熟的技术领域,在工业界也有广泛的应用场景,如搜索引擎(Google、百度)的以图搜图功能,各电商网站(淘宝、Amazon、ebay)的相似商品搜索,社交平台(Pinterest)的相似内容推荐等。但是在某些应用中,已经暴露出对用户图像的隐私保护不足的现象。针对用户隐私问题,论文提出了一种具有正确检索身份的安全可检索图像检索方案。方案使用椭圆曲线密码学来实现实体身份的识别,基于局部敏感哈希函数构造预过滤表,以优化检索效率。实验结果表明,方案可以很好地保护图像数据的统计信息,并且可以正确识别系统中的实体身份。除此之外,携带预过滤表的隐私保护方案,其检索效率优于原始方案的检索效率。
论文3:How to Use Time Information Effectively? Combining withTime Shift Module for Lipreading
《如何有效的使用时间信息?利用时间移位模块来唇语识别》
(郝名峰,木特力甫·马木提,努尔毕亚·亚地卡尔,阿力木江·艾沙,库尔班•吾布力*)
该论文为2018级信息与通信工程专业硕士生郝名峰在电子科学系库尔班•吾布力教授指导下完成。唇语识别是指在没有语音信号的基础上通过唇部运动的图片序列来识别出说话人的说话内容。在本文中,结合通过时间移位模块沿时间维度移动特征图的部分通道来增强模型的短期时间特征提取能力,并分别讨论了图像序列采样间隔、特征图移位比例和移位的帧数对模型识别结果的影响。实验证明了时间移位模块的有效性,并在公共数据集上优于现有的具有代表性的模型。
论文4:《ENCODER-DECODER BASED PITCH TRACKING AND JOINT MODEL TRAINING FOR MANDARIN TONE CLASSIFICATION》
《基于编码器-解码器的基频提取与联合训练的声调分类方法》
(黄浩*,王凯,胡英,李声)
该论文由计算机系黄浩教授联合日本国立信息与计算技术研究所(NICT)李声博士共同完成。该论文寻求了一个方法上可解释的深度基频跟踪模型,并将其应用于联合训练的声调模型来进行汉语声调分类。目前基于深度学习的基音模型结构很少考虑基音跟踪算法中的Viterbi解码环节。在分析RAPT算法的基础上,提出了一种基于RNN的门控机制的编码器-解码器框架,该框架对RAPT算法实现的状态代价估计和Viterbi回溯过程进行了底层建模。论文将该基音提取模型应用到一个下游的汉语声调分类任务中。其基本动机是将两个传统的声调分类组件(即基音提取器和声调分类器)结合起来,然后以端到端的方式同时对整个网络进行训练。评价了各种级联方法。在普通话连续语音数据库上进行了基音提取和声调分类实验,验证了所提模型的优越性。