王凯-计算机科学与技术学院

王凯

发布者: 发布时间：2025-04-07 浏览次数：

王凯

博士、硕士生导师

研究领域：语音与智能信息处理，包括语音分离、语音增强、语音生成、深度学习

办公室＆实验室：

电子邮件：wangkai@xju.edu.cn

联系电话：

教育背景

2000年9月至2004年6月，于华中科技大学通信工程专业获得工学学士学位。
2005年9月至2007年6月，于华中科技大学模式识别与智能系统专业获得工学硕士学位。
2019年9月至2023年12月，于新疆大学计算机科学与技术学院获得工学博士学位。

工作简历

2024年1月至今，新疆大学计算机科学与技术学院从事教学和研究工作。
2007年7月至2019年9月，于中兴通讯、鼎桥通信等公司从事无线通信产品交付和海外培训等工作。

主持或参与项目

国家自然科学基金委员会, 地区科学基金项目, 62466055, 基于信息解耦的多语言语音识别建模单元发现与对齐方法研究, 2025-01-01 至 2028-12-31, 在研, 参与
新疆广电网络语音智能审核平台项目，横向项目，2021年10月-2022年10月，已结题，参加。
复杂声学场景下的语音内容审核关键技术研究，新疆多语种信息技术实验室开放课题，2021年1月-2023年12月，已结题，参加。

学术成果

K. Wang, C. Zhu, L. Yin, S. Li, M. Mansurova and H. Huang, "Neural TTS-Based Dynamic Data Augmentation for Improved Speech Separation," in IEEE Transactions on Audio, Speech and Language Processing, vol. 33, pp. 2457-2470, 2025,
Wu D, Jiang L, Yin L, Wang K, Huang H, Dual Level Intent-Slot Interaction for Improved Multi-Intent Spoken Language Understanding[C]//ICASSP 2024-2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2024: 12301-12305.
Lai S, He M, Zhao Z, Wang K, Huang H, Yang J, Synthesizing Long-Form Speech merely from Sentence-Level Corpus with Content Extrapolation and LLMContextual Enrichment[C]//Interspeech. 2024
Wang K , Liu J , Huang P H .Neural RAPT: deep learning-based pitch tracking with prior algorithmic knowledge instillation[J].International journal of speech technology, 2023, 26(4):999-1015.
Wang Kai, Yang Yuhang, Huang Hao, Hu Ying, Li Sheng. Speakeraugment: Data Augmentation for Generalizable Source Separation via Speaker Parameter Manipulation[C]//International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2023: 1-5.
Wang Kai, Peng Yizhou, Huang Hao, Hu Ying, Li Sheng. Mining hard samples locally and globally for improved speech separation[C]//International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2022: 6037-6041.
王凯, 李鸣鹤, 黄志华, 黄浩. 基于时域的基频感知语音分离方法[J]. 新疆大学学报：自然科学版(中英文), 2022(039-002).
Wang Kai, Huang Hao, Hu Ying, Huang Zhihua, Li Sheng. End-to-End Speech Separation Using Orthogonal Representation in Complex and Real Time-Frequency Domain[C]//Interspeech. 2021: 3046-3050.
Huang Hao, Wang Kai, Hu Ying, Li Sheng. Encoder-decoder based pitch tracking and joint model training for Mandarin tone classification[C] //International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021: 6943-6947.