Xmart学生论坛
第十四期 王远程:Towards Natural and Efficient Speech Synthesis: Perspectives on Modeling, Alignment, and Representation
第十三期 杨东超:Towards Multi-task Audio Foundation Models: An Audio Generation Perspective
第十二期 周俊佐、任勇:语音的可溯源保护:音频水印研究
第十一期 季圣鹏:端到端语音对话时代的机遇和挑战
第十期 袁锐斌:Scaling Open Foundation Models for Music
第九期 张绍磊:迈向实时跨语言沟通:实时语音模型的挑战、技术和未来
第八期 肖俊斌、李磊磊:面向第一视角的问题研究与展望
第七期 郭子睿:从检索增强生成到图增强生成:探索新一代智能问答系统
第六期 刘濠赫:Latent Diffusion Model as a Versatile Coarse-to-Fine Audio Decoder
第五期 谢天宝:OSWorld:在真实计算机环境中对开放式任务进行多模态智能体基准测试
第四期 胡宇晨:语音大模型的后训练对齐
第三期 敖君逸:SD-Eval 新基准,让语音交互大模型情智兼备
第二期 邓克琦:Label-synchronous Neural Transducer
第一期 张栋:构造端到端语音对话大模型
Xmart 前沿讲坛
第七期 许可乐:面向声音理解的多模态机器学习
第六期 卢策吾:具身智能 scaling law 与可规模化数据
第五期 王文武:大型语言-音频模型及其应用
第四期 邱锡鹏:从大语言模型到世界模型
第三期 符天凡:深度学习在药物发现和开发中的应用
第二期 李宏毅:将新技能教给基础模型的挑战
第一期 王昊奋:知识检索增强:范式与关键技术