🎬视频

观看以往的讲座、课程和演讲视频。

Xmart学生论坛

第十五期丁翰林：用于通用音频理解的可扩展方法

第十四期王远程：Towards Natural and Efficient Speech Synthesis: Perspectives on Modeling, Alignment, and Representation

第十三期杨东超：Towards Multi-task Audio Foundation Models: An Audio Generation Perspective

第十二期周俊佐、任勇：语音的可溯源保护：音频水印研究

第十一期季圣鹏：端到端语音对话时代的机遇和挑战

第十期袁锐斌：Scaling Open Foundation Models for Music

第九期张绍磊：迈向实时跨语言沟通：实时语音模型的挑战、技术和未来

第八期肖俊斌、李磊磊：面向第一视角的问题研究与展望

第七期郭子睿：从检索增强生成到图增强生成：探索新一代智能问答系统

第六期刘濠赫：Latent Diffusion Model as a Versatile Coarse-to-Fine Audio Decoder

第五期谢天宝：OSWorld：在真实计算机环境中对开放式任务进行多模态智能体基准测试

第四期胡宇晨：语音大模型的后训练对齐

第三期敖君逸：SD-Eval 新基准，让语音交互大模型情智兼备

第二期邓克琦：Label-synchronous Neural Transducer

第一期张栋：构造端到端语音对话大模型

Xmart 前沿讲坛

第七期许可乐：面向声音理解的多模态机器学习

第六期卢策吾：具身智能 scaling law 与可规模化数据

第五期王文武：大型语言-音频模型及其应用

第四期邱锡鹏：从大语言模型到世界模型

第三期符天凡：深度学习在药物发现和开发中的应用

第二期李宏毅：将新技能教给基础模型的挑战

第一期王昊奋：知识检索增强：范式与关键技术