EN
学术报告
推理时缩放:赋能基础多模态生成模型
发布时间:2025-12-29        浏览次数:10

报告题目:推理时缩放:赋能基础多模态生成模型

报告简介:

本报告将探讨推理时缩放(Inference-time Scaling)在基础多模态生成模型中的核心价值与应用潜力,为构建新一代高性能、高可靠的基础多模态系统提供启发。随着大模型研究进入后训练时代,通过在推理阶段引入搜索算法、验证器重采样及多模态思维链(CoT)等策略来增强计算量,已成为提升模型智能水平的关键路径。报告将重点介绍如何利用推理侧的算力投入,促使多模态模型从直觉性的模式匹配转向深层的逻辑推理,从而显著优化复杂视觉理解、长视频生成及跨模态指令遵循等高难度任务的性能。

88.png

个人简介:

梅康夫,现任 Google DeepMind 研究员,隶属于 GenAI Veo 视频生成团队。博士毕业于约翰霍普金斯大学电子与计算机工程系(ECE),师从 Vishal M. Patel 教授,期间专注于计算机视觉与生成模型的前沿探索。他的研究方向聚焦多模态生成式人工智能与世界模型的交叉领域,致力于构建能够模拟动态世界的AI系统,通过创造性控制能力推动更鲁棒的自主系统研发,并拓展娱乐应用边界。作为核心技术贡献者,他曾参与开发 Google 首个全设备端实时运行的扩散模型,相关研究成果已应用于多个 Google 产品线。

主持人:李俊诚 副教授

地址:理科大楼B520

时间:2025.12.30(周二)16:00-17:00

中山北路3663号理科大楼 200062

沪ICP备05003394


Copyright 2019计算机科学与技术学院