AVFormer:将视觉注入冻结的语音模型,实现零样本AV-ASR 译者 | 崔皓 审校 | 重楼 摘要 Google Research的研究科学家Arsha Nagrani和Paul Hongsuck Seo介绍了一种名为AVFormer的新技术,该技术将视觉理解能... 人工智能# 自动语音识别 2年前340