把手机举到耳边就能实时翻译:Google把70种语言塞进了你的电话

Google Translate刚上线的时候,你把一句话敲进去,等两秒,它给你吐出来一段有时候对有时候不对的文字翻译。二十年过去,Google的翻译引擎已经每个月为几十亿用户处理超过一万亿个单词。现在他们想把「实时语音翻译」也做成每个人随手就能用的东西。

不等你说完就开始翻

Gemini 3.5 Live Translate是Google最新的语音翻译模型,支持70多种语言。最关键的部分是:它不像老一代翻译App那样等你把一句话说完才开工。它是连续生成的,边听边翻,延迟只有几秒钟,语气和节奏都尽量贴合说话的人。

Google Gemini 3.5 Live Translate实时翻译概念图
把手机举到耳边,就像接电话一样听翻译 (图片:AI生成)

最有趣的功能是Android上的「聆听模式」:你把手机举到耳边,就像接电话一样,翻译好的语音就从听筒里直接出来。不用戴耳机,也不用举着手机让别人看到屏幕。Google说这个功能在你想快速听翻译、又不想让别人听见的时候特别有用——比如在国外旅游听到导游讲解,或者在异国他乡的商店里和店主砍价。

「只需把手机举到耳边,就像一通普通电话,翻译好的语音就直接流进你的耳朵。」

从5种语言到70种

Google Meet也在用这个模型。以前Meet的翻译功能只支持5种语言,而且只能译成英文或者从英文译出。现在换成3.5 Live Translate之后,一口气的70多种语言、2000多种语言组合都能在会议里实时互译。这个功能这个月开始向部分企业Google Workspace客户开放私测。

Grab也在测试这个模型。他们平台上每个月有超过1000万通语音通话,主要是司机和乘客之间的。两边经常说不同的语言,实时翻译能直接帮上忙。

所有生成的语音都打了SynthID水印——这是Google开发的一种几乎听不出来的音频水印,用来标记这段内容是AI生成的,防止被人拿来造谣。

在哪里能用?

  • Google Translate App(Android和iOS)——已全球推送
  • Gemini Live API —— 开发者公测版
  • Google Meet —— 部分企业客户私测中
  • Android「聆听模式」—— 正在逐步推送

这篇文章其实没什么深奥的道理可讲。就是Google把一样东西做得更好、更顺手了。你要真想知道它翻译得准不准,最好的办法是找个说外语的朋友,面对面试试。


📎 原文来源:Google Blog – Gemini 3.5 Live Translate is here | The Verge 报道

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注