Google把AI翻译做到极致了:Gemini 3.5 Live Translate支持70+种语言实时互译

Google把AI翻译做到极致了:Gemini 3.5 Live Translate支持70+种语言实时互译

跨语言沟通一直是人类的梦想。从古代的翻译官,到现代的词典软件,再到AI翻译工具,我们一直在寻找能让人和人之间无障碍交流的方法。Google最早在2006年推出Google Translate,用机器学习做语言翻译。二十年过去,Google现在发布了Gemini 3.5 Live Translate,一个专门为实时语音到语音翻译设计的音频模型。

Gemini 3.5 Live Translate是什么?

简单说,它是一个能实时把一种语言翻译成另一种语言,并且用说话人自己的音色、语调、语速讲出来的AI模型。不是那种机械的合成音,而是听起来很像真人说话的翻译。

Google说这个模型采用了一种”动态处理方式”。传统的轮流式翻译系统通常要等说话者说完后才开始翻译,这导致对话中经常出现尴尬的停顿。Gemini 3.5 Live Translate通过智能地平衡上下文优化与即时输出的需求,将翻译延迟控制在数秒内,减少了对话中的中断感。

Gemini 3.5 Live Translate实时翻译展示
Gemini 3.5 Live Translate实现低延迟实时语音互译

70+种语言,保留说话人音色

这个模型目前支持超过70种语言的自动识别和翻译。更重要的是,它不仅能生成自然流畅的翻译语音,还能精准还原说话者的语调、语速和音高特征。

这意味着什么?如果你用英语说话,AI翻译成日语后,不是说日语的”AI机器人”,而是用你自己的”声音特点”说日语。听的人会觉得”哦,他虽然在说日语,但我能感觉到这是他在说话”。

这种能力背后是Google在语音克隆和音色保留技术上的积累。当然,Google也说这个技术目前还在优化中,不是所有语言对都能做到完美的音色保留。


低延迟实时翻译,让跨语言对话更自然

实时翻译的最大挑战不是”翻译得准不准”,而是”翻译得快不快”。如果每次说话都要等三秒钟才能让对方听到翻译,那对话的流畅感就全毁了。

Gemini 3.5 Live Translate的突破在于它能在”翻译质量”和”响应速度”之间找到平衡点。Google说它的延迟是”数秒内”,这意味着在实际对话中,你不会感觉到明显的卡顿。

技术上,这得益于Gemini系列的强大多模态能力。它能同时处理音频输入、语义理解、跨语言转换、语音生成等多个步骤,而且是在一个端到端的模型中完成的,不需要把任务拆分成多个独立模块。


应用场景——从国际会议到旅行沟通

Google已经宣布把这个技术集成到Google Meet中。想象一下:一个视频会议,里面有说英语、中文、日语、西班牙语的参与者。每个人说自己的语言,其他人能实时听到用自己语言翻译的内容,而且延迟很低,对话能自然进行。

除了会议场景,这个技术对旅行者也很有用。假如你去日本旅游,不会说日语,但有了支持Gemini 3.5 Live Translate的工具,你可以直接和餐厅服务员、出租车司机、酒店前台对话,AI会实时帮你翻译。

当然,目前这个技术还在早期阶段。Google说它会逐步向更多用户开放,首先在Pixel设备和Android系统中上线,然后再推广到iOS和其他平台。

AI翻译这几年进步很快。从最早的基于词典的逐词翻译,到神经机器翻译(NMT),再到现在的大语言模型驱动的实时语音互译,我们离《银河系漫游指南》里的”巴别鱼”(一种能实时翻译任何语言的生物)越来越近了。Gemini 3.5 Live Translate不一定是最完美的AI翻译工具,但它代表了这个领域的一个新里程碑。

📎 原文来源:Google DeepMind – Gemini 3.5 Audio (Live Translate)

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注