YOHO AI

标签： AI缺陷

谷歌AI把Google拼错了，大语言模型的拼写死穴到底能不能修好

上周有个网友在X上发帖吐槽，说用谷歌搜索”Google”的时候，AI概览（AI Overview）给出的结果里，Google这个单词里有两个P。等等，Google里明明只有一个P啊。

这不是孤例。有人问AI”poop”里有几个R，它说有1个（实际是2个）。问”journalism”怎么拼，它给出的答案是j-o-u-r-n-a-d-i-s-m——多了一个完全不存在的D。”disregard”更离谱，AI概览直接输出了”我明白了，如果你有新的提示或问题请告诉我”，活像是把训练语料里的客服话术当成了单词释义。

谷歌通过邮件向TechCrunch回应称：”统计单词内字母数量一直是大语言模型的已知难题，我们正在努力修复这个问题。”说实话这个回应挺诚实的——他们没狡辩，也没说这是特性不是bug。

为什么AI不会拼单词

这事的根源得从Transformer架构说起。大语言模型处理文本的时候，不是逐字母读取的，它会把文本切分成一个个”token”——一个token可能是一个完整单词，也可能是一个音节，甚至单个字母。模型内部存的是这些token的数字编码，根本不知道T-H-E分别是哪几个字母。

阿尔伯塔大学的AI研究员Matthew Guzdial给TechCrunch举了个例子：当你输入单词”the”的时候，模型拿到的是”the”这个整体对应的编码，它完全不知道这个单词是由T、H、E这三个字母构成的。这就好比你认识一个人，但说不出他长什么样——你知道这个token”长什么样”，但拆不开它。

谷歌AI概览将”Google”错误拼写为两个P的截图（TechCrunch修改标注）

东北大学研究大语言模型可解释性的博士生Sheridan Feucht说得更直白：对于语言模型来说，”单词”到底是什么其实是很难界定的问题。哪怕我们让人类专家达成一个完美的token词表共识，模型可能还是觉得需要把内容拆分得更细。他猜测，由于这种模糊性，根本不存在完美的分词器。

这不是第一次，也不会是最后一次

谷歌上一次在AI搜索上翻车，还是AI概览刚上线的时候。当时它引用讽刺网站The Onion和Reddit的帖子，给出了”每天吃一块小石头””在披萨上涂胶水”这类荒谬建议，闹得沸沸扬扬。这次谷歌把整个搜索体验都改成了生成式AI驱动，是搜索产品25年来最大的一次重构，拼写错误只是暴露出来的冰山一角。

有意思的是，拼写测试已经成了AI圈的一个梗。每当有公司发布新模型，大家都会问它”strawberry里有几个R”——这个简单问题曾经难倒了所有主流模型。现在情况好多了，但Google这件事说明，哪怕模型能在几秒内写出一整个应用，或者解决困扰数学家几十年的难题，拼写能力还是和幼儿园小朋友差不多。

研究人员并不乐观认为这个问题能被彻底解决。但换个角度想，大语言模型的价值本来也不在拼写能力上。这些明显的低级错误反而是个好事——它提醒我们，AI并不完美，哪怕它有时候看起来全知全能。用AI输出结果之前，二次核对准确性这件事，永远不能省。

📎 原文来源：Why Google’s AI can’t spell Google (or anything else) — TechCrunch

2026年5月31日

标签： AI缺陷

谷歌AI把Google拼错了，大语言模型的拼写死穴到底能不能修好

为什么AI不会拼单词

这不是第一次，也不会是最后一次