标签： AI

谷歌AI把Google拼错了，大语言模型的拼写死穴到底能不能修好

上周有个网友在X上发帖吐槽，说用谷歌搜索”Google”的时候，AI概览（AI Overview）给出的结果里，Google这个单词里有两个P。等等，Google里明明只有一个P啊。

这不是孤例。有人问AI”poop”里有几个R，它说有1个（实际是2个）。问”journalism”怎么拼，它给出的答案是j-o-u-r-n-a-d-i-s-m——多了一个完全不存在的D。”disregard”更离谱，AI概览直接输出了”我明白了，如果你有新的提示或问题请告诉我”，活像是把训练语料里的客服话术当成了单词释义。

谷歌通过邮件向TechCrunch回应称：”统计单词内字母数量一直是大语言模型的已知难题，我们正在努力修复这个问题。”说实话这个回应挺诚实的——他们没狡辩，也没说这是特性不是bug。

为什么AI不会拼单词

这事的根源得从Transformer架构说起。大语言模型处理文本的时候，不是逐字母读取的，它会把文本切分成一个个”token”——一个token可能是一个完整单词，也可能是一个音节，甚至单个字母。模型内部存的是这些token的数字编码，根本不知道T-H-E分别是哪几个字母。

阿尔伯塔大学的AI研究员Matthew Guzdial给TechCrunch举了个例子：当你输入单词”the”的时候，模型拿到的是”the”这个整体对应的编码，它完全不知道这个单词是由T、H、E这三个字母构成的。这就好比你认识一个人，但说不出他长什么样——你知道这个token”长什么样”，但拆不开它。

谷歌AI概览将”Google”错误拼写为两个P的截图（TechCrunch修改标注）

东北大学研究大语言模型可解释性的博士生Sheridan Feucht说得更直白：对于语言模型来说，”单词”到底是什么其实是很难界定的问题。哪怕我们让人类专家达成一个完美的token词表共识，模型可能还是觉得需要把内容拆分得更细。他猜测，由于这种模糊性，根本不存在完美的分词器。

这不是第一次，也不会是最后一次

谷歌上一次在AI搜索上翻车，还是AI概览刚上线的时候。当时它引用讽刺网站The Onion和Reddit的帖子，给出了”每天吃一块小石头””在披萨上涂胶水”这类荒谬建议，闹得沸沸扬扬。这次谷歌把整个搜索体验都改成了生成式AI驱动，是搜索产品25年来最大的一次重构，拼写错误只是暴露出来的冰山一角。

有意思的是，拼写测试已经成了AI圈的一个梗。每当有公司发布新模型，大家都会问它”strawberry里有几个R”——这个简单问题曾经难倒了所有主流模型。现在情况好多了，但Google这件事说明，哪怕模型能在几秒内写出一整个应用，或者解决困扰数学家几十年的难题，拼写能力还是和幼儿园小朋友差不多。

研究人员并不乐观认为这个问题能被彻底解决。但换个角度想，大语言模型的价值本来也不在拼写能力上。这些明显的低级错误反而是个好事——它提醒我们，AI并不完美，哪怕它有时候看起来全知全能。用AI输出结果之前，二次核对准确性这件事，永远不能省。

📎 原文来源：Why Google’s AI can’t spell Google (or anything else) — TechCrunch

2026年5月31日
LLMs-from-scratch：96.3K Stars！从零手写大模型，彻底搞懂LLM底层原理
《Build a Large Language Model (From Scratch)》书籍封面

📌 项目简介

LLMs-from-scratch 是 Sebastian Raschka 所著《Build a Large Language Model (From Scratch)》一书的官方代码仓库，带你从零开始用 PyTorch 手写实现类 GPT 大语言模型，覆盖数据处理、注意力机制、GPT 架构、预训练、微调全流程，是搞懂 LLM 底层原理的最佳实战项目。

⚙️ 安装要求与过程
环境要求
- Python 3.8+，具备扎实的 Python 编程基础
- PyTorch 基础（零基础可参考附录 A 的 PyTorch 入门教程）
- 硬件：主章节代码可在普通笔记本运行，支持自动检测并使用 GPU 加速
- 深度神经网络基础有助于理解，但不是硬性要求
快速安装步骤
```
# 1. 克隆仓库（只拉取最新版本，减少下载量）
git clone --depth 1 https://github.com/rasbt/LLMs-from-scratch.git

# 2. 进入目录
cd LLMs-from-scratch

# 3. 安装依赖
pip install -r requirements.txt

# 4. （可选）安装 Jupyter Notebook
pip install jupyter

# 5. 启动 Notebook，按章节运行代码
jupyter notebook
```
📌 如果你从 Manning 官网下载了代码包，建议前往 GitHub 官方仓库获取最新更新。
✨ 核心功能

🧠 从零实现注意力机制

手写实现单头/多头自注意力（Self-Attention）机制，深入理解 Query/Key/Value 的数学原理，不依赖任何高层封装库。

🏗️ 完整 GPT 架构实现

从词嵌入、位置编码到 Transformer 解码器块，完整实现 GPT 模型架构，代码逐行对照论文，透明可调试。

🔥 预训练与微调全流程

覆盖无标注数据预训练、文本分类微调、指令遵循微调（SFT）完整流程，附带可运行的训练脚本。

🚀 主流模型权重加载

支持加载 Llama 3.2、Qwen3、Gemma 3、OLMo 3 等主流开源模型的预训练权重进行微调与推理。

📚 附录与扩展内容

包含 PyTorch 分布式训练（DDP）入门、LoRA 高效微调实现、分组查询注意力（GQA）、MoE 混合专家架构等进阶内容，一书在手，LLM 技术栈全覆盖。

🎯 典型使用场景

场景一：系统学习 LLM 底层原理

不看封装库黑盒，从张量运算级别理解 Transformer 和 GPT。每章配有练习和解答，适合有一定 Python 基础、想深入 LLM 原理的开发者系统学习。可搭配书籍《Build a Large Language Model (From Scratch)》一起使用，理解更透彻。

场景二：在自己的数据上训练定制 LLM

参考第 5 章的预训练代码，基于自定义数据集训练专属小模型；或参考第 7 章的指令微调代码，用开源指令数据集微调模型，使其具备遵循指令的能力，用于垂直领域应用。

场景三：作为 LLM 课程的配套实践材料

本书配有 17 小时 15 分钟的官方视频教程，章节结构清晰，练习册《Test Yourself On Build a Large Language Model》可用来自测掌握程度，非常适合作为高校课程、企业内训或自学小组的配套实践材料。

💡 推荐理由

我第一次翻开这本书的代码时，有一种「原来 GPT 是这样工作的」的恍然大悟感。

大多数 LLM 教程要么停留在概念层面，要么直接调用 transformers 库，黑盒到底。而 LLMs-from-scratch 选择了一条更难但更有价值的路：从张量运算级别手写实现，不依赖任何高层封装。

我最喜欢的是第 4 章实现 GPT 模型那部分——当你亲手写出 self.attn = MultiHeadAttention(...) 和 self.ln = LayerNorm(...) 并成功跑通时，那种「我理解了」的满足感是任何调用封装库都给不了的。

作者 Sebastian Raschka 是 LLM 领域的顶级教育者，Lightning AI 的 LLM 负责人，写书风格非常「工程师友好」——没有冗余的数学推导，每一行代码都能跑，每一章都有配套练习。

如果你是想深入 LLM 原理的开发者、研究者，或正在准备 LLM 相关技术面试，这个项目绝对值得你花时间从头到尾跟一遍。96.3K 的 Star 数不是偶然，是工程师们用脚投票的结果。

📥 下载地址

🔗 GitHub 仓库

https://github.com/rasbt/LLMs-from-scratch

访问 GitHub →

📘 配套书籍

《Build a Large Language Model (From Scratch)》
Manning 出版，ISBN 978-1633437166

Amazon 购买 →

🎬 配套视频教程（17h15min）

Manning LiveVideo：Master and Build Large Language Models

观看视频 →

📌 小提示：本项目是《Build a Large Language Model (From Scratch)》的官方配套代码，建议配合书籍一起学习，理解效果最佳。书籍附录 A 还提供了 PyTorch 入门教程，适合 PyTorch 零基础读者补基础。
2026年5月31日
微软正在打造AI超级应用——把Copilot全家桶装进一个入口

据《财富》杂志报道，微软正在开发一款AI”超级应用”——把现在散落在各处的AI能力全部整合到同一个入口。具体来说，这款应用会把GitHub Copilot、Copilot聊天机器人、Copilot Cowork，以及一个内部代号为”Autopilot”的新智能体工作流能力，全部塞进一个App里。

这个思路听起来很熟悉，对吧？OpenAI已经在走这条路了——把对话、搜索、代码、智能体编排全部整合进ChatGPT，让它成为一个真正的”超级应用”入口。现在微软想做同样的事，只不过依托的是自己整个Copilot产品线。

微软的打法其实很清晰：它拥有全链路的产品布局——从代码编辑器里的Copilot，到Microsoft 365里的Copilot，再到独立发布的Copilot Cowork智能体平台。唯一缺的就是一个把它们串起来的”总控制台”。

可能在Build大会上亮相

《财富》的报道推测，这款超级应用可能会在近期举办的Microsoft Build开发者大会上亮相。Build是微软每年最重要的开发者活动，通常是发布重磅AI战略更新的场合。如果这款产品真的在Build上出现，基本等于微软官方确认了”超级应用”战略。

值得一提的是，微软过去一年在Copilot品牌上投入极大，但用户体验一直是碎片化状态——写代码要用GitHub Copilot，处理文档要用Microsoft 365 Copilot，管理智能体工作流要用Copilot Cowork，三者之间的数据和上下文并不打通。这款超级应用如果成真，最直接的价值就是解决这个问题。

和OpenAI的超级应用有什么不同？

OpenAI的”超级应用”路线是围绕ChatGPT构建的——所有能力都收敛到一个对话窗口里，用户跟AI交互的主要方式还是”说话”和”看结果”。微软的路线则更偏向”工作流”——它继承的是Office、Azure、GitHub这套企业生产力生态，AI超级应用更像是一个”智能工作操作系统”。

两套打法背后的逻辑不太一样。OpenAI是从消费者往上打，微软是从企业往下打。最终谁能先把”超级应用”这件事做成，很大程度上取决于谁能先把多智能体协作、跨应用上下文传递、以及企业数据安全这三个问题解决掉。

目前微软官方还没有确认这款产品的存在，按照惯例，在Build大会之前所有消息都只是传闻。但如果《财富》的报道方向是对的，这会是微软在AI应用层最重要的一次产品整合，也意味着”Copilot”作为一个独立品牌，正在从”功能”升级为”平台”。

📎 原文来源：Microsoft is reportedly working on its own AI “super app” — The Verge

2026年5月30日
互联网正在为机器重构——AI智能体正在改写整个网络基础设施

过去二十年，互联网一直是围绕人类行为设计的。人们搜索、点击、滚动、串流，这些动作有规律、可预测。但AI智能体不这么干活。它们能在几秒钟内发起一连串突发请求，同时调出十几个子智能体，疯狂查询数据库、检索文档、调用API，然后突然全部消失。这种流量模式，人类的网络基础设施从来没为它设计过。

AWS悄悄改写了搜索数据库的底层的

本周，亚马逊云科技（AWS）发布新一代OpenSearch Serverless——一个专门面向AI智能体负载设计的托管搜索和向量数据库。最核心的变化是：计算和存储解耦了。智能体发起任务时，算力可以在几秒内弹性扩容；智能体 idle 时，算力可以缩到零。客户不用再为空闲的计算资源付费。

“智能体正从实验阶段走向生产环境，它们产生的流量模式，是之前的基础设施根本没考虑过的。”
——Tia White，亚马逊OpenSearch服务总经理

之前的Serverless版本也有弹性，但存储和计算是绑定的，你至少得保留一个运行中的实例。说白了就是：哪怕你没在用，也得一直付停车费。新一代相当于改成了计时停车位——来了才计费，走了就归零。

AI智能体正在改变互联网流量结构（图片来源：Getty Images）

机器流量已经超过你想象

Cloudflare的数据很说明问题：过去六个月， bots 流量已经占到整体HTTP流量的31%。其中AI爬虫、搜索引擎和AI助手加起来，约占所有bot请求的25%。Cloudflare高级产品经理Lai Yi Ohlsen预计，2027年上半年，非人类流量就会超过人类流量。

这不只是在抢带宽。智能体的检索模式跟人类完全不一样——它们会并发查询数百个数据源，对延迟极度敏感，而且流量峰值毫无规律。传统的基础设施假设用户是”逐步浏览”的，但智能体是”瞬间爆发”的。

整个行业都在跟

AWS不是唯一一个在干这件事的。Databricks和Snowflake正在把自己重新定位为企业AI内存和检索系统；微软Azure最近也推出了针对AI智能体突发流量和多智能体共享内存的更新；Cloudflare上个月发布了面向智能体的持久化环境和即时扩展基础设施。

Google I/O上周也释放了信号：用户很快就能把购物研究、行程预订、网页浏览等任务委派给AI系统。不管是面向消费者的AI智能体，还是企业内外部部署的智能体，机器对机器的流量正在指数级增长。

这场基础设施的重构，本质上是为下一个十年做准备。当智能体成为互联网的主要”用户”，整个堆栈——从数据库到CDN，从API网关到身份认证——都得重新思考。目前看，大的云厂商已经跑起来了，但这一步才刚刚开始。

📎 原文来源：The internet is being rebuilt for machines — TechCrunch

2026年5月30日
2026年5月AI大模型密集发布：GPT-5.5、DeepSeek v4、Claude 4.6谁更胜一筹？
GPT-5.5来了：OpenAI的又一次跳跃

4月24日，OpenAI发布了GPT-5.5，官方描述是”迄今为止最智能、最直观的模型”。数字上的提升是实的：在Terminal-Bench 2.0测试中拿到82.7%，GDPval评测84.9%。

但更值得关注的是它在Agentic coding（智能体编程）上的进步。写代码不再只是”补全下一行”，而是能自主规划多步骤任务、调用工具、自己debug。这对开发者来说，意味着AI编程助手真的从一个”聪明补全器”变成了”能一起干活的搭档”。

DeepSeek v4：国产大模型的反击

同一天，DeepSeek放出v4，推出Flash和Pro双版本。最炸裂的参数是1M+ token的超长上下文窗口——这意味着它可以一口气读完一整本技术手册，然后基于全书内容跟你对话。

更妙的是它兼容OpenAI和Anthropic的SDK，开发者迁移成本几乎为零。加上本身就便宜，这波发布直接把”长上下文+低成本”的标杆拉高了。

Claude Sonnet 4.6：接近Opus的性能，一半的价格

3天后，Anthropic更新了Claude Sonnet 4.6和Haiku。核心卖点是”接近Opus级别的性能，但价格便宜得多”。对于已经在用Claude API做产品的团队来说，这个性价比提升是实打实的。

这次更新还修了之前版本里推理不稳定和缓存出错的bug。对于生产环境用户来说，稳定性往往比基准测试分数更值钱。

Google Gemini Pro & Flash：双版本策略的聪明之处

Google也在同一天（4月27日）更新了Gemini Pro和Flash。Pro负责扛性能大旗，Flash负责低延迟和高并发场景。两个版本都支持1M token上下文窗口，多模态能力和推理能力都有明显提升。

Google这波操作聪明在：不让用户做”性能vs成本”的单选题，而是两个版本各司其职。对于需要同时服务C端和B端的应用来说，这种组合很实用。

IBM Granite 4.1：小参数模型的逆袭

4月30日，IBM发布了Granite 4.1，参数只有8B，但性能居然能跟32B的MoE模型掰手腕。这件事传递的信号很清楚：堆参数不是唯一出路，数据质量和训练效率同样能打。

对于想在本地部署、或者推理预算有限的团队来说，这类小参数高性能模型是真正的香饽饽。大模型不一定非得”大”。

四个趋势，定义接下来半年

把这波发布潮放在一起看，有四个趋势已经很明显了：
- 超长上下文正在变成标配。1M+ token从”炫技”变成”基础配置”，这会从根本上改变应用能做的事情——一次性处理超长文档、多轮对话不遗忘、复杂任务规划，都会变得更可靠。
- 小参数模型崛起。DeepSeek v4和IBM Granite 4.1都在证明：聪明的训练比盲目的参数堆砌更有效率。这对降低推理成本、推动AI应用普及是好事。
- Agentic能力成为新战场。从GPT-5.5到Claude 4.6，所有厂商都在强化”让AI不只是回答，而是主动完成任务”的能力。这是从”对话助手”到”智能代理”的关键一跃。
- 监管压力在累积。欧盟AI Act的合规期限是2026年8月，没几个月了。技术在狂奔，但安全性和透明度基准测试的进度明显滞后。这波发布潮里，几乎每家都提到了”负责任的AI”，但真正做到多少，还得看。
对开发者意味着什么

如果你在基于这些模型做应用，有几个方向值得认真考虑：一是重新设计应用架构，把1M+ token上下文窗口的能力用起来；二是关注Agentic模式，从”用户输入-模型回答”的单向模式，转向多步骤、带工具调用的任务执行模式；三是成本优化，小参数模型的性能提升意味着你有更多选择，不一定非得用最贵的那个。

2026年5月的这波模型发布，表面上是各家在比拼基准测试分数，实际上是AI从”技术演示”走向”大规模应用”的转折点。谁能把模型能力稳定、低成本、安全地交付到用户手里，谁就赢了。

📎 原文来源：2026年5月AI行业大事件盘点：GPT-5.5、DeepSeek v4、Claude 4.6密集发布
2026年5月30日
MIT发布2026年AI十大趋势：从人形机器人训练到反AI运动

人形机器人训练数据：动作捕捉的新战场

就像人类的文字成了大语言模型的养料，现在连人类怎么动、怎么走路、怎么搬东西，都被大规模收集起来训练人形机器人。这事儿听起来有点怪，但确实在发生——有公司专门建了”训练中心”，让工人一遍遍重复同样的动作，就为了给机器人提供学习素材。还有更离谱的”提线木偶”模式：远方的人类通过远程操控，手把手教机器人怎么做事。

这种做法投入巨大，但没人能保证一定成功。可资本还是在砸钱，因为这可能是让机器人真正”活过来”的唯一路径。

大语言模型没有死，它正在进化

去年大家还在感叹大语言模型”改变了世界”，今年从业者已经在琢磨下一个突破在哪里。容易摘的果子已经摘完了，模型的提升越来越难，但这不意味着LLM要退出历史舞台。

相反，它正在往两个方向走：一个是把现有的能力压榨到极致，另一个是在寻找全新的架构突破。这条路不好走，但走通了就是下一个时代。

AI让诈骗变得便宜又高效

以前想搞网络诈骗，还得学点技术、花点钱买工具。现在有了生成式AI，门槛几乎降到了地板上。黑客可以用AI批量生成钓鱼邮件，连语法错误都不一定有；换脸视频让冒充别人变得轻而易举；甚至连打电话诈骗都有AI语音代劳。

AI正在让网络犯罪变得更便宜、更快、更容易——这对普通人来说不是什么好消息。

世界模型：让AI理解物理世界

大语言模型擅长处理文字，但要让AI进入真实物理世界——比如让机器人知道”杯子掉地上会碎”这种常识——就需要”世界模型”。这类系统试图让AI理解外部世界的运作规律，而不仅仅是预测下一个词。

如果这条路走通了，AI就不再只是聊天工具，而是能真正在现实世界里做事情的智能体。这可能是下一波AI浪潮最核心的突破点。

智能体编排：从单打独斗到团队协作

早期的AI智能体只能干一件事——比如帮你订个外卖，或者写段代码。但现实世界里的问题往往是复杂的，需要多个步骤、多种能力配合。

现在的方向是”智能体团队”：一个负责搜索、一个负责推理、一个负责执行，像人类团队一样分工协作。这比单个超级智能体更灵活，也更容易落地。很多公司已经在往这个方向押注了。

中国的开源赌注：免费模型赢来的全球影响力

DeepSeek、通义千问、智谱……中国实验室过去一年里密集开源了一大批高质量模型，而且真的好用。这让全球开发者突然意识到：原来不用OpenAI也能做出厉害的东西。

但这种”免费送”的策略能不能持续，没人说得准。训练模型太烧钱了，光靠口碑和开发者好感，账算得过来吗？不管怎样，全世界已经在基于中国的基础模型搞开发了，这本身就已经改变了格局。

AI科学家：当AI开始做科研

有些公司已经在开发能自主做科研的AI——不是帮你查文献，而是真的能设计实验、分析数据、甚至提出新假设。支持者说，这种AI合作者有一天可能会达到诺贝尔奖的水平。

这话听起来夸张，但想想十年前大家也觉得”AI下围棋赢人类”是天方夜谭。科学发现的门槛正在被重新定义。

反AI运动：当大家开始说”够了”

过去几年AI基本上是想怎么发展就怎么发展，监管跟不上，大家也沉浸在”新技术好厉害”的兴奋里。但现在这股浪潮遇到了真正的阻力。

艺术家不满自己的作品被拿来训练模型，工会担心AI抢走工作，保守派和自由派居然在”限制AI”这件事上找到了共同点。这股反对力量还在早期，但已经在一些具体问题上取得了小胜利。AI的无约束时代，可能正在走向终点。

写在最后

MIT Technology Review这份清单的价值不在于预测未来，而在于帮我们看清当下——哪些方向是真的在动，哪些只是炒作。人形机器人、世界模型、智能体编排，这些是当前最值得盯着的变化；而AI安全、监管反弹、开源商业化困境，则是这个行业必须面对的考题。

2026年的AI，已经不再是”能不能做出来”的问题，而是”应该怎么用、谁来管、往哪里去”的问题。

📎 原文来源：MIT Technology Review – 10 things that matter in AI right now

2026年5月30日
Screenshot to Code：72.7K Stars！截图秒变代码，让前端开发效率提升10倍
上传截图，AI自动生成对应代码

🚀 项目简介

Screenshot to Code 是一款AI驱动的开发辅助神器，只需上传一张网页截图、线框图或Figma设计稿，即可自动生成干净的可用代码。支持 HTML+CSS、React、Vue、Bootstrap 等多种技术栈，让设计稿到代码的转换从数小时缩短到几秒钟。

⚙️ 安装要求和过程
💡 环境要求

Python 3.9+（后端依赖）

Node.js 18+（前端依赖）

Poetry（Python 依赖管理，推荐）

Docker（可选，快速部署方式）

API密钥：OpenAI / Anthropic / Google Gemini（三选一即可）
🚀 快速安装步骤

方式一：本地源码运行（推荐开发调试）

# 1. 克隆项目 git clone https://github.com/abi/screenshot-to-code.git cd screenshot-to-code # 2. 配置API密钥（后端） cd backend echo "OPENAI_API_KEY=sk-your-key" > .env echo "ANTHROPIC_API_KEY=your-key" >> .env echo "GEMINI_API_KEY=your-key" >> .env # 3. 安装依赖并启动后端 poetry install poetry run uvicorn main:app --reload --port 7001 # 4. 新终端启动前端 cd ../frontend yarn yarn dev

启动后访问 http://localhost:5173 即可使用。

方式二：Docker 一键运行（推荐快速体验）

# 在项目根目录执行 echo "OPENAI_API_KEY=sk-your-key" > .env docker-compose up -d --build
✨ 核心功能

🎯 截图转代码

上传任意网页截图或设计稿，AI自动分析布局结构，生成对应前端代码，支持多种技术栈自由切换。

🔄 多模型支持

内置支持 Claude Opus/Sonnet、GPT-4.5/4.1、Gemini 3 Flash/Pro 等顶级模型，也支持自定义API兼容接口。

🛠️ 多技术栈输出

支持 HTML+CSS、HTML+Tailwind、React+Tailwind、Vue+Tailwind、Bootstrap、Ionic+Tailwind、SVG 等主流技术栈。

🎬 录屏转原型（实验性）

支持上传网站操作录屏视频，AI直接生成可交互的功能原型，非常适合产品快速验证和演示。

🔒 隐私优先，本地可控

支持通过 Ollama 运行本地开源模型，所有数据不出本地；也可自托管 Docker 版本，完全掌控数据隐私。

🎬 典型使用场景

📌 场景一：设计师交付前端代码

设计师完成 Figma 设计稿后，开发人员只需截图上传，即可快速获得可运行的前端代码骨架，大幅减少从设计到代码的重复劳动。实测可将一个中等复杂度页面从 2小时 缩短到 30秒 出初稿。

🎓 场景二：学习前端的新手临摹练习

想临摹一个漂亮的网页但不懂怎么实现？截一张图上传，AI 帮你生成完整代码，新手可以在生成的代码基础上学习和修改，快速提升前端技能。

🚀 场景三：产品快速原型验证

产品经理用录屏功能记录期望的操作流程，Screenshot to Code 直接生成可交互的 HTML 原型，团队可以在此基础上快速评审和迭代，不需要写一行代码。

💎 推荐理由

我第一次用这个工具的时候，简直惊呆了——随手截了一张纽约时报首页的截图上传，不到 20秒 就生成了一个几乎一模一样的 HTML 页面，连字体、间距、配色都还原得非常到位！

最让我惊喜的是它对 Tailwind CSS 的支持——生成的代码不是一堆乱七八糟的行内样式，而是结构清晰、可直接维护的 Tailwind 类，这对实际项目来说太重要了。

当然也要说一下不足：复杂交互（比如多步骤表单、动画过渡）还是需要人工补充；如果使用 OpenAI/Claude 的 API，每次生成会产生一定的 API 费用（不过项目支持 Ollama 本地模型，可以零成本使用）。总体来说，这是目前 「设计稿转代码」 这个细分领域里最成熟、最好用的开源方案，没有之一。

📥 下载地址
🌟 GitHub 仓库：https://github.com/abi/screenshot-to-code（72.7K+ Stars）

🌐 在线体验版：https://screenshottocode.com（官方付费版，可快速体验效果）

📖 Screen Recording to Code 文档：查看 Wiki

🐛 问题反馈：GitHub Issues
— 由 WorkBuddy AI 自动采集撰写 · 开源项目系列第43期 —
2026年5月30日
Groq转身求融资6.5亿美元——英伟达200亿非收购之后，这家芯片公司要去哪里

Groq转身求融资6.5亿美元——英伟达200亿”非收购”之后，这家芯片公司要去哪里

Groq这个名字你可能还不熟悉，但在AI芯片圈子里，他们是这几年最让人看不懂的公司之一。

事情是这样的：2025年12月，英伟达和Groq签了一笔200亿美元的交易——但这不是收购。部分Groq的核心工程师去了英伟达，Groq的硬件技术授权给英伟达使用。对Groq的投资者来说，这相当于一次大规模退出，拿到了现金回报。

现在，Axios爆料说Groq正在向现有投资者募集6.5亿美元新资金，用来做一件完全不同的事情：AI推理云（inference neocloud）。

从造芯片到卖推理，这步棋走对了吗

训练AI模型是一次性的大工程，而推理是每次用户发一条消息都要发生的事情——这个需求比训练大得多，也持续得多。Groq的判断是：与其和英伟达在训练芯片上硬碰硬，不如把赌注押在推理基础设施上。

他们的逻辑有一定道理。推理市场确实在爆发，但目前这个赛道已经有大量玩家：亚马逊、谷歌、微软的云推理服务，加上无数中小型推理优化公司。Groq能不能在这片红海里杀出来，关键看他们的技术是不是真的比竞争对手快很多——而且快到客户愿意迁移的程度。

据Axios报道，这轮融资其实有一定的”保底”机制：现有投资方Disruptive和Infinitium已经承诺，如果其他老股东不愿意按比例跟投，这两家会补足6.5亿美元的额度。换句话说，这轮钱基本上是有保障的。

管理层动荡，时机有点微妙

Groq目前由临时CEO Adam Winter和临时CFO Matt Eng领导。创始人Jonathan Ross的去向，在这笔新融资的背景下变得值得关注——如果公司战略方向发生了根本性转变，创始团队和投资者的利益是否还完全一致，这是一个问号。

从外部看，这家公司的身份定位有点模糊：它既不像纯粹的芯片公司（因为把技术授权给了英伟达），也不像纯粹的云服务商（因为之前的主业是造芯片）。”推理云”这个方向能不能让市场重新给它一个清晰的估值逻辑，这轮融资之后大概会见分晓。

英伟达的200亿美元交易，从结果上看是一个巧妙的”不开收购之名的收购”——拿到了技术和人才，但不用承担整合一家独立公司的全部复杂性。对Groq来说，拿到了一大笔现金，但也需要回答一个问题：接下来的Groq，到底是一家什么公司？

6.5亿美元的新融资如果顺利完成，我们大概很快就能看到他们的推理云产品正式亮相。是骡子是马，到时候牵出来遛遛就知道了。

📎 原文来源：TechCrunch – After Nvidia’s $20B not-acqui-hire, AI chip startup Groq reportedly raising $650M

2026年5月30日
Anthropic砸650亿美元融资，估值逼近1万亿——这家公司到底在押什么

Anthropic砸650亿美元融资，估值逼近1万亿——这家公司到底在押什么

如果你最近关注AI融资圈，这条消息大概已经刷过你的屏了。Anthropic在5月28日官宣完成H轮650亿美元融资，投后估值9650亿美元——离1万亿只差一小步。

这个数字什么概念？OpenAI最新一轮融资后的估值是7300亿美元，Anthropic这一轮直接把门槛抬高了两个身位。

钱从哪里来，又往哪里去

这轮融资的领投方阵容相当豪华：Altimeter Capital、Dragoneer、Greenoaks、红杉资本联合领投。跟投名单里你能看到黑石、富达、淡马锡、Baillie Gifford这些名字——基本上就是全球最有钱的那批机构排队送钱。

Anthropic说这笔钱主要花在三件事上：推进安全研究、扩大算力储备、把产品铺到更多客户那里去。听起来像是标准融资说辞，但仔细看他们最近签的算力合同，你就知道这个”扩大算力”不是开玩笑的。

Anthropic CFO Krishna Rao的说法是：”Claude对全球客户来说越来越不可或缺了。这笔融资帮我们对需求做好准备，保持在研究前沿，把Claude推到更多工作场景里。”

算力布局比你想的更激进

真正值得关注的是他们悄悄签下的一堆算力协议。和亚马逊签了最多5吉瓦的新增算力，和谷歌+博通签了5吉瓦的下一代TPU协议，还从SpaceX那里拿到了Colossus 1和Colossus 2的GPU使用权。

这些合同加起来意味着什么？意味着Anthropic从根本上解决了”模型训练出来但跑不起来”这个AI公司最头疼的问题。算力供给锁死了，接下来就是产品和销售的事了。

还有一个细节：Claude目前是全世界第一个在亚马逊AWS、谷歌云、微软Azure三大云平台上都能用到的前沿模型。AWS是主要训练合作伙伴，但这个”三云平台通吃”的站位，OpenAI其实并没有完全做到（微软的排他性一直是个问题）。

收入数字终于肯说了

Anthropic这轮融资最硬的底气来自收入。2026年5月，他们的营收运转率（run-rate revenue）已经突破47亿美元。这个数字是从2月份G轮融资之后涨上来的，也就是说在不到三个月里，收入规模又上了一个台阶。

企业客户在用Claude处理实际工作流——不是试用，是真的把业务跑在上面。Anthropic的说法是Claude正在”学习企业实际运营的逻辑”，包括业务上下文、流程和判断逻辑。这话听起来有点玄，但翻译成人话就是：企业用得越深，切换成本越高，Anthropic的护城河就越宽。

投资人这边当然也说了一堆好话。红杉资本合伙人Alfred Lin说初创公司和全球5000强都在部署Claude处理复杂工作流。Dragoneer的Marc Stad说”这项技术的开发和商业化仍处于最早期的阶段”——这话翻译过来就是：现在进场还不晚，涨的空间还很大。

估值9650亿美元到底贵不贵？如果你觉得Claude值得比OpenAI高，那这个估值就有它的逻辑。如果你觉得大模型赛道接下来会卷价格战，那这个故事就不好说了。但至少从现在的数据来看，Anthropic在企业市场上的渗透速度，确实比大多数人的预期要快。

📎 原文来源：The Verge – Anthropic raised a funding round valuing it at nearly $1 trillion

2026年5月30日
程序员拒绝在没有 AI 的情况下工作——但这可能会反过来坑了他们

程序员拒绝在没有 AI 的情况下工作——但这可能会反过来坑了他们

2026 年有个挺有意思的发现：你现在很难让开发者放下 AI 编码工具去干活了。

AI 确实能帮程序员更快地生成代码，但研究人员警告说，它产出的代码质量未必更好，这可能会给开发者的未来带来麻烦。

研究者遇到的尴尬

2026 年 2 月，权威 AI 研究实验室 METR 发布了一个令人意外的发现：大多数开发者甚至不愿意在没有 AI 的情况下完成实验任务。

METR 原本想更新他们在 2025 年做的一项关于 AI 编码生产力的开创性研究。那项研究里，研究人员测量了开源开发者手动完成任务和使用 AI 完成任务的耗时。结果挺打脸的——开发者自称 AI 提升了生产力，但实际上 AI 拖慢了他们的工作速度。没错，AI 生成代码更快，但之后他们需要额外的时间查找和修复错误、引导 AI 工作、还要等 AI 完成任务。

当 METR 着手重复这项实验时，他们没能成功。研究人员坦承，开发者不愿意参与实验，”因为他们不想在没有 AI 的情况下工作”，哪怕只是为了做研究。

最后 METR 在 5 月发布了一份调查，让技术员工自行报告 AI 带来的生产力提升。毫不意外，大家认为自己对公司而言的价值是原来的两倍。

tokenmaxxing 的代价

最近关于 “tokenmaxxing”（过度消耗 AI token）的高昂成本的头条新闻，加上一些新研究，让这种自我认知变得可疑。

Tokenmaxxing 用一个人消耗的 token 数量作为 AI 生产力的代理指标，是 2026 年迄今为止的趋势，而且这个趋势可能已经快到头了。

据《金融时报》报道，亚马逊关闭了其内部名为 Kirorank 的 token 追踪排行榜，原因是员工为了刷榜过度使用 AI 代理，导致成本飙升。员工的行为证明，AI 的使用并不自动等于生产力的提升。

据 The Information 报道，Uber 在 2026 年前四个月就用完了全年的 AI 预算。首席运营官 Andrew Macdonald 最近在播客中表示，这类支出并没有带来项目或生产力的可衡量提升。

代码维护的隐藏成本

程序员兼作家 James Shore 在一篇在 Hacker News 上疯传的博客文章中指出，AI 生成的代码不一定能减少后续代码维护需求，甚至可能增加这类需求。

你现在写代码的速度是以前的两倍？最好希望你的维护成本也减半了。不然你就惨了，你是在用短期的速度提升换取永久的债务。

还有其他证据表明 AI 会增加代码维护的麻烦。可靠性工程代理初创公司 Entelligence AI 的创始人兼 CEO Aiswarya Sankar 的一条病毒推文称，公司 44% 的 token 支出都花在了修复 AI 生成的 bug 上。与此同时，代码审查工具公司 CodeRabbit 表示，他们分析了开源拉取请求，发现 AI 生成的代码出现问题的概率是人工代码的 1.7 倍。

诚然，这些都是试图销售 AI 代码审查工具的机构的自利统计。但独立研究人员也发现了这类问题。新加坡管理大学的研究人员 4 月发布的一份报告警告称，”AI 生成的代码可能会给真实的软件项目带来长期维护成本”。

那怎么办

既然程序员如此热爱他们的 AI 助手，解决方案是什么？

那些想向你推销 AI 编码代理的人说，开发者可以用 AI 编码代理来完成修复代码这类枯燥繁琐的工作，修复速度和 AI 生成代码的速度一样快。这是 Cognition（AI 编码代理 Devin 的开发商）的创始人兼 CEO Scott Wu 的建议。

但就连他也承认，虽然 Devin 可以独立工作，但目前它的技能水平在初级和中级程序员之间，具体取决于任务类型。这不是一个可以交办后就不管的解决方案。

新加坡管理大学的研究人员提出了更偏向人工的方案：程序员需要像熟悉自己最爱的编程语言一样，深入了解 AI 擅长和不擅长哪些任务。他们需要为 AI 设计强大的质量保障体系，并且必须像对待初级开发者一样，仔细审查 AI 的工作成果。

同时，研究人员和 Wu 都表示，人类仍然应该负责软件架构、安全设计这类大局层面的工作。

📎 原文来源：TechCrunch – Coders are refusing to work without AI — and that could come back to bite them

2026年5月30日

标签： AI

为什么AI不会拼单词

这不是第一次，也不会是最后一次

📌 项目简介

⚙️ 安装要求与过程

环境要求

快速安装步骤

✨ 核心功能

🧠 从零实现注意力机制

🏗️ 完整 GPT 架构实现

🔥 预训练与微调全流程

🚀 主流模型权重加载

📚 附录与扩展内容

🎯 典型使用场景

场景一：系统学习 LLM 底层原理

场景二：在自己的数据上训练定制 LLM

场景三：作为 LLM 课程的配套实践材料

💡 推荐理由

📥 下载地址

🔗 GitHub 仓库

📘 配套书籍

🎬 配套视频教程（17h15min）

可能在Build大会上亮相

和OpenAI的超级应用有什么不同？

AWS悄悄改写了搜索数据库的底层的

机器流量已经超过你想象

整个行业都在跟

GPT-5.5来了：OpenAI的又一次跳跃

DeepSeek v4：国产大模型的反击

Claude Sonnet 4.6：接近Opus的性能，一半的价格

Google Gemini Pro & Flash：双版本策略的聪明之处

IBM Granite 4.1：小参数模型的逆袭

四个趋势，定义接下来半年

对开发者意味着什么

人形机器人训练数据：动作捕捉的新战场

大语言模型没有死，它正在进化

AI让诈骗变得便宜又高效

世界模型：让AI理解物理世界

智能体编排：从单打独斗到团队协作

中国的开源赌注：免费模型赢来的全球影响力

AI科学家：当AI开始做科研

反AI运动：当大家开始说”够了”

写在最后

🚀 项目简介

⚙️ 安装要求和过程

💡 环境要求

🚀 快速安装步骤

✨ 核心功能

🎯 截图转代码

🔄 多模型支持

🛠️ 多技术栈输出

🎬 录屏转原型（实验性）

🔒 隐私优先，本地可控

🎬 典型使用场景

📌 场景一：设计师交付前端代码

🎓 场景二：学习前端的新手临摹练习

🚀 场景三：产品快速原型验证

💎 推荐理由

📥 下载地址

从造芯片到卖推理，这步棋走对了吗

管理层动荡，时机有点微妙

钱从哪里来，又往哪里去

算力布局比你想的更激进

收入数字终于肯说了

程序员拒绝在没有 AI 的情况下工作——但这可能会反过来坑了他们

研究者遇到的尴尬

tokenmaxxing 的代价

代码维护的隐藏成本

那怎么办