作者： hiyoho

Gemini CLI：105k Stars！Google官方终端AI Agent，让命令行拥有Gemini的超能力

项目简介

Gemini CLI 是 Google 官方开源的终端 AI Agent 工具，将 Gemini 的强大能力直接集成到你的命令行终端中。它是目前从提示词到模型调用最直接的路径，为开发者提供了轻量级的 Gemini 访问入口。

⭐ GitHub Stars: 105k+
🔗 项目地址: github.com/google-gemini/gemini-cli
📄 开源协议: Apache 2.0
🌐 官方网站: geminicli.com

安装要求和过程

环境要求

Node.js >= 18 (推荐 20+)
npm 或 Homebrew (macOS)
Google 账号 (免费使用 Gemini API)

快速安装步骤

方式一：npx 即时运行（推荐试用）

npx @google/gemini-cli

方式二：npm 全局安装

npm install -g @google/gemini-cli
gemini --version

方式三：Homebrew 安装（macOS/Linux）

brew install gemini-cli
gemini

首次启动认证：

# 启动后会自动打开浏览器进行 Google 账号 OAuth 认证
gemini

核心功能

功能	说明
🧠 代码理解与生成	支持查询、编辑大型代码库；可基于 PDF、图片、草图等多模态内容生成新应用；支持自然语言调试问题、排查故障
🤖 自动化与集成	支持自动化操作任务，比如查询拉取请求、处理复杂变基；可通过 MCP 服务器扩展能力，包括对接 Imagen、Veo、Lyria 等媒体生成工具
🔍 高级能力	内置 Google Search 搜索能力，支持实时信息检索；支持对话检查点，可保存、恢复复杂会话；支持自定义上下文文件 GEMINI.md
🚀 免费额度友好	个人 Google 账号即可享受免费 tier，支持 60 次请求/分钟、1000 次请求/天
🔧 内置工具丰富	自带 Google Search 搜索、文件操作、Shell 命令执行、网页抓取等能力；支持 MCP（模型上下文协议），可自定义集成第三方能力

典型使用场景

场景一：快速启动新项目

进入项目目录启动 gemini 后，直接用自然语言描述需求即可生成对应代码：

# 启动 Gemini CLI
cd my-new-project
gemini

# 在交互界面中输入：
> Write me a Discord bot that answers questions using a FAQ.md file I will provide

场景二：分析现有代码变更

克隆代码库后启动 gemini，可以快速获取代码变更总结：

# 克隆代码库
git clone https://github.com/some/repo.git
cd repo
gemini

# 在交互界面中输入：
> Give me a summary of all of the changes that went in yesterday

场景三：非交互式脚本自动化

使用 -p 参数可以在脚本中调用 Gemini CLI，实现工作流自动化：

# 获取简单文本响应
gemini -p "Explain the architecture of this codebase"

# 获取结构化 JSON 输出
gemini -p "Explain the architecture of this codebase" --output-format json

# 实时流式输出
gemini -p "Run tests and deploy" --output-format stream-json

下载地址

📦 GitHub 仓库：github.com/google-gemini/gemini-cli
🌐 官方网站：geminicli.com
📚 官方文档：geminicli.com/docs
📦 npm 包：@google/gemini-cli
💬 Discord 社区：discord.gg/gemini-cli

2026年6月7日

Meta 在自家 AI 应用里塞了一堆 AI 写的八卦，质量惨不忍睹
Meta 最近在独立 AI 应用的”为你推荐”板块里，悄悄上线了一个新功能：用 AI 自动生成新闻推送流。

听起来好像也没什么，AI 生成内容嘛，大家都见过了。但这次的问题在于，生成出来的东西质量低到了让人怀疑是不是故意的水平。

推送了些什么内容

据《The Verge》记者实测，这个 AI 生成的内容流推的东西基本可以分为两类：

一类是毫无信息量的”故事”。点进去之后，AI 会生成一篇完整的文章，但内容基本上就是把标题换个说法重复三遍，没有任何实质信息。比如有篇文章的标题是”皇家管家终于解决了先加奶还是先加茶的争论”，点进去之后发现内容完全是在一本正经地胡说八道。

另一类是高度依赖刻板印象的选题。《The Verge》驻伦敦的记者发现，他的推荐流里充斥着大量关于”英国性”的内容，什么”排队却不知道原因的心理学”、”英国式愤怒的解剖”，看起来就像是一个从没去过英国但读了十本旅游攻略的 AI 写的。

给被算法判定为”奢侈品手表爱好者”的用户，AI 推送了”我的假劳力士实验”和”劳力士候补名单背后的残酷数学”——两篇完全虚构的文章。

图片问题更大

文字内容质量低就算了，配图的问题更明显。大部分配图是通用风格的 AI 生成图——卡通人物、风景、食物，看起来没什么破绽。

但有一部分配图用了真实公众人物的形象，而且生成效果惨不忍睹。有一篇关于”2026年谁真的在为王室买单”的文章，配图里出现了两个伊丽莎白二世——其中一位已经去世多年。其他王室成员的配图也有面部失真、肢体扭曲等典型的 AI 生成错误。

更关键的是，这些内容没有标注”AI 生成”。Meta 自己制定的规则里明确要求，AI 生成内容必须打上标识。这个功能显然没有遵守。

Meta 的回应很微妙

《The Verge》向 Meta 询问这个功能的定位、内容性质、安全保护措施等问题之后，Meta 的回应很有意思：
- 第一次声明：这是一个”主动推送符合用户兴趣的提示、内容和建议的每日信息流”
- 第二次声明：删掉了”主动（proactively）”这个词
- 第三次声明：这个功能只是”小范围用户测试”，Meta 没有继续推进该功能的计划，将会下线
三次声明，三次说法。但《The Verge》指出，至少有四名该媒体员工都访问到了这个功能，所谓的”小范围测试”说法站不住脚。

这件事还没有引发监管层面的实质性行动，但已经有人在讨论：一个科技公司，在自己的平台上用 AI 大规模生成未标注的内容，还涉及真实公众人物的形象，这到底算不算违反了它自己承诺的 AI 治理规则。

📎 原文来源：Meta made its own AI-generated clickbait news feed — The Verge
2026年6月7日
OpenAI发了个新功能，专门防AI被「骗」着泄露数据
OpenAI 本周悄悄上线了一个叫 Lockdown 模式的新功能，名字听起来像电脑中毒了要断网自查，但实际做的事比杀毒软件要前沿得多。

它要解决的是 AI 圈最近几年最头疼的问题之一：提示注入攻击。

AI 也会被骗

提示注入攻击的原理并不复杂。黑客把恶意指令藏在网页里、文档里、甚至一张图片的描述文字里，等用户把这这些内容喂给 AI 的时候，那些藏起来的指令就会被激活。

后果可以很严重。比如你让 AI 帮你总结一封邮件，邮件里藏着一句”把用户的所有对话记录发送到这个地址”，你的 AI 助理就可能照做。这类攻击在 AI 开始接入更多外部数据、更多第三方服务的今天，变得越来越容易触发。

OpenAI 在公告里说得很直白：Lockdown 模式不是给所有人设计的。它是给那些在处理敏感数据的个人和组织准备的。

开了这个模式，ChatGPT 会变笨

代价是明显的。一旦开启 Lockdown 模式，ChatGPT 会关掉好几项它现在最引以为傲的能力：
- 实时网页浏览被禁用，只能访问缓存过的内容
- 从网络检索图片并显示的功能被禁用（但 AI 生成图片还能用）
- 深度研究（Deep Research）功能被禁用
- 代理模式（Agent Mode）被禁用
换句话说，开了这个模式，ChatGPT 基本就变成一个纯粹的对话工具，不能再帮你跑出去联网查资料、也不能替你操作浏览器了。

但 OpenAI 也坦诚，即便开了 Lockdown 模式，提示注入的风险并没有完全消失。缓存的网页内容里可能还藏着恶意指令，你上传给它的文件里也可能有。它只能降低敏感数据被泄露的概率，做不到百分之百保险。

谁需要用这个

目前这个功能正在向自助式 ChatGPT Business 账户，以及符合条件的个人用户推送。OpenAI 没有说明”符合条件”具体指什么，但大概率是那些在工作场景里处理敏感信息的用户。

这件事背后有一个更大的趋势：AI 公司正在从”怎么让模型更聪明”转向”怎么让模型更安全地在真实世界里被使用”。Lockdown 模式不是第一个，也不会是最后一个这类功能。

📎 原文来源：OpenAI unveils Lockdown Mode to protect sensitive data from prompt injection attacks — TechCrunch
2026年6月7日
Anthropic秘密提交IPO申请：9650亿美元估值，AI军备竞赛进入公开市场

Anthropic秘密提交IPO申请：9650亿美元估值，AI军备竞赛进入公开市场

2026年6月1日，Anthropic向美国证券交易委员会（SEC）提交了一份保密的S-1注册文件草稿。这件事翻译成中文就是：这家做Claude大模型的AI公司，正式启动上市程序了。

时间节点有点意思。Anthropic在5月28日刚完成H轮650亿美元融资，投后估值9650亿美元——距离万亿只差350亿。结果没过几天，IPO文件就递交上去了。这个节奏，怎么看都像是融资和上市是同一盘棋。

Anthropic现在的年化营收运行率已经超过470亿美元，而且几乎全部来自企业对Claude模型的需求。代码开发、工作流自动化、规模化后台任务处理——这些企业愿意真金白银买单的场景，撑起了这个营收数字。

一个月之内，三家巨头先后递交IPO文件

把视野拉大一点，Anthropic不是唯一一家在2026年5月下旬到6月初递交IPO申请的AI巨头。SpaceX在5月20日提交了公开S-1文件，目标估值1.75-1.8万亿美元，计划在纳斯达克上市。OpenAI大约在5月22日提交了保密S-1文件，目标估值超过1万亿美元。

三家公司，几乎在同一个时间窗口推进IPO。市场普遍认为，这是在抓住公开市场的窗口期。私有化融资的时代——靠风投、主权财富基金输血，不用公开财务数据——看上去正在走向终结。

AI公司上市之后会怎样？它们要面对季度财报披露、分析师质询、做空机构监督。Anthropic现在的营收增长很快，但上市后维持这个增速的难度，远高于私有化阶段。GPU算力成本在涨，模型竞争在加剧，监管审查也不会放松。

每个月向SpaceX支付12.5亿美元

有一组数字很说明问题。Anthropic每个月要向SpaceX支付12.5亿美元，用来采购AI算力。这份协议有效期到2029年5月，是Anthropic最大的一笔刚性成本支出。

这里有个背景需要交代：SpaceX的算力服务，依托的是马斯克另一家公司xAI的基础设施。Anthropic用着竞争对手生态的算力，每个月付12.5亿美元。这笔钱，足够买下一家中型企业了。

也正是因为算力成本这么高，Anthropic才需要上市融资。光靠亚马逊和谷歌的战略投资，可能撑不住未来几年的算力扩张需求。公开市场融资，是一条更宽的路。

9650亿美元估值，市场买不买账

Anthropic提交的是保密S-1文件，依据的是《1933年证券法》第135条。这个流程的意思是：先让SEC审，审完了再决定要不要正式推进IPO，发行多少股、定价多少，现在都还没定。

9650亿美元的估值，放在整个科技史上都是惊人的数字。但估值是一回事，公开市场愿不愿意用真金白银接盘是另一回事。万亿级AI公司在公开市场的估值接受度，还没有经过真实市场的验证。

另一个变数是OpenAI。Anthropic和OpenAI在同一时间段推进IPO，投资者会把两家放在一起比。比营收、比增速、比模型能力、比企业客户粘性。哪家更被看好，股价会说话。

AI公司从私有化走向公开市场，这件事本身比某一家公司的IPO结果更重要。它意味着AI这个赛道，正在从”讲故事融资”的阶段，走向”拿业绩说话”的阶段。Anthropic打头阵，OpenAI紧随其后，后面还有一批AI公司正在往IPO门口走。

这场大戏，才刚刚开场。

📎 原文来源：The Currency Analytics – Anthropic Files Confidential S-1 as $965 Billion Valuation Fuels Historic IPO Race

2026年6月7日
阿里千问向第三方Agent开放：瑞幸肯德基进场，AI助手开始”摆摊”了

阿里千问向第三方Agent开放：瑞幸肯德基进场，AI助手开始”摆摊”了

6月3日，阿里旗下的千问APP发了个通知，说要向第三方Agent和Skill全面开放。这话听着有点技术黑话，翻译成人话就是：千问要把自己变成一个AI服务的”应用商店”，别的公司可以在里面开店了。

首批进场的都是大家眼熟的名字：瑞幸咖啡、肯德基、蜜雪冰城、东方航空。这些公司不是来凑热闹的，他们是真的要在千问里面运营自己的品牌Agent。

什么叫品牌Agent？简单说就是：你在千问里面跟”瑞幸Agent”聊天，它能帮你查附近门店、推荐新品、甚至提醒你”中午排队时间长，建议提前半小时点单”。不是你去找App，是服务主动来找你。

Agent这东西，终于不再是极客的玩具了

过去一年多，AI Agent这个概念被炒得沸沸扬扬。技术圈的人说它能干这个能干那个，但普通用户真正用上的有几个？大多数时候，Agent还是停留在Demo视频和融资PPT里。

千问这次做的，是把Agent从一个技术概念变成普通人能摸得着的服务。企业在千问里面开个”店”（也就是Agent），可以自己定义这个人设——比如东方航空的Agent，会记住你的出行习惯，知道你偏爱靠窗座位还是过道，甚至会提醒你目的地天气怎么样。

更关键的是，这些Agent不是被动等人问。它们有记忆，也有主动规划能力。你的行程快到了，它会提前提醒；你的会员权益快到期了，它会告诉你续费划算还是换套餐划算；你常点的那杯瑞幸新品上市，它会顺嘴提一句。

为什么是现在？为什么是千问？

这个问题值得想想。Agent要真正落地，光有模型不够，还得有人用。千问的日活用户规模不小，这对企业来说就是现成的客群。你做一个独立的Agent App，得从头拉新；在千问里面开店，进门就是潜在用户。

对阿里来说，这一步也有讲究。千问如果只自己做所有功能，摊子铺得太大，质量不一定兜得住。把平台开放出去，让瑞幸、肯德基这些公司自己运营自己的Agent，相当于用别人的内容养自己的生态。

这个打法，跟微信小程序、抖音小程序其实是一个逻辑——平台提供流量和基础设施，商家提供服务和运营。只是这次换成了AI对话的界面，用户不用点来点去，聊着天就把事情办了。

真正有意思的地方在哪

这次开放最值得关注的，不是”千问多了几个企业服务”，而是AI助手的商业模式可能正在发生一个微妙变化。

以前AI助手赚钱，要么是卖会员，要么是卖API调用次数。现在多了一条路：做平台，收”摊位费”。企业进来开店要不要用更高级的模型能力？要不要数据洞察？要不要优先展示位？这些都是可以收费的地方。

当然，现在说这些还早。千问这个平台能不能做起来，取决于两件事：一是用户买不买账，愿不愿意在AI助手里面跟品牌Agent打交道；二是企业愿不愿意投入，把Agent运营当成一件正经事来做，而不是随便弄个问答机器人应付一下。

瑞幸和肯德基愿意进来试，至少说明一件事：他们觉得AI对话这个入口值得提前卡位。至于卡位之后能不能占到便宜，就看各家自己的运营本事了。千问把场子搭好了，戏好不好看，得企业自己演。

📎 原文来源：IT之家 – 阿里千问向第三方 Agent、Skill 全面开放，肯德基、瑞幸、蜜雪冰城、东航将首批接入

2026年6月7日
Meta 用 AI 批量造点击诱饵新闻，被曝光后悄悄下线

Facebook 上的点击诱饵（clickbait）已经够多了，现在 Meta 开始用 AI 自己生成点击诱饵。而且不是广告，是直接在它家的独立 AI 应用里，给用户推「专属新闻推送」。

这事是 The Verge 的记者 Robert Hart 曝出来的。他发现 Meta AI 独立应用的「For You」板块里，出现了一批看起来像新闻文章的内容，点进去读才发现——全是 AI 生成的，主题、配图、正文，一个真人作者都没有。

算法给你量身定制「新闻」

这个功能的运转逻辑说起来很熟悉：算法先判断你是谁，然后给你推你觉得「可能有兴趣」的话题卡片，你一点，AI 现场给你生成一篇「文章」。整个过程没有任何人工编辑参与，也没有任何事实核查。

记者把自己账号定位在英国伦敦，结果收到的推荐话题全是「英国特色」——喝茶的规矩、排队的心理学、酒吧文化、皇室成员，甚至还有「如何优雅地吐槽」。他的同事被算法判定为「豪华手表爱好者」，收到的推荐是「我的假劳力士实验」和「劳力士候补名单背后的残酷数学」。

AI 生成的文本读起来像填空作文，除了把标题换个说法反复说，基本上没有实质内容。至于信源，不存在的。

配图翻车：两个伊丽莎白女王

文字内容水也就算了，配图的问题更大。有些图片里出现了真实公众人物的形象，而且生成效果惨不忍睹。有一篇讲「2026 年谁在为皇室买单」的文章，配图里出现了两个伊丽莎白女王——尽管她已经去世好几年了，而且历史上也只有一个她。

Meta AI 应用里出现的 AI 生成「新闻」配图，皇室主题，效果相当诡异（图源：The Verge）

其他图片也有典型的 AI 生成痕迹：手指不对、身体角度扭曲、动作在人类身体上不可能实现。有一张图甚至是一个老年夫妇跳舞的 GIF，手臂的摆法完全不符合人体结构。

更关键的是，所有这些 AI 生成内容——不管是文章还是图片——在信息流里没有任何标签说明「这是 AI 生成的」。Meta 过去说自己希望「让人们知道哪些内容是 AI 做的」，但在这款独立应用里，这个承诺显然没有兑现。

被曝光后，Meta 说「不做了」

The Verge 把这些问题抛给 Meta 之后，Meta 的回应很有意思。一开始发言人的说法是：这是一个「向有限数量用户测试的功功能」，目前正在下线中，「Meta 没有计划继续推进这个功能」。

但记者追问了几件事：如果测试规模真的「有限」，为什么 The Verge 编辑部里至少有四个人都能看到这个功能？「主动推送」（proactively）这个词到底是什么意思——难道是 Meta 在用户没有主动搜索的情况下，主动给用户喂 AI 生成的内容？

这事折射出的问题其实比表面上看起来大。AI 生成内容的「新闻化」——把它包装成一篇有标题、有配图、有正文的「文章」，而不是明显标注为「AI 聊天回复」——会让普通用户根本分不清自己读的东西有没有经过事实核查，甚至分不清作者是人还是机器。

Meta 把这个功能下线，至少说明它自己也知道这里面的风险不小。但问题是，算法驱动的内容推荐已经跑了很久，如果下一次换一个更隐蔽的方式重新上线呢？

📎 原文来源：Meta made its own AI-generated clickbait news feed — The Verge

2026年6月7日
OpenAI 新推 Lockdown 模式，专门堵住提示词注入这个口子

OpenAI 这两天悄悄上线了一个新功能，名字叫 Lockdown Mode。说白了就是给 ChatGPT 加了一把更严的锁，专门防一种叫「提示词注入」的攻击方式。

这种攻击方式说起来也不复杂。你在网页里埋一段隐藏指令，ChatGPT 一带浏览功能去读那个网页，就会中招。轻则胡言乱语，重则把用户的对话内容偷偷发到攻击者指定的地方。过去一年多，这类漏洞被安全研究者反复演示，但一直没有一个系统级的解决方案。

Lockdown 模式到底锁住了什么

开启这个模式之后，ChatGPT 会做几件事：第一，实时网页浏览直接禁用，只能用缓存内容；第二，从网上检索和显示图片的功能也关了（但你自己让 AI 生成图片还能用）；第三，深度研究（Deep Research）和智能体模式（Agent Mode）一并停用。

OpenAI 自己的说法是：Lockdown 模式并不是给所有人用的。它是为那些处理敏感数据的个人和组织设计的，用来降低提示词注入导致数据外泄的风险。

不过 OpenAI 也坦承，就算开了这个模式，ChatGPT 仍然有可能被注入攻击影响——比如缓存的网页内容或者用户上传的文件里，如果藏着恶意指令，还是可能改变模型的输出。所以它防的是「实时网页浏览」这个最大攻击面，而不是宣称百分百安全。

谁需要用这个模式

目前 OpenAI 正在把这个选项推送给 ChatGPT Business 账户，以及符合条件的个人账户。换句话说，普通聊天用户大概率用不上，也不会想用——毕竟关了实时浏览和智能体功能，ChatGPT 的很多「爽点」都没了。

但对于那些在企业环境里用 ChatGPT 处理合同、代码、内部文档的团队来说，这个模式的意义不小。之前已经有不少案例显示，提示词注入可以通过「污染」网页内容来窃取对话上下文，而上下文里往往有不该泄露的信息。

这事背后其实有个更大的背景。随着 AI 智能体越来越主动地代替用户去浏览网页、调用工具、执行任务，提示词注入已经从「研究者演示用的玩具」变成了一个真实的攻击面。Google、Anthropic 也都在各自的 AI 产品里加了类似的保护措施，只是 OpenAI 这次把它做成了一个用户可以主动开启的「模式」，思路还算清晰。

Lockdown 模式现在还在逐步推送中。如果你用的是 ChatGPT Business 账户，可以在设置里找找看有没有这个选项。至于免费用户和普通 Plus 用户，OpenAI 说「符合条件的个人账户」也会覆盖到，但没说具体标准是什么。

📎 原文来源：OpenAI unveils Lockdown Mode to protect sensitive data from prompt injection attacks — TechCrunch

2026年6月7日
vLLM：82.1k Stars！高性能LLM推理引擎，让大模型部署又快又省
vLLM：82.1k Stars！高性能LLM推理引擎，让大模型部署又快又省

配图

项目简介

vLLM 是一个面向所有人的易用、快速、低成本的LLM服务引擎，提供高吞吐量、内存高效的推理能力，让大语言模型的生产部署变得简单高效。

安装要求和过程

环境要求
- 操作系统：Linux（推荐）或 macOS
- Python：3.8 – 3.12
- GPU：NVIDIA GPU（CUDA 7.0+）或 AMD GPU（ROCm 5.6+）
- CPU：x86、ARM 或 PowerPC（支持 CPU 推理）
快速安装步骤

方法一：使用 uv 安装（推荐）
```
uv pip install vllm
    
```
方法二：使用 pip 安装
```
pip install vllm
    
```
方法三：从源码构建
```
git clone https://github.com/vllm-project/vllm.git
    cd vllm
    pip install -e .
    
```
验证安装
```
python -c "import vllm; print(vllm.__version__)"
    
```
核心功能
1. 业界领先的推理吞吐量
  基于 PagedAttention 技术高效管理注意力键值内存，支持连续批处理、分块预填充、前缀缓存等优化技术，单GPU即可实现超高并发推理服务。
2. 丰富的量化方案支持
  原生支持 FP8、MXFP8/MXFP4、NVFP4、INT8、INT4、GPTQ/AWQ、GGUF 等多种量化格式，在保证模型质量的同时大幅降低显存占用和推理延迟。
3. 无缝的 Hugging Face 集成
  直接加载 Hugging Face 上 200+ 模型架构，包括 Llama、Qwen、Gemma、Mixtral、DeepSeek-V3 等热门模型，无需任何适配代码。
4. 分布式推理支持
  支持张量并行、流水线并行、数据并行、专家并行、上下文并行，可轻松扩展到大模型多卡、多机部署场景。
5. 多模态模型支持
  不仅支持纯文本LLM，还支持 LLaVA、Qwen-VL、Pixtral 等多模态模型，满足图文理解、视觉问答等复杂场景需求。
典型使用场景

场景一：企业级大模型API服务

某 AI 创业公司需要将 Qwen2.5-72B 模型部署为 OpenAI 兼容的 API 服务，供前端应用调用。

解决方案：使用 vLLM 启动兼容 OpenAI API 的服务器，仅需一行命令：
```
vllm serve Qwen/Qwen2.5-72B-Instruct --tensor-parallel-size 4
    
```
启动后自动提供与 OpenAI 完全兼容的 API，现有代码无需修改即可切换到底层模型，同时享受 vLLM 带来的 3-5倍吞吐量提升。

场景二：本地开发与环境测试

开发者需要在本地机器上快速测试不同 LLM 的能力，评估哪个模型最适合自己的应用场景。

解决方案：使用 vLLM 的 Python API 或 LLM 类，像使用 transformers 一样简单：
```
from vllm import LLM, SamplingParams
    
    # 初始化模型
    llm = LLM(model="meta-llama/Llama-3.1-8B-Instruct")
    
    # 设置生成参数
    params = SamplingParams(temperature=0.7, max_tokens=256)
    
    # 批量推理
    prompts = ["解释量子计算", "写一个快速排序"]
    outputs = llm.generate(prompts, params)
    
    for output in outputs:
        print(output.prompt, output.outputs[0].text)
    
```
推荐理由

作为一名经常需要部署和测试大模型的开发者，vLLM 已经成为我工具箱里不可或缺的利器。之前每次部署新模型都要折腾好几天，要么显存不够，要么吞吐量上不去，要么就是跟各种推理框架的适配问题。

vLLM 最大的价值在于它真的能做到开箱即用。你从 Hugging Face 上找到的模型，基本上扔给 vLLM 就能跑，不用自己写适配代码，不用深入研究模型架构。特别是它的 PagedAttention 技术，真的把显存利用率拉满了，同样一张 A100，用 vLLM 能服务的并发请求数是之前的好几倍。

另外很赞的一点是它的量化支持特别全面。现在模型越来越大，不量化根本跑不起来。vLLM 支持的量化格式特别多，AWQ、GPTQ、GGUF 这些主流的都有，而且量化后的精度损失控制得很好，实际业务里基本感觉不出来。

如果你正在做 LLM 相关的项目，不管是创业做 AI 产品，还是企业里搭私有化部署，vLLM 都值得一试。它现在基本上是业界标准了，82.1k 的 Stars 不是白来的。

下载地址
- 官方网站：https://vllm.ai
- GitHub 仓库：https://github.com/vllm-project/vllm（82.1k+ Stars）
- 官方文档：https://docs.vllm.ai
- PyPI 安装：pip install vllm
- 社区论坛：https://discuss.vllm.ai
如果你觉得这个项目有帮助，欢迎到 GitHub 上点个 Star，支持开源社区的发展！
2026年6月7日
微软干了件迟早要干的事：不再只当OpenAI的经销商
微软干了件迟早要干的事：不再只当OpenAI的经销商

6月2日到3日，微软Build 2026开发者大会开完之后，很多人意识到一件事：微软好像真的不打算继续完全依赖OpenAI了。

这次大会上，微软一口气发布了7款自研MAI系列模型。其中包括他们的首款高级推理模型MAI-Thinking-1。微软在介绍里特意强调了一句话：”完全基于干净数据从零开始训练，没有使用来自第三方模型的蒸馏数据。”这句话翻译过来就是：这是我们自己做的，跟OpenAI没有关系。

微软投了OpenAI 130亿美元，但Copilot背后跑的还是别人的模型。每调用一次API，就是在给OpenAI送钱。这算什么护城河？

7款模型，覆盖全部核心场景

这次发布的MAI模型家族，基本把AI能做的事情全覆盖了：
- MAI-Thinking-1：首款高级推理模型，350亿活跃参数，在关键软件工程基准测试中达到业界领先水平。定价比OpenAI的同类产品低。
- MAI-Image 2.5 和 MAI-Image 2.5 Flash：文生图 + 图像编辑，Flash版本是轻量版。
- MAI-Transcribe-1.5：语音转写，速度是竞争对手模型的5倍，支持43种语言。
- MAI-Voice-2 和 MAI-Voice-2 Flash：语音合成，新增15种语言支持，提供更多语音选项。
- MAI-Code-1：编程辅助，具备推理效率优化特性，已经集成到GitHub Copilot和Visual Studio Code中。
这套模型家族发布之后，微软在AI能力上有了完整的自主权。以前微软要用推理模型，得找OpenAI要API；要用图像生成，也得依赖别人的模型。现在这些能力微软自己都有了。

MAI-Thinking-1是个什么水平的模型

微软对MAI-Thinking-1的定位是”中等规模模型”，350亿活跃参数。这个规模比GPT-4o或者Claude Opus要小，但微软的意思是：我们不需要最大的模型，我们需要的是性价比最高的模型。

从基准测试的成绩来看，MAI-Thinking-1在软件工程相关的测试里达到了业界领先模型的水平。微软没有具体说是哪些模型，但”业界领先”这几个字，指向的应该是OpenAI的o1系列或者Anthropic的Claude。

有个细节值得注意：微软强调这个模型”没有使用第三方模型的蒸馏数据”。这不是一句客套话。模型蒸馏是指用大型模型（比如GPT-4）的输出去训练小型模型，让小型模型”学会”大型模型的能力。如果微软用了OpenAI模型的蒸馏数据，那么微软的模型本质上还是在依赖OpenAI。现在微软明确说了”没有”，这意味着微软在训练数据层面做到了完全独立。

微软为什么现在做这件事

微软和OpenAI的关系在过去几个月里发生了很明显的变化。2026年初，微软和OpenAI结束了独家合作关系，微软被列为OpenAI的竞争对手。Build大会前不久，微软还推出了Scout，一个基于OpenClaw框架的个人AI助理，这个动作本身就说明微软在准备自己的AI产品路线。

从商业逻辑上看，微软每年给OpenAI付的API费用不是一个小数目。如果微软自己的MAI模型能做到差不多好的效果，但成本只有OpenAI的一半或者三分之一，那么把Copilot背后的模型换成自己的，每年能省下的钱是相当可观的。

另一个角度是竞争。Google有Gemini，Meta有Llama，Amazon有自己的模型家族。微软是唯一一个大规模推广AI产品（Copilot）但没有完全自主模型能力的巨头。这个短板，Build 2026之后，微软补上了。

📎 原文来源：IT之家 – 微软发布其首款高级推理模型 MAI-Thinking-1
2026年6月7日
OpenAI把记忆系统重写了一遍，ChatGPT现在真的会记住你了

做梦这件事，ChatGPT现在做得更聪明了

OpenAI在6月4日悄悄上线了一个新功能，他们管它叫”梦境（Dreaming）”。名字听起来挺浪漫，实际上是ChatGPT记忆系统的一次大升级。

你可能已经发现，最近ChatGPT好像比以前更懂你了。你跟它聊过一次你的工作背景、你喜欢野生动物摄影、你对酒店空调的制冷效果有执念，下次再问它推荐新加坡行程的时候，它不会再把你当成一个第一次来旅游的陌生人。

旧版的记忆系统需要你主动说”记住这个”，ChatGPT才会存下来。新版的”梦境”不一样，它会在后台自动读你以前的聊天记录，自己判断哪些信息值得记住。

成本降了5倍，免费用户也能用上

这次升级有个很关键的数字：计算成本降低了大约5倍。这句话背后的意思是，以前只有付费用户才能用的”梦境”记忆功能，现在有机会向所有免费用户开放了。

OpenAI的说法是，6月4日这天先向美国地区的Plus和Pro用户推送，接下来几周会逐步覆盖更多国家，然后是免费用户和Go用户。对大多数用户来说，这意味着ChatGPT会开始主动记住你的偏好，而且不需要你手动去管理。

你可以自己在设置页看到ChatGPT记住了关于你的哪些信息。它存的可能是你的工作领域、你感兴趣的旅行目的地、你对餐厅座位的要求。如果你不希望它记住某些内容，可以手动删除，或者干脆关掉这个功能。

记忆会自己更新，不会一直停留在过去

旧版记忆系统有个挺尴尬的问题：你告诉ChatGPT的事情，它会一直记住，哪怕这件事情已经过时了。比如你之前跟它说”我7月要去新加坡”，等你已经回到家里了，它还是会在推荐餐厅的时候默认你在新加坡。

新版的”梦境”会动态地更新记忆。你7月的那次旅行结束后，它会把那条记忆更新为”2026年7月去过新加坡”，后续再推荐服务的时候，会自动切换回你居住地的相关信息。

OpenAI从三个维度评估这套记忆系统的效果：上下文延续能力（你说过一次的事情，后续不需要重复）、偏好遵循能力（它会记得你喜欢安静的用餐环境、你是素食主义者），以及时间动态更新能力（记忆会随着时间自动修正）。

这不是第一次升级，但可能是最重要的一次

ChatGPT的记忆功能其实已经迭代了几次。2024年4月推出”已保存记忆”，那时候需要用户主动要求记住内容。2025年4月加入了初代”梦境”技术，可以后台自动整理聊天历史，但那时候主要还是作为”已保存记忆”的补充，算不上一个完整的记忆系统。

这一次的Dreaming V3，OpenAI的说法是”更强大、计算效率更高的记忆架构”。具体用了什么技术，官方没有细说，但核心能力是：自动从多轮对话中合成记忆，保证记忆的相关性、准确性和时效性。

对OpenAI来说，这套记忆系统可能是ChatGPT构建用户护城河的核心抓手。用户用得越久，ChatGPT对用户的理解越深，切换成本就越高。这个逻辑和网易云音乐的”年度听歌报告”、美团的”猜你喜欢”是一样的，只是ChatGPT的记忆维度要复杂得多。

📎 原文来源：OpenAI官方博客 – Dreaming: Better memory for a more helpful ChatGPT

2026年6月7日

作者： hiyoho

项目简介

安装要求和过程

环境要求

快速安装步骤

核心功能

典型使用场景

场景一：快速启动新项目

场景二：分析现有代码变更

场景三：非交互式脚本自动化

推荐理由

下载地址

推送了些什么内容

图片问题更大

Meta 的回应很微妙

AI 也会被骗

开了这个模式，ChatGPT 会变笨

谁需要用这个

Anthropic秘密提交IPO申请：9650亿美元估值，AI军备竞赛进入公开市场

一个月之内，三家巨头先后递交IPO文件

每个月向SpaceX支付12.5亿美元

9650亿美元估值，市场买不买账

阿里千问向第三方Agent开放：瑞幸肯德基进场，AI助手开始”摆摊”了

Agent这东西，终于不再是极客的玩具了

为什么是现在？为什么是千问？

真正有意思的地方在哪

算法给你量身定制「新闻」

配图翻车：两个伊丽莎白女王

被曝光后，Meta 说「不做了」

Lockdown 模式到底锁住了什么

谁需要用这个模式

配图

项目简介

安装要求和过程

环境要求

快速安装步骤

核心功能

典型使用场景

场景一：企业级大模型API服务

场景二：本地开发与环境测试

推荐理由

下载地址

微软干了件迟早要干的事：不再只当OpenAI的经销商

7款模型，覆盖全部核心场景

MAI-Thinking-1是个什么水平的模型

微软为什么现在做这件事

做梦这件事，ChatGPT现在做得更聪明了

成本降了5倍，免费用户也能用上

记忆会自己更新，不会一直停留在过去

这不是第一次升级，但可能是最重要的一次