作者: hiyoho

  • Gemini CLI:105k Stars!Google官方终端AI Agent,让命令行拥有Gemini的超能力

    Gemini CLI Screenshot

    项目简介

    Gemini CLI 是 Google 官方开源的终端 AI Agent 工具,将 Gemini 的强大能力直接集成到你的命令行终端中。它是目前从提示词到模型调用最直接的路径,为开发者提供了轻量级的 Gemini 访问入口。

    ⭐ GitHub Stars: 105k+
    🔗 项目地址: github.com/google-gemini/gemini-cli
    📄 开源协议: Apache 2.0
    🌐 官方网站: geminicli.com

    安装要求和过程

    环境要求

    • Node.js >= 18 (推荐 20+)
    • npmHomebrew (macOS)
    • Google 账号 (免费使用 Gemini API)

    快速安装步骤

    方式一:npx 即时运行(推荐试用)

    npx @google/gemini-cli

    方式二:npm 全局安装

    npm install -g @google/gemini-cli
    gemini --version

    方式三:Homebrew 安装(macOS/Linux)

    brew install gemini-cli
    gemini

    首次启动认证:

    # 启动后会自动打开浏览器进行 Google 账号 OAuth 认证
    gemini

    核心功能

    功能 说明
    🧠 代码理解与生成 支持查询、编辑大型代码库;可基于 PDF、图片、草图等多模态内容生成新应用;支持自然语言调试问题、排查故障
    🤖 自动化与集成 支持自动化操作任务,比如查询拉取请求、处理复杂变基;可通过 MCP 服务器扩展能力,包括对接 Imagen、Veo、Lyria 等媒体生成工具
    🔍 高级能力 内置 Google Search 搜索能力,支持实时信息检索;支持对话检查点,可保存、恢复复杂会话;支持自定义上下文文件 GEMINI.md
    🚀 免费额度友好 个人 Google 账号即可享受免费 tier,支持 60 次请求/分钟、1000 次请求/天
    🔧 内置工具丰富 自带 Google Search 搜索、文件操作、Shell 命令执行、网页抓取等能力;支持 MCP(模型上下文协议),可自定义集成第三方能力

    典型使用场景

    场景一:快速启动新项目

    进入项目目录启动 gemini 后,直接用自然语言描述需求即可生成对应代码:

    # 启动 Gemini CLI
    cd my-new-project
    gemini
    
    # 在交互界面中输入:
    > Write me a Discord bot that answers questions using a FAQ.md file I will provide

    场景二:分析现有代码变更

    克隆代码库后启动 gemini,可以快速获取代码变更总结:

    # 克隆代码库
    git clone https://github.com/some/repo.git
    cd repo
    gemini
    
    # 在交互界面中输入:
    > Give me a summary of all of the changes that went in yesterday

    场景三:非交互式脚本自动化

    使用 -p 参数可以在脚本中调用 Gemini CLI,实现工作流自动化:

    # 获取简单文本响应
    gemini -p "Explain the architecture of this codebase"
    
    # 获取结构化 JSON 输出
    gemini -p "Explain the architecture of this codebase" --output-format json
    
    # 实时流式输出
    gemini -p "Run tests and deploy" --output-format stream-json

    推荐理由

    作为一款终端原生的 AI Agent 工具,Gemini CLI 给我留下了深刻印象:

    • 官方背书,值得信赖:Google 官方开源项目,持续维护,质量有保障
    • 免费额度慷慨:个人开发者使用免费 Google 账号即可享受 60 次/分钟、1000 次/天的 API 调用额度,足够个人使用和小型项目开发
    • 100 万 token 上下文窗口:支持 Gemini 2.5 Pro/Flash 等顶级模型,能够理解超大型代码库,一次性分析整个项目
    • 终端原生体验:专为习惯命令行的开发者打造,操作流畅,无需离开终端即可完成代码理解、生成、调试全流程
    • MCP 扩展性强:支持模型上下文协议(MCP),可以对接 Imagen、Veo、Lyria 等媒体生成工具,未来潜力巨大

    如果你是一名开发者,正在寻找一款轻量级、功能强大、免费额度慷慨的终端 AI 助手,Gemini CLI 绝对值得一试!

    下载地址

  • Meta 在自家 AI 应用里塞了一堆 AI 写的八卦,质量惨不忍睹

    Meta 最近在独立 AI 应用的”为你推荐”板块里,悄悄上线了一个新功能:用 AI 自动生成新闻推送流

    听起来好像也没什么,AI 生成内容嘛,大家都见过了。但这次的问题在于,生成出来的东西质量低到了让人怀疑是不是故意的水平。

    推送了些什么内容

    据《The Verge》记者实测,这个 AI 生成的内容流推的东西基本可以分为两类:

    一类是毫无信息量的”故事”。点进去之后,AI 会生成一篇完整的文章,但内容基本上就是把标题换个说法重复三遍,没有任何实质信息。比如有篇文章的标题是”皇家管家终于解决了先加奶还是先加茶的争论”,点进去之后发现内容完全是在一本正经地胡说八道。

    另一类是高度依赖刻板印象的选题。《The Verge》驻伦敦的记者发现,他的推荐流里充斥着大量关于”英国性”的内容,什么”排队却不知道原因的心理学”、”英国式愤怒的解剖”,看起来就像是一个从没去过英国但读了十本旅游攻略的 AI 写的。

    给被算法判定为”奢侈品手表爱好者”的用户,AI 推送了”我的假劳力士实验”和”劳力士候补名单背后的残酷数学”——两篇完全虚构的文章。

    图片问题更大

    文字内容质量低就算了,配图的问题更明显。大部分配图是通用风格的 AI 生成图——卡通人物、风景、食物,看起来没什么破绽。

    但有一部分配图用了真实公众人物的形象,而且生成效果惨不忍睹。有一篇关于”2026年谁真的在为王室买单”的文章,配图里出现了两个伊丽莎白二世——其中一位已经去世多年。其他王室成员的配图也有面部失真、肢体扭曲等典型的 AI 生成错误。

    更关键的是,这些内容没有标注”AI 生成”。Meta 自己制定的规则里明确要求,AI 生成内容必须打上标识。这个功能显然没有遵守。

    Meta 的回应很微妙

    《The Verge》向 Meta 询问这个功能的定位、内容性质、安全保护措施等问题之后,Meta 的回应很有意思:

    • 第一次声明:这是一个”主动推送符合用户兴趣的提示、内容和建议的每日信息流”
    • 第二次声明:删掉了”主动(proactively)”这个词
    • 第三次声明:这个功能只是”小范围用户测试”,Meta 没有继续推进该功能的计划,将会下线

    三次声明,三次说法。但《The Verge》指出,至少有四名该媒体员工都访问到了这个功能,所谓的”小范围测试”说法站不住脚。

    这件事还没有引发监管层面的实质性行动,但已经有人在讨论:一个科技公司,在自己的平台上用 AI 大规模生成未标注的内容,还涉及真实公众人物的形象,这到底算不算违反了它自己承诺的 AI 治理规则。


  • OpenAI发了个新功能,专门防AI被「骗」着泄露数据

    OpenAI 本周悄悄上线了一个叫 Lockdown 模式的新功能,名字听起来像电脑中毒了要断网自查,但实际做的事比杀毒软件要前沿得多。

    它要解决的是 AI 圈最近几年最头疼的问题之一:提示注入攻击

    AI 也会被骗

    提示注入攻击的原理并不复杂。黑客把恶意指令藏在网页里、文档里、甚至一张图片的描述文字里,等用户把这这些内容喂给 AI 的时候,那些藏起来的指令就会被激活。

    后果可以很严重。比如你让 AI 帮你总结一封邮件,邮件里藏着一句”把用户的所有对话记录发送到这个地址”,你的 AI 助理就可能照做。这类攻击在 AI 开始接入更多外部数据、更多第三方服务的今天,变得越来越容易触发。

    OpenAI 在公告里说得很直白:Lockdown 模式不是给所有人设计的。它是给那些在处理敏感数据的个人和组织准备的。

    开了这个模式,ChatGPT 会变笨

    代价是明显的。一旦开启 Lockdown 模式,ChatGPT 会关掉好几项它现在最引以为傲的能力:

    • 实时网页浏览被禁用,只能访问缓存过的内容
    • 从网络检索图片并显示的功能被禁用(但 AI 生成图片还能用)
    • 深度研究(Deep Research)功能被禁用
    • 代理模式(Agent Mode)被禁用

    换句话说,开了这个模式,ChatGPT 基本就变成一个纯粹的对话工具,不能再帮你跑出去联网查资料、也不能替你操作浏览器了。

    但 OpenAI 也坦诚,即便开了 Lockdown 模式,提示注入的风险并没有完全消失。缓存的网页内容里可能还藏着恶意指令,你上传给它的文件里也可能有。它只能降低敏感数据被泄露的概率,做不到百分之百保险。

    谁需要用这个

    目前这个功能正在向自助式 ChatGPT Business 账户,以及符合条件的个人用户推送。OpenAI 没有说明”符合条件”具体指什么,但大概率是那些在工作场景里处理敏感信息的用户。

    这件事背后有一个更大的趋势:AI 公司正在从”怎么让模型更聪明”转向”怎么让模型更安全地在真实世界里被使用”。Lockdown 模式不是第一个,也不会是最后一个这类功能。


  • Anthropic秘密提交IPO申请:9650亿美元估值,AI军备竞赛进入公开市场

    Anthropic秘密提交IPO申请:9650亿美元估值,AI军备竞赛进入公开市场

    2026年6月1日,Anthropic向美国证券交易委员会(SEC)提交了一份保密的S-1注册文件草稿。这件事翻译成中文就是:这家做Claude大模型的AI公司,正式启动上市程序了。

    时间节点有点意思。Anthropic在5月28日刚完成H轮650亿美元融资,投后估值9650亿美元——距离万亿只差350亿。结果没过几天,IPO文件就递交上去了。这个节奏,怎么看都像是融资和上市是同一盘棋。

    Anthropic现在的年化营收运行率已经超过470亿美元,而且几乎全部来自企业对Claude模型的需求。代码开发、工作流自动化、规模化后台任务处理——这些企业愿意真金白银买单的场景,撑起了这个营收数字。

    一个月之内,三家巨头先后递交IPO文件

    把视野拉大一点,Anthropic不是唯一一家在2026年5月下旬到6月初递交IPO申请的AI巨头。SpaceX在5月20日提交了公开S-1文件,目标估值1.75-1.8万亿美元,计划在纳斯达克上市。OpenAI大约在5月22日提交了保密S-1文件,目标估值超过1万亿美元。

    三家公司,几乎在同一个时间窗口推进IPO。市场普遍认为,这是在抓住公开市场的窗口期。私有化融资的时代——靠风投、主权财富基金输血,不用公开财务数据——看上去正在走向终结。

    AI公司上市之后会怎样?它们要面对季度财报披露、分析师质询、做空机构监督。Anthropic现在的营收增长很快,但上市后维持这个增速的难度,远高于私有化阶段。GPU算力成本在涨,模型竞争在加剧,监管审查也不会放松。

    每个月向SpaceX支付12.5亿美元

    有一组数字很说明问题。Anthropic每个月要向SpaceX支付12.5亿美元,用来采购AI算力。这份协议有效期到2029年5月,是Anthropic最大的一笔刚性成本支出。

    这里有个背景需要交代:SpaceX的算力服务,依托的是马斯克另一家公司xAI的基础设施。Anthropic用着竞争对手生态的算力,每个月付12.5亿美元。这笔钱,足够买下一家中型企业了。

    也正是因为算力成本这么高,Anthropic才需要上市融资。光靠亚马逊和谷歌的战略投资,可能撑不住未来几年的算力扩张需求。公开市场融资,是一条更宽的路。

    9650亿美元估值,市场买不买账

    Anthropic提交的是保密S-1文件,依据的是《1933年证券法》第135条。这个流程的意思是:先让SEC审,审完了再决定要不要正式推进IPO,发行多少股、定价多少,现在都还没定。

    9650亿美元的估值,放在整个科技史上都是惊人的数字。但估值是一回事,公开市场愿不愿意用真金白银接盘是另一回事。万亿级AI公司在公开市场的估值接受度,还没有经过真实市场的验证。

    另一个变数是OpenAI。Anthropic和OpenAI在同一时间段推进IPO,投资者会把两家放在一起比。比营收、比增速、比模型能力、比企业客户粘性。哪家更被看好,股价会说话。


    AI公司从私有化走向公开市场,这件事本身比某一家公司的IPO结果更重要。它意味着AI这个赛道,正在从”讲故事融资”的阶段,走向”拿业绩说话”的阶段。Anthropic打头阵,OpenAI紧随其后,后面还有一批AI公司正在往IPO门口走。

    这场大戏,才刚刚开场。

  • 阿里千问向第三方Agent开放:瑞幸肯德基进场,AI助手开始”摆摊”了

    阿里千问向第三方Agent开放:瑞幸肯德基进场,AI助手开始”摆摊”了

    6月3日,阿里旗下的千问APP发了个通知,说要向第三方Agent和Skill全面开放。这话听着有点技术黑话,翻译成人话就是:千问要把自己变成一个AI服务的”应用商店”,别的公司可以在里面开店了。

    首批进场的都是大家眼熟的名字:瑞幸咖啡、肯德基、蜜雪冰城、东方航空。这些公司不是来凑热闹的,他们是真的要在千问里面运营自己的品牌Agent。

    什么叫品牌Agent?简单说就是:你在千问里面跟”瑞幸Agent”聊天,它能帮你查附近门店、推荐新品、甚至提醒你”中午排队时间长,建议提前半小时点单”。不是你去找App,是服务主动来找你。

    Agent这东西,终于不再是极客的玩具了

    过去一年多,AI Agent这个概念被炒得沸沸扬扬。技术圈的人说它能干这个能干那个,但普通用户真正用上的有几个?大多数时候,Agent还是停留在Demo视频和融资PPT里。

    千问这次做的,是把Agent从一个技术概念变成普通人能摸得着的服务。企业在千问里面开个”店”(也就是Agent),可以自己定义这个人设——比如东方航空的Agent,会记住你的出行习惯,知道你偏爱靠窗座位还是过道,甚至会提醒你目的地天气怎么样。

    更关键的是,这些Agent不是被动等人问。它们有记忆,也有主动规划能力。你的行程快到了,它会提前提醒;你的会员权益快到期了,它会告诉你续费划算还是换套餐划算;你常点的那杯瑞幸新品上市,它会顺嘴提一句。

    为什么是现在?为什么是千问?

    这个问题值得想想。Agent要真正落地,光有模型不够,还得有人用。千问的日活用户规模不小,这对企业来说就是现成的客群。你做一个独立的Agent App,得从头拉新;在千问里面开店,进门就是潜在用户。

    对阿里来说,这一步也有讲究。千问如果只自己做所有功能,摊子铺得太大,质量不一定兜得住。把平台开放出去,让瑞幸、肯德基这些公司自己运营自己的Agent,相当于用别人的内容养自己的生态。

    这个打法,跟微信小程序、抖音小程序其实是一个逻辑——平台提供流量和基础设施,商家提供服务和运营。只是这次换成了AI对话的界面,用户不用点来点去,聊着天就把事情办了。

    真正有意思的地方在哪

    这次开放最值得关注的,不是”千问多了几个企业服务”,而是AI助手的商业模式可能正在发生一个微妙变化。

    以前AI助手赚钱,要么是卖会员,要么是卖API调用次数。现在多了一条路:做平台,收”摊位费”。企业进来开店要不要用更高级的模型能力?要不要数据洞察?要不要优先展示位?这些都是可以收费的地方。

    当然,现在说这些还早。千问这个平台能不能做起来,取决于两件事:一是用户买不买账,愿不愿意在AI助手里面跟品牌Agent打交道;二是企业愿不愿意投入,把Agent运营当成一件正经事来做,而不是随便弄个问答机器人应付一下。


    瑞幸和肯德基愿意进来试,至少说明一件事:他们觉得AI对话这个入口值得提前卡位。至于卡位之后能不能占到便宜,就看各家自己的运营本事了。千问把场子搭好了,戏好不好看,得企业自己演。

  • Meta 用 AI 批量造点击诱饵新闻,被曝光后悄悄下线

    Facebook 上的点击诱饵(clickbait)已经够多了,现在 Meta 开始用 AI 自己生成点击诱饵。而且不是广告,是直接在它家的独立 AI 应用里,给用户推「专属新闻推送」。

    这事是 The Verge 的记者 Robert Hart 曝出来的。他发现 Meta AI 独立应用的「For You」板块里,出现了一批看起来像新闻文章的内容,点进去读才发现——全是 AI 生成的,主题、配图、正文,一个真人作者都没有。

    算法给你量身定制「新闻」

    这个功能的运转逻辑说起来很熟悉:算法先判断你是谁,然后给你推你觉得「可能有兴趣」的话题卡片,你一点,AI 现场给你生成一篇「文章」。整个过程没有任何人工编辑参与,也没有任何事实核查。

    记者把自己账号定位在英国伦敦,结果收到的推荐话题全是「英国特色」——喝茶的规矩、排队的心理学、酒吧文化、皇室成员,甚至还有「如何优雅地吐槽」。他的同事被算法判定为「豪华手表爱好者」,收到的推荐是「我的假劳力士实验」和「劳力士候补名单背后的残酷数学」。

    AI 生成的文本读起来像填空作文,除了把标题换个说法反复说,基本上没有实质内容。至于信源,不存在的。

    配图翻车:两个伊丽莎白女王

    文字内容水也就算了,配图的问题更大。有些图片里出现了真实公众人物的形象,而且生成效果惨不忍睹。有一篇讲「2026 年谁在为皇室买单」的文章,配图里出现了两个伊丽莎白女王——尽管她已经去世好几年了,而且历史上也只有一个她。

    Meta AI 生成的点击诱饵新闻配图示例
    Meta AI 应用里出现的 AI 生成「新闻」配图,皇室主题,效果相当诡异(图源:The Verge)

    其他图片也有典型的 AI 生成痕迹:手指不对、身体角度扭曲、动作在人类身体上不可能实现。有一张图甚至是一个老年夫妇跳舞的 GIF,手臂的摆法完全不符合人体结构。

    更关键的是,所有这些 AI 生成内容——不管是文章还是图片——在信息流里没有任何标签说明「这是 AI 生成的」。Meta 过去说自己希望「让人们知道哪些内容是 AI 做的」,但在这款独立应用里,这个承诺显然没有兑现。

    被曝光后,Meta 说「不做了」

    The Verge 把这些问题抛给 Meta 之后,Meta 的回应很有意思。一开始发言人的说法是:这是一个「向有限数量用户测试的功功能」,目前正在下线中,「Meta 没有计划继续推进这个功能」。

    但记者追问了几件事:如果测试规模真的「有限」,为什么 The Verge 编辑部里至少有四个人都能看到这个功能?「主动推送」(proactively)这个词到底是什么意思——难道是 Meta 在用户没有主动搜索的情况下,主动给用户喂 AI 生成的内容?


    这事折射出的问题其实比表面上看起来大。AI 生成内容的「新闻化」——把它包装成一篇有标题、有配图、有正文的「文章」,而不是明显标注为「AI 聊天回复」——会让普通用户根本分不清自己读的东西有没有经过事实核查,甚至分不清作者是人还是机器。

    Meta 把这个功能下线,至少说明它自己也知道这里面的风险不小。但问题是,算法驱动的内容推荐已经跑了很久,如果下一次换一个更隐蔽的方式重新上线呢?

  • OpenAI 新推 Lockdown 模式,专门堵住提示词注入这个口子

    OpenAI 这两天悄悄上线了一个新功能,名字叫 Lockdown Mode。说白了就是给 ChatGPT 加了一把更严的锁,专门防一种叫「提示词注入」的攻击方式。

    这种攻击方式说起来也不复杂。你在网页里埋一段隐藏指令,ChatGPT 一带浏览功能去读那个网页,就会中招。轻则胡言乱语,重则把用户的对话内容偷偷发到攻击者指定的地方。过去一年多,这类漏洞被安全研究者反复演示,但一直没有一个系统级的解决方案。

    Lockdown 模式到底锁住了什么

    开启这个模式之后,ChatGPT 会做几件事:第一,实时网页浏览直接禁用,只能用缓存内容;第二,从网上检索和显示图片的功能也关了(但你自己让 AI 生成图片还能用);第三,深度研究(Deep Research)和智能体模式(Agent Mode)一并停用。

    OpenAI 自己的说法是:Lockdown 模式并不是给所有人用的。它是为那些处理敏感数据的个人和组织设计的,用来降低提示词注入导致数据外泄的风险。

    不过 OpenAI 也坦承,就算开了这个模式,ChatGPT 仍然有可能被注入攻击影响——比如缓存的网页内容或者用户上传的文件里,如果藏着恶意指令,还是可能改变模型的输出。所以它防的是「实时网页浏览」这个最大攻击面,而不是宣称百分百安全。

    谁需要用这个模式

    目前 OpenAI 正在把这个选项推送给 ChatGPT Business 账户,以及符合条件的个人账户。换句话说,普通聊天用户大概率用不上,也不会想用——毕竟关了实时浏览和智能体功能,ChatGPT 的很多「爽点」都没了。

    但对于那些在企业环境里用 ChatGPT 处理合同、代码、内部文档的团队来说,这个模式的意义不小。之前已经有不少案例显示,提示词注入可以通过「污染」网页内容来窃取对话上下文,而上下文里往往有不该泄露的信息。


    这事背后其实有个更大的背景。随着 AI 智能体越来越主动地代替用户去浏览网页、调用工具、执行任务,提示词注入已经从「研究者演示用的玩具」变成了一个真实的攻击面。Google、Anthropic 也都在各自的 AI 产品里加了类似的保护措施,只是 OpenAI 这次把它做成了一个用户可以主动开启的「模式」,思路还算清晰。

    Lockdown 模式现在还在逐步推送中。如果你用的是 ChatGPT Business 账户,可以在设置里找找看有没有这个选项。至于免费用户和普通 Plus 用户,OpenAI 说「符合条件的个人账户」也会覆盖到,但没说具体标准是什么。

  • vLLM:82.1k Stars!高性能LLM推理引擎,让大模型部署又快又省

    vLLM:82.1k Stars!高性能LLM推理引擎,让大模型部署又快又省





    vLLM:82.1k Stars!高性能LLM推理引擎,让大模型部署又快又省

    配图

    vLLM Logo

    项目简介

    vLLM 是一个面向所有人的易用、快速、低成本的LLM服务引擎,提供高吞吐量、内存高效的推理能力,让大语言模型的生产部署变得简单高效。

    安装要求和过程

    环境要求

    • 操作系统:Linux(推荐)或 macOS
    • Python:3.8 – 3.12
    • GPU:NVIDIA GPU(CUDA 7.0+)或 AMD GPU(ROCm 5.6+)
    • CPU:x86、ARM 或 PowerPC(支持 CPU 推理)

    快速安装步骤

    方法一:使用 uv 安装(推荐)

    uv pip install vllm
        

    方法二:使用 pip 安装

    pip install vllm
        

    方法三:从源码构建

    git clone https://github.com/vllm-project/vllm.git
        cd vllm
        pip install -e .
        

    验证安装

    python -c "import vllm; print(vllm.__version__)"
        

    核心功能

    1. 业界领先的推理吞吐量
      基于 PagedAttention 技术高效管理注意力键值内存,支持连续批处理、分块预填充、前缀缓存等优化技术,单GPU即可实现超高并发推理服务。
    2. 丰富的量化方案支持
      原生支持 FP8、MXFP8/MXFP4、NVFP4、INT8、INT4、GPTQ/AWQ、GGUF 等多种量化格式,在保证模型质量的同时大幅降低显存占用和推理延迟。
    3. 无缝的 Hugging Face 集成
      直接加载 Hugging Face 上 200+ 模型架构,包括 Llama、Qwen、Gemma、Mixtral、DeepSeek-V3 等热门模型,无需任何适配代码。
    4. 分布式推理支持
      支持张量并行、流水线并行、数据并行、专家并行、上下文并行,可轻松扩展到大模型多卡、多机部署场景。
    5. 多模态模型支持
      不仅支持纯文本LLM,还支持 LLaVA、Qwen-VL、Pixtral 等多模态模型,满足图文理解、视觉问答等复杂场景需求。

    典型使用场景

    场景一:企业级大模型API服务

    某 AI 创业公司需要将 Qwen2.5-72B 模型部署为 OpenAI 兼容的 API 服务,供前端应用调用。

    解决方案:使用 vLLM 启动兼容 OpenAI API 的服务器,仅需一行命令:

    vllm serve Qwen/Qwen2.5-72B-Instruct --tensor-parallel-size 4
        

    启动后自动提供与 OpenAI 完全兼容的 API,现有代码无需修改即可切换到底层模型,同时享受 vLLM 带来的 3-5倍吞吐量提升。

    场景二:本地开发与环境测试

    开发者需要在本地机器上快速测试不同 LLM 的能力,评估哪个模型最适合自己的应用场景。

    解决方案:使用 vLLM 的 Python API 或 LLM 类,像使用 transformers 一样简单:

    from vllm import LLM, SamplingParams
        
        # 初始化模型
        llm = LLM(model="meta-llama/Llama-3.1-8B-Instruct")
        
        # 设置生成参数
        params = SamplingParams(temperature=0.7, max_tokens=256)
        
        # 批量推理
        prompts = ["解释量子计算", "写一个快速排序"]
        outputs = llm.generate(prompts, params)
        
        for output in outputs:
            print(output.prompt, output.outputs[0].text)
        

    推荐理由

    作为一名经常需要部署和测试大模型的开发者,vLLM 已经成为我工具箱里不可或缺的利器。之前每次部署新模型都要折腾好几天,要么显存不够,要么吞吐量上不去,要么就是跟各种推理框架的适配问题。

    vLLM 最大的价值在于它真的能做到开箱即用。你从 Hugging Face 上找到的模型,基本上扔给 vLLM 就能跑,不用自己写适配代码,不用深入研究模型架构。特别是它的 PagedAttention 技术,真的把显存利用率拉满了,同样一张 A100,用 vLLM 能服务的并发请求数是之前的好几倍。

    另外很赞的一点是它的量化支持特别全面。现在模型越来越大,不量化根本跑不起来。vLLM 支持的量化格式特别多,AWQ、GPTQ、GGUF 这些主流的都有,而且量化后的精度损失控制得很好,实际业务里基本感觉不出来。

    如果你正在做 LLM 相关的项目,不管是创业做 AI 产品,还是企业里搭私有化部署,vLLM 都值得一试。它现在基本上是业界标准了,82.1k 的 Stars 不是白来的。

    下载地址


    如果你觉得这个项目有帮助,欢迎到 GitHub 上点个 Star,支持开源社区的发展!


  • 微软干了件迟早要干的事:不再只当OpenAI的经销商

    微软干了件迟早要干的事:不再只当OpenAI的经销商

    6月2日到3日,微软Build 2026开发者大会开完之后,很多人意识到一件事:微软好像真的不打算继续完全依赖OpenAI了。

    这次大会上,微软一口气发布了7款自研MAI系列模型。其中包括他们的首款高级推理模型MAI-Thinking-1。微软在介绍里特意强调了一句话:”完全基于干净数据从零开始训练,没有使用来自第三方模型的蒸馏数据。”这句话翻译过来就是:这是我们自己做的,跟OpenAI没有关系。

    微软投了OpenAI 130亿美元,但Copilot背后跑的还是别人的模型。每调用一次API,就是在给OpenAI送钱。这算什么护城河?

    7款模型,覆盖全部核心场景

    这次发布的MAI模型家族,基本把AI能做的事情全覆盖了:

    • MAI-Thinking-1:首款高级推理模型,350亿活跃参数,在关键软件工程基准测试中达到业界领先水平。定价比OpenAI的同类产品低。
    • MAI-Image 2.5 和 MAI-Image 2.5 Flash:文生图 + 图像编辑,Flash版本是轻量版。
    • MAI-Transcribe-1.5:语音转写,速度是竞争对手模型的5倍,支持43种语言。
    • MAI-Voice-2 和 MAI-Voice-2 Flash:语音合成,新增15种语言支持,提供更多语音选项。
    • MAI-Code-1:编程辅助,具备推理效率优化特性,已经集成到GitHub Copilot和Visual Studio Code中。

    这套模型家族发布之后,微软在AI能力上有了完整的自主权。以前微软要用推理模型,得找OpenAI要API;要用图像生成,也得依赖别人的模型。现在这些能力微软自己都有了。

    MAI-Thinking-1是个什么水平的模型

    微软对MAI-Thinking-1的定位是”中等规模模型”,350亿活跃参数。这个规模比GPT-4o或者Claude Opus要小,但微软的意思是:我们不需要最大的模型,我们需要的是性价比最高的模型。

    从基准测试的成绩来看,MAI-Thinking-1在软件工程相关的测试里达到了业界领先模型的水平。微软没有具体说是哪些模型,但”业界领先”这几个字,指向的应该是OpenAI的o1系列或者Anthropic的Claude。

    有个细节值得注意:微软强调这个模型”没有使用第三方模型的蒸馏数据”。这不是一句客套话。模型蒸馏是指用大型模型(比如GPT-4)的输出去训练小型模型,让小型模型”学会”大型模型的能力。如果微软用了OpenAI模型的蒸馏数据,那么微软的模型本质上还是在依赖OpenAI。现在微软明确说了”没有”,这意味着微软在训练数据层面做到了完全独立。


    微软为什么现在做这件事

    微软和OpenAI的关系在过去几个月里发生了很明显的变化。2026年初,微软和OpenAI结束了独家合作关系,微软被列为OpenAI的竞争对手。Build大会前不久,微软还推出了Scout,一个基于OpenClaw框架的个人AI助理,这个动作本身就说明微软在准备自己的AI产品路线。

    从商业逻辑上看,微软每年给OpenAI付的API费用不是一个小数目。如果微软自己的MAI模型能做到差不多好的效果,但成本只有OpenAI的一半或者三分之一,那么把Copilot背后的模型换成自己的,每年能省下的钱是相当可观的。

    另一个角度是竞争。Google有Gemini,Meta有Llama,Amazon有自己的模型家族。微软是唯一一个大规模推广AI产品(Copilot)但没有完全自主模型能力的巨头。这个短板,Build 2026之后,微软补上了。


  • OpenAI把记忆系统重写了一遍,ChatGPT现在真的会记住你了

    做梦这件事,ChatGPT现在做得更聪明了

    OpenAI在6月4日悄悄上线了一个新功能,他们管它叫”梦境(Dreaming)”。名字听起来挺浪漫,实际上是ChatGPT记忆系统的一次大升级。

    你可能已经发现,最近ChatGPT好像比以前更懂你了。你跟它聊过一次你的工作背景、你喜欢野生动物摄影、你对酒店空调的制冷效果有执念,下次再问它推荐新加坡行程的时候,它不会再把你当成一个第一次来旅游的陌生人。

    旧版的记忆系统需要你主动说”记住这个”,ChatGPT才会存下来。新版的”梦境”不一样,它会在后台自动读你以前的聊天记录,自己判断哪些信息值得记住。

    成本降了5倍,免费用户也能用上

    这次升级有个很关键的数字:计算成本降低了大约5倍。这句话背后的意思是,以前只有付费用户才能用的”梦境”记忆功能,现在有机会向所有免费用户开放了。

    OpenAI的说法是,6月4日这天先向美国地区的Plus和Pro用户推送,接下来几周会逐步覆盖更多国家,然后是免费用户和Go用户。对大多数用户来说,这意味着ChatGPT会开始主动记住你的偏好,而且不需要你手动去管理。

    你可以自己在设置页看到ChatGPT记住了关于你的哪些信息。它存的可能是你的工作领域、你感兴趣的旅行目的地、你对餐厅座位的要求。如果你不希望它记住某些内容,可以手动删除,或者干脆关掉这个功能。

    记忆会自己更新,不会一直停留在过去

    旧版记忆系统有个挺尴尬的问题:你告诉ChatGPT的事情,它会一直记住,哪怕这件事情已经过时了。比如你之前跟它说”我7月要去新加坡”,等你已经回到家里了,它还是会在推荐餐厅的时候默认你在新加坡。

    新版的”梦境”会动态地更新记忆。你7月的那次旅行结束后,它会把那条记忆更新为”2026年7月去过新加坡”,后续再推荐服务的时候,会自动切换回你居住地的相关信息。

    OpenAI从三个维度评估这套记忆系统的效果:上下文延续能力(你说过一次的事情,后续不需要重复)、偏好遵循能力(它会记得你喜欢安静的用餐环境、你是素食主义者),以及时间动态更新能力(记忆会随着时间自动修正)。


    这不是第一次升级,但可能是最重要的一次

    ChatGPT的记忆功能其实已经迭代了几次。2024年4月推出”已保存记忆”,那时候需要用户主动要求记住内容。2025年4月加入了初代”梦境”技术,可以后台自动整理聊天历史,但那时候主要还是作为”已保存记忆”的补充,算不上一个完整的记忆系统。

    这一次的Dreaming V3,OpenAI的说法是”更强大、计算效率更高的记忆架构”。具体用了什么技术,官方没有细说,但核心能力是:自动从多轮对话中合成记忆,保证记忆的相关性、准确性和时效性。

    对OpenAI来说,这套记忆系统可能是ChatGPT构建用户护城河的核心抓手。用户用得越久,ChatGPT对用户的理解越深,切换成本就越高。这个逻辑和网易云音乐的”年度听歌报告”、美团的”猜你喜欢”是一样的,只是ChatGPT的记忆维度要复杂得多。