标签: AI

  • OpenAI要给开源社区当”安全医生”,这个”Patch the Planet”计划到底想干啥

    OpenAI Patch the Planet倡议
    OpenAI启动”Patch the Planet”安全倡议

    OpenAI这两天搞了个新动作,叫”Patch the Planet”——名字玩了个梗,致敬1995年那部黑客电影《Hackers》里的经典台词”Hack the Planet”。不过这次他们不是来黑系统的,是来帮开源社区补漏洞的。

    具体来说,OpenAI找了家叫Trail of Bits的安全公司一起干。这家公司的安全工程师会直接跟开源项目的维护者对接,帮他们审查代码里可能存在的问题。当然,OpenAI自己的安全工具也会上阵,比如那个Codex Security。

    开源软件的安全困境

    为啥要搞这个?OpenAI的说法挺实在的:现在很多开源维护者本来就忙得要死,结果还要面对越来越多的安全报告,时间和资源都有限,根本处理不过来。

    “Patch the Planet”就是来减轻这个负担的,不是来添乱的——安全工程师会先把发现的问题过一遍,再交给维护者,还会帮忙写补丁和测试,甚至建立可复用的流程,让项目团队在第一次修复之后也能继续改进安全性。

    这话听起来,Trail of Bits的工程师更像是代码的”急救员”——帮维护者识别问题、分类处理,背后还有OpenAI的软件撑腰。

    log4j的教训还在眼前

    说回开源软件的问题。开源项目可以说是整个商业软件行业的地基,但因为它的结构太分散、监控也不到位,很多开源软件其实并不安全。一旦开源项目里出了漏洞,用到它的商业代码也就跟着遭殃。

    几年前那个log4j漏洞就是个典型例子——一个广泛使用的开源工具里发现了严重漏洞,结果整个互联网都跟着抖三抖。

    AI让攻击变得更简单

    更让人担心的是,像Anthropic的Mythos这类工具出来之后,AI现在已经能自动识别代码里的现有漏洞,甚至还能琢磨怎么利用这些漏洞搞事情。网络攻击的自动化可不是什么新鲜事,但这些AI工具确实有可能让坏人干坏事变得容易得多。

    OpenAI这个”Patch the Planet”能不能真的帮到开源社区,还得走着瞧。但至少,有人开始认真看待这个问题了。

  • DSPy:用编程取代提示词工程,Stanford 出品 LLM 应用优化框架,27.5K+ Stars

    DSPy:用编程取代提示词工程,Stanford 出品 LLM 应用优化框架,27.5K+ Stars

    📌 项目简介

    DSPy(Declarative Self-improving Language Programs in Python)是斯坦福大学开发的 LLM 编程框架,让你用 编程取代提示词工程。不再手写 prompt,而是定义模块 + 数据,DSPy 自动优化提示词和权重,让 LLM 应用可靠、可测量、可迭代。

    🔧 安装要求与过程

    环境要求

    • Python ≥ 3.9
    • pip 包管理器
    • (可选)OpenAI / Anthropic / Google API Key,或本地 Ollama

    快速安装

    # 基础安装(仅 DSPy 核心)
    pip install dspy-ai
    
    # 安装常用扩展(推荐)
    pip install dspy-ai[vertexai,anthropic,cohere]
    
    # 从源码安装最新版
    pip install git+https://github.com/stanfordnlp/dspy.git
    

    Hello World

    import dspy
    
    # 配置 LLM(支持 OpenAI / Claude / Gemini / Ollama 等)
    lm = dspy.LM("openai/gpt-4o-mini")
    dspy.configure(lm=lm)
    
    # 定义签名(Signature):输入 → 输出
    class QnA(dspy.Signature):
        question = dspy.InputField()
        answer   = dspy.OutputField()
    
    # 创建预测器
    qa = dspy.Predict(QnA)
    
    # 直接调用!
    result = qa(question="DSPy 是什么?")
    print(result.answer)
    

    ⭐ 核心功能

    1
    签名(Signature)= 结构化 Prompt

    用类型安全的 Python 类定义输入输出,DSPy 自动生成高质量 prompt。告别手工调 prompt,代码即文档。
    2
    自动优化器(Optimizer)= 自动 Prompt 工程

    内置 BootstrapFewShotMIPROv2COPRO 等优化器,只需提供训练数据,DSPy 自动搜索最优 prompt / 示例 / 权重。质量可测量、可复现。
    3
    模块化编程模型 = 像 PyTorch 一样组合 LLM

    提供 PredictChainOfThoughtProgramOfThoughtRetriever 等模块,自由组合成复杂 pipeline,支持多跳推理、工具调用、RAG。
    4
    全模型兼容 = 一处编写,任意 LLM 运行

    统一接口支持 OpenAI、Anthropic、Google、Cohere、Ollama、Together AI、Azure 等 30+ LLM 提供商,切换模型只需改一行配置。
    5
    内置评估框架 = 量化 AI 应用质量

    提供 EvaluateMetric 工具,科学评估模型效果,支撑数据驱动的迭代优化。

    🚀 典型使用场景

    场景 1:RAG 问答系统(最经典用法)

    import dspy
    from dspy.datasets import HotPotQA
    
    # 配置检索器 + LM
    colbertv2 = dspy.ColBERTv2(url="http://20.102.90.50:2017/wiki17_abstracts")
    lm = dspy.LM("openai/gpt-4o-mini")
    dspy.configure(lm=lm, rm=colbertv2)
    
    # 定义 RAG 签名
    class GenerateAnswer(dspy.Signature):
        context = dspy.InputField(desc="相关维基百科段落")
        question = dspy.InputField()
        answer   = dspy.OutputField()
    
    # 构建 RAG 管道
    class RAG(dspy.Module):
        def __init__(self):
            super().__init__()
            self.retrieve = dspy.Retrieve(k=3)
            self.generate = dspy.ChainOfThought(GenerateAnswer)
    
        def forward(self, question):
            context = self.retrieve(question).passages
            return self.generate(context=context, question=question)
    
    # 编译优化(自动调参)
    from dspy.teleprompt import MIPROv2
    teleprompter = MIPROv2(metric=dspy.evaluate.answer_exact_match)
    optimized_rag = teleprompter.compile(
        RAG(), trainset=your_trainset, valset=your_valset
    )
    

    场景 2:多跳推理 Agent

    DSPy 原生支持构建多步推理 Agent,结合 ReAct 模块和工具调用,让 LLM 自主规划 + 执行复杂任务:

    class MultiHopQA(dspy.Module):
        def __init__(self):
            self.react = dspy.ReAct(GenerateAnswer)
            # ReAct 自动循环:Thought → Action → Observation → ...
        
        def forward(self, question):
            return self.react(question=question)
    

    场景 3:生产级 Prompt 优化(MLOps 集成)

    用 DSPy 的评估 + 优化管线,将 prompt 工程纳入 CI/CD:每次模型更新自动重新优化 prompt,保证质量不回退。


    💡 推荐理由

    如果你还在手写 prompt、手动调 few-shot 示例、靠感觉评估 LLM 应用质量——DSPy 会彻底改变你的工作方式

    它的核心洞察是:Prompt 是代码,应该像代码一样被编译、优化、测试。DSPy 把 prompt 工程从「手工艺」升级为「工程学科」,让 LLM 应用开发进入可测量、可迭代的正循环。

    最打动我的是 MIPROv2 优化器:给它一堆训练数据,它能自动搜索最优的指令指令 + few-shot 示例组合,效果往往超过手工调参。对于需要稳定质量的 production 场景,这是救命稻草。

    另外,DSPy 的学术背景(斯坦福 Ocelot 团队,NeurIPS/ICML 多篇论文)保证了它的方法论严谨性,不是又一个「AI 包装框架」。

    📊 项目数据

    GitHub Stars 27.5K+
    开源许可 MIT License
    主要语言 Python
    维护团队 Stanford Ocelot Lab(@stanfordnlp)
    最新版本 v2.6+(2026 持续更新)
    文档地址 dspy.ai

    📥 下载地址

    🌐
    官方网站

    dspy.ai

    💻
    GitHub 仓库

    github.com/stanfordnlp/dspy

    📚
    官方文档

    dspy.ai/docs

    💬
    Discord 社区

    discord.gg/XCGy2WOMnX

    🎯 立即用 DSPy 把你的 LLM 应用工程化
    告别手工调 prompt,拥抱可测量、可优化的 LLM 编程新范式
  • 亚马逊在印度测试Alexa+,这次要攻下印地语市场

    亚马逊在印度测试Alexa+,这次要攻下印地语市场

    Alexa+在印度测试
    亚马逊在印度测试支持印地语的Alexa+(概念图)

    亚马逊最近给一些印度用户发了封邮件,邀请他们参加Alexa+的 Hindi 语言测试。邮件里说得很直白:公司在做一个新的Alexa体验,用户的反馈对打磨产品很重要。想参加的话,得在6月22日之前填一份印地语表格。

    这不是亚马逊第一次在印度推语音助手。2017年,Alexa就登陆了印度,不过那时候只支持英语。2019年,亚马逊给Alexa Skills Kit加上了印地语支持。现在,轮到Alexa+了。

    “您被邀请加入印度Alexa+ Beta计划。我们正在创造一个全新的Alexa体验,您的反馈对于完善Alexa+的功能至关重要。加入Alexa+ Beta计划后,当印地语(印度)测试体验可用时,您将收到通知。”

    亚马逊在邮件里也提前打了预防针:beta版肯定有bug,可能会给出不准确的信息,也可能把本地的一些细微差别念错。公司确认了正在印度测试Alexa+,但没提供更多评论。

    为什么要盯上印地语?

    印度有超过6亿人讲印地语。对亚马逊来说,这是一个巨大的市场。而且,这些用户很多时候是”code-mixing”——就是说一句话的时候,印地语和英语混着用。

    公司们都清楚,在印度,语音可能会成为AI工具使用的一大因素。就在几天前,印度富豪Ambani还说过,要把AI塞进每一通电话、每一个App、每一个家庭。大家都在找让印度用户开口说话的方式。

    Alexa+是亚马逊在2025年推出的生成式AI对话助手。不过,它的推出速度挺慢的。今年2月,这个新体验才向所有美国用户开放。2026年,亚马逊把Alexa+的版图扩张到了英国、加拿大、巴西、墨西哥、意大利和德国,都加上了本地化支持。

    Prime用户免费,其他人要掏钱

    亚马逊给Prime会员提供免费的Alexa+,非Prime用户则得按月付费才能用上这个升级版助手。

    目前,Alexa+在印度还没正式上线,什么时候会推出也没个准信。不过,从开始beta测试来看,亚马逊应该是想在印度市场发力了。

    语音助手这个赛道,现在可不缺玩家。谷歌有Assistant,苹果有Siri,微软有Copilot。亚马逊的算盘是,靠印地语支持和对印度市场的理解,能抢到一块蛋糕。

    不过,要在印度把语音AI做好,难度不小。口音、方言、code-mixing,这些都是挑战。beta测试的用户反馈,会决定Alexa+在印度到底能走多远。


  • 从手写代码到AI循环:程序员的工作方式正在发生第三次跃迁

    从手写代码到AI循环:程序员的工作方式正在发生第三次跃迁

    AI agents循环概念图
    AI agents相互提示形成循环结构(概念图)

    上周五,Claude Code的创始人Boris Cherny出现在Meta的@Scale会议上。出乎意料的是,观众提出的第一个问题竟然是关于”循环”的。

    “循环是下一个炒作周期,还是真的有用?”提问者问道。

    Cherny的回答很干脆:”没错,它们是真实存在的。”

    “两年前,我们手写源代码。我们开始过渡到由agents来写代码。现在我们正在过渡到这样一个阶段:agents在提示其他agents,然后由后者来写代码。从源代码到agents这一步有多大,循环就是同样重要、同样大的一步。”

    在演讲的后面部分(大约32分钟标记处),Cherny具体谈到了他在自己工作中持续运行的循环。一个agent持续寻找改进代码架构的方法,而另一个则在寻找可以统一的重复抽象。它们像其他程序员一样提交pull requests,而且由于代码在不断变化,它们永远不会停止运行。

    循环到底是什么?

    随着向agentic AI的转变,大多数用户的焦点一直是尽可能好地管理他们的agents:建立明确的目标,检查离散的进度单元,不要让它们偏离提示太远。循环则更进一步,它授权一群agents在后台持续不断地工作。

    这是对AI的极大信任——但随着模型快速变好,这可能是让AI处理真实工作的下一步。

    首先要认识到,这并不完全是新东西。递归循环——调用自身以重复动作的函数,加上一个停止循环的条件——是计算机科学入门课程的主要内容。这些循环遵循的是非确定性逻辑,也就是说,是由一个子agent来选择何时停止循环,而不是一个明确的条件。但同样的基本方法正在发挥作用。

    一旦程序员开始使用AI来完成任务,AI监督AI的某种版本的递归循环就必然会出现。

    简单到令人抓狂

    与经典计算不同,agentic循环可以简单到令人抓狂。最流行的技巧之一是Ralph Loop(以Ralph Wiggum命名),它基本上总结了模型所做的所有工作,并询问是否完成了目标。这是处理AI模型运行时间过长而迷失方向的一种方式——本质上是在模型之间来回弹跳,直到任务完成。

    另一种思考循环的方式是,将其视为推动更多测试时计算的一部分。正如OpenAI研究员Noam Brown本月早些时候观察到的,如果你向当代模型投入足够的计算资源,它们几乎可以解决任何问题。这意味着确保问题得到解决的一种方法是,不断地向它投入计算资源,直到完成为止。

    这对于像改进代码库这样的爬山问题尤其适用,模型可以不断做出增量改进,直到达到给定的阈值。或者,就像Cherny的例子一样,只要有计算资源可以花费,它就可以不断做出增量改进。

    代价不菲,但可能值得

    如果这听起来很昂贵,那确实如此。就像之前的agentic AI一样,AI循环比简单的问答聊天机器人更快地消耗tokens——而且因为重点是让循环一直运行,所以你可以花费的金额没有上限。

    对于Anthropic来说,这没问题,因为它归根结底是在做tokens销售生意。但对于其他所有人来说,这可能是一种昂贵的工作方式。

    尽管如此,取决于agentic循环试图解决的问题,以及允许监督tokens支出、漂移和其他经典AI问题的正确设置,好处可能大到足以超过成本。


  • Google DeepMind豪掷7500万美元联手A24,AI工具敲开好莱坞大门

    7500万美元,Google DeepMind要向好莱坞证明AI不是来砸场子的

    AI进军创意产业的消息不少,但大多数时候,创作者们的反应是这样的:警惕、抗拒、或者干脆发起诉讼。Google DeepMind这回换了个思路——不先做了再求原谅,而是直接找好莱坞的”品味担当”A24坐下来谈合作。

    6月22日,Google DeepMind宣布向独立电影公司A24投资7500万美元,双方称这将是一个”首创性”的合作伙伴关系。合作内容是联合开发用于电影制作的AI工具,而Google DeepMind这边会”从顶尖艺术家那里获得反馈和指导”。

    AI与电影制作融合概念图
    Google DeepMind携手A24,AI工具正在进入电影制作流程 © 配图

    A24是谁?为什么是它?

    A24可能不是大众最熟悉的电影公司,但在影迷和从业者眼里,它是过去十年最有影响力的独立制片公司之一。《瞬息全宇宙》《仲夏夜惊魂》《遗传厄运》,还有最近的《Backrooms》,都是A24出品的。Timothée Chalamet和Anne Hathaway这些一线演员也和A24有过合作。

    选A24而不是 Disney 或者 Netflix,这个选择本身就很说明问题。A24在创作者群体里信誉度高,它愿意给导演和编剧留空间,这种文化和Google DeepMind想推的”赋能艺术家”叙事是吻合的。

    “我们相信,开发赋能艺术家的工具的最好方式,就是直接和他们一起工作。”——Demis Hassabis,Google DeepMind联合创始人兼CEO

    好莱坞的AI焦虑,不是一天两天了

    过去两年,AI和好莱坞的关系可以用”剑拔弩张”来形容。编剧工会在2023年大罢工时的核心诉求之一就是限制AI在剧本创作中的使用。导演和演员也担心,AI生成的内容和深度伪造技术会抢走他们的饭碗。

    但资本和技术的方向已经确定了。Netflix今年早些时候收购了Ben Affleck创办的AI工具公司InterPositive,专门给电影人开发AI辅助工具。Amazon的MGM Studios也在今年2月宣布成立AI部门,做电视剧和电影制作工具的研发。

    Google DeepMind这7500万美元的赌注,本质上是想在”AI+影视”这个叙事里抢占高地。它不是偷偷摸摸地做,而是公开地和一家受尊敬的电影公司绑定,让艺术家参与到工具开发的过程中来——这个姿态本身,就比直接推出一个”AI电影生成器”要聪明得多。

    工具还是替代品?这道线还没划清楚

    合作归合作,疑问还在。Google DeepMind和A24联合开发的AI工具,到底是用来辅助分镜、剪辑、后期这些”后台”工作的,还是会涉及到剧本创作、表演生成这些更敏感的地带?目前双方都没有给出具体细节。

    这种模糊其实是有意为之。太具体了反而容易引发争议。先把合作关系公布出来,让”AI工具和艺术家协作”这个叙事在舆论里扎根,等工具成型了再慢慢推出来——这才是大公司的一贯打法。


    更大的棋盘:AI公司的好莱坞争夺战

    把这笔投资放在更大的背景里看,它不只是Google DeepMind一家的事。OpenAI和好莱坞的接触也在持续,Sora视频生成模型展示出来的能力,已经让不少人开始重新想象电影制作的可能性。Meta也在砸钱,它的AI视频工具已经在Instagram上跑了一阵子了。

    A24选中Google DeepMind,Google DeepMind选中A24,这笔交易能不能产出真正好用的工具、能不能让创作者在不用恐惧的前提下用上AI,接下来两年会见分晓。对于观众来说,也许更值得期待的问题是:有了这些工具之后,电影会变成什么样子?

  • Groq在Nvidia挖角后逆势融资6.5亿美元,AI推理云的下一战才刚开始

    Nvidia的”非收购收购”之后,Groq活下来了

    去年12月,Nvidia和Groq之间那笔交易让不少人看不懂。Nvidia付了一笔可观的”IP授权费”,然后把Groq的创始人兼CEO Jonathan Ross、总裁Sunny Madra和一帮核心工程师全部挖走。这不是收购,但比收购还彻底——人走了,技术授权给Nvidia了,Groq还剩下什么?

    半年之后,答案似乎是:还挺多。6月22日,Groq正式宣布完成6.5亿美元的新融资,确认了此前外界的传闻。估值没有披露,但上次融资(2025年9月)时Groq的估值已经是69亿美元,这轮融资的投资人据传在上次Nvidia交易中已经赚得盆满钵满,现在继续押注。

    AI芯片与推理计算技术概念图
    AI推理芯片赛道持续升温,Groq在Nvidia挖角后完成新一轮融资 © 配图

    Jonathan Ross的遗产:从Google TPU到Groq LPU

    要理解Groq的价值,得先认识Jonathan Ross这个人。他在Google期间参与了TPU(张量处理单元)的研发,那是Google专门为AI计算设计的芯片。离开Google后,Ross和另一位Google工程师Doug Wightman一起创立了Groq,主攻方向是AI推理芯片——他们称之为LPU(语言处理单元)。

    Wightman在Nvidia交易后选择留在Groq,现在担任CEO。Ross和Madra走了,但Groq的技术团队和产品方向还在。更重要的是,Nvidia虽然拿到了LPU的IP授权,但Groq同步宣布了战略转型:从芯片厂商转向”NeoCloud”业务。

    NeoCloud这个概念,说白了就是专门为AI训练和推理优化的云基础设施服务,和AWS、Azure那种通用云不一样,它只干AI这一件事,而且干得更狠。

    13个数据中心,每周处理万亿级Token

    Groq的NeoCloud业务在Madra被挖走前就已经在运作(Groq在2024年收购了他的AI数据分析公司Definitive Intelligence)。根据公司披露的数据,目前已在北美、欧洲、中东和亚太地区部署了13个数据中心,服务超过500万开发者和数千家AI公司,每周处理的AI Token数量达到万亿级别。

    这个规模说大不大,说小也不小。和Nvidia、AWS、Google Cloud比起来,Groq还是个小朋友。但在AI推理这个细分赛道上,需求增长速度之快,让即使是很小的玩家也有饭吃。

    新管理层就位,从xAI和Meta挖来高手

    融资之余,Groq也在快速补强管理层。新上任的COO Alan Rice之前在xAI和Meta都干过,再之前在美国海军服役。CTO Sinclair Schuller和CPO Rakesh Malhotra是一对创业搭档,之前一起做过企业云软件公司Apprenda,后来又共同创立了软件工程公司Nuvalence,2024年被EY收购。

    Malhotra本人在微软待了大约十年,参与过多个云产品的开发。这个背景对Groq的NeoCloud业务来说相当对口。


    关键问题:IP给了Nvidia,Groq还能打吗?

    外界对Groq最大的疑问就在这里:Nvidia现在合法持有LPU技术的IP,而且已经在今年3月的GTC大会上发布了自己的Groq 3 LPX推理硬件系统。Groq转型做NeoCloud,本质上是在用别人的技术授权来运营云服务——这不就是帮Nvidia培育市场吗?

    但也有另一种看法。推理云服务这个赛道的需求增长太快,Nvidia一家吃不下所有客户。Groq如果能把NeoCloud的体验做到足够好,在性价比、延迟、开发者工具链这些维度上建立优势,它不一定非要靠自研芯片才能活。

    类似的剧情在Scale AI身上也发生过。去年Meta用143亿美元”不是收购的收购”把Scale AI的创始人Alexandr Wang和一批核心人才挖走,外界一度认为Scale AI要完了。但CEO Jason Droege今年5月对Forbes说,公司业务已经反弹,今年营收预计能达到10亿美元。

    AI这场大棋局里,人才流动和资本重组几乎每个月都在发生。今天被挖角,明天拿到新融资,后天可能又换一个赛道重新开始。Groq这6.5亿美元能不能让它真正站稳脚跟,接下来12个月见分晓。

  • 五眼联盟发了一份AI网络威胁警告,说’漏洞必然会发生’

    五眼联盟的五个网络安全负责人,难得地坐在一起发了一份联合声明。内容不长,但用词很重:AI正在”根本性地改变”网络攻防,而且这个时间窗口不是几年,是”几个月”。

    这份声明来自美国、英国、加拿大、澳大利亚和新西兰的网络安全机构负责人联合署名。他们说AI模型将在未来几个月内让进攻性和防御性网络能力发生根本性转变,而且”漏洞必然会发生”(breaches will occur)。

    AI网络安全概念图
    五眼联盟警告:AI正在加速网络攻击的速度和复杂度(图源:The Verge)

    “对手已经在用AI了”

    声明里有一句话很直接:”对手已经在用AI来移动得更快、更有效。”这里的”对手”指的是谁,大家都懂。五眼联盟的语境里,主要就是俄罗斯、中国、伊朗、朝鲜这几个国家的国家级黑客团队。

    AI对这些团队的价值在于:以前写攻击代码、找漏洞、做社工诈骗,都需要人手和 time。现在这些事AI可以帮忙加速。一个脚本小子加上一个会用的AI工具,产出的攻击代码可能比过去一个团队一周的产量还多。

    五眼联盟的原话:”防御者必须做同样的事情。”意思是,既然对手在用AI加速攻击,防守方也得用AI加速防御,不能还在用人眼盯日志。

    不是未来,是现在

    声明特别强调:AI不是”未来的考虑”——它已经在这里了。它降低了恶意行为者的门槛,同时增加了攻击的速度和复杂度。漏洞从被发现到被利用之间的时间窗口,正在被AI快速压缩。

    这个趋势其实已经在发生了。2025年到2026年,利用AI辅助发现零日漏洞的攻击报告明显增多。过去一个零日漏洞从被发现到出现在野外部署,可能要几周到几个月。现在有些漏洞在补丁发布之前就已经被利用了——AI帮攻击者更快地理解了补丁代码,逆向出了漏洞利用方式。

    给领导者的行动清单

    这份声明不是写给技术人员的,是写给企业领导者的。它列了五个”现在就做”的事项:

    • 缩小攻击面:能不暴露的系统就不要暴露,能隔离的就隔离。
    • 加速打补丁:AI缩短了漏洞利用的时间窗口,拖拖拉拉打补丁就是在给攻击者送分。
    • 处理遗留系统:不受支持的老系统不是”技术债”,是”战略负债”——这话说的挺狠,但也没错。
    • 强化身份和访问管控:谁能访问关键系统?多久审查一次权限?用多因素认证了吗?
    • 提前演练 incident response:假设一定会被攻破,练的是”怎么快速 containment(控制住)”,而不是”怎么防止被攻破”。

    用AI对抗AI

    声明最后说了一句话,算是给AI防御工具正名:组织如果把AI工具整合进安全运营,可以更早地发现漏洞、改善软件质量、监控异常行为、更快地响应事件。

    这其实是在回应一种质疑:有些企业领导者觉得”用AI做安全”是在赶时髦。五眼联盟的态度很明确:这不是赶时髦,这是必须做的事。你的对手已经在用了,你不用就是在送。

    这份声明本身的象征意义可能比具体内容更重要。五眼联盟一起出面,说明这件事已经上升到了国家级协调的层面。下一次如果真的有大规模AI辅助网络攻击发生,至少各方已经打过预防针了。

  • SpaceX把Colossus算力租给Reflection AI,开源阵营终于有大玩家了

    马斯克的SpaceX最近又签了一笔大单。这次的买家是Reflection AI——一家成立才两年的开源AI实验室。合同金额不算夸张,每月1.5亿美元,从今年7月算起,一直签到2029年7月,总价值63亿美元。

    这个数字听起来很大,但放在SpaceX的算力出租业务里只能算中等。Anthropic每月付12.5亿美元,Google每月付9.2亿美元,Reflection的1.5亿连零头都不到。当然,对于一家还没有正式发布产品的创业公司来说,能拿到Colossus 2数据中心的算力配额,本身就是一种背书。

    SpaceX xAI Logo
    SpaceX的Colossus数据中心现在向外部AI实验室开放算力租赁(图源:TechCrunch)

    开源AI的生存逻辑

    Reflection AI的两个创始人都是从Google DeepMind出来的,2024年创业,主打一个”开源对抗封闭”的叙事。他们的逻辑很简单:Anthropic和OpenAI那种黑箱模型,你根本不知道它怎么想的,也不让你改。Reflection要把模型权重公开,让企业和政府自己去部署、去审计、去改。

    这个叙事在政府禁令出来之后突然变得很值钱。美国那边刚把Anthropic的Fable和Mythos两款闭源模型给禁了,理由是”国家安全”。结果这一禁,反而让不少人开始认真看开源替代品。你总不能连开源模型也禁吧?那跟把所有螺丝刀都管制起来没区别。

    Reflection自己的声明说得很直白:”最近的事态说明开源对AI生态有多重要。越来越多的国家和企业意识到,只依赖闭源模型是有风险和成本的。”这话翻译过来就是:谢谢政府的神助攻。

    Colossus到底是谁的?

    这里有个细节挺有意思。Colossus数据中心最早是xAI建的——就是马斯克那家AI公司,Grok的大本营。后来xAI并进了SpaceX,数据中心也就归了SpaceX。所以现在的情况是:SpaceX拿着这批英伟达最新的GB300芯片,自己用不完,也不想全用来训Grok,干脆租给外面的人。

    Anthropic租了,Google租了,现在Reflection也租了。马斯克一边公开骂Anthropic的模型有安全问题,一边收着人家的租金,这个画面多少有点微妙。不过做生意归做生意,马斯克最近公开说那些长期合同”随时可以取消”,这是在向谁表态,大家心里都有数。

    63亿美元能买到什么

    Reflection拿到的是”立即访问权”——Colossus 2数据中心里的最新GB300芯片和配套硬件,从7月1日起就用。合同写了双方都可以在头三个月之后提前90天通知终止,这个条款基本上是照抄Anthropic和Google的合同模板。

    对Reflection来说,这笔钱花得值不值,取决于它能不能在接下来三年里做出真正能打的开源模型。现在开源阵营里最强的是DeepSeek,但DeepSeek是中国公司,在美国市场多少有点尴尬。Reflection如果能在美国做出一个同等水平的开源模型,机会是有的。前提是钱够烧、算力够用、人够聪明。


    63亿美元听起来很多,但摊到三年里,每月1.5亿,也就是每年18亿。Anthropic每年烧的钱比这个只多不少。AI军备竞赛的入场券,就是这么贵。

  • Qdrant:用Rust打造的高性能向量数据库,AI检索引擎的新标杆

    Qdrant:用Rust打造的高性能向量数据库,AI检索引擎的新标杆

    🚀 项目简介

    Qdrant 是一个用 Rust 编写的高性能、大规模向量数据库与向量搜索引擎,专为下一代 AI 应用设计。它将向量相似度搜索与丰富的 JSON 元数据处理能力深度融合,是构建 RAG、语义搜索、AI 智能体等应用的理想检索底座。

    GitHub:qdrant/qdrant|Stars:32.5K+|语言:Rust 🦀|许可:Apache 2.0

    ⚙️ 安装要求与过程

    环境要求

    • 最低配置:2 vCPU、4GB RAM(测试环境)
    • 生产推荐:8+ vCPU、16GB+ RAM、SSD 存储
    • 支持平台:Linux / macOS / Windows(Docker)、Kubernetes
    • 客户端支持:Python、JavaScript/TypeScript、Go、Rust、.NET/C#、Java
    • 依赖:Docker(快速启动),或直接从 Release 下载二进制

    快速安装(Docker 方式)

    # 拉取并启动 Qdrant(默认端口 6333)
    docker run -p 6333:6333 qdrant/qdrant
    
    # Python 客户端连接
    pip install qdrant-client
    
    python -c "
    from qdrant_client import QdrantClient
    client = QdrantClient(url='http://localhost:6333')
    print(client.get_collections())
    "

    其他安装方式

    • Qdrant Cloud:注册即用,含免费套餐(cloud.qdrant.io
    • 自托管 Kubernetes:官方 Helm Chart 支持
    • Qdrant Edge:轻量版,可嵌入应用进程,适合边缘设备
    • Hybrid Cloud / Private Cloud:企业级自建云部署方案

    ⭐ 核心功能

    🔍 多向量搜索

    同时支持稠密向量(语义搜索)、稀疏向量(关键词搜索)、多向量(ColBERT 等晚期交互模型),一套引擎覆盖全场景。

    🔀 原生混合检索

    在单次查询中融合稠密与稀疏向量,支持 BM25、SPLADE++、miniCOIL 等多种算法,结果通过 RRF/DBSF 策略智能合并。

    📊 高级元数据过滤

    HNSW 遍历过程中直接应用过滤条件(非后过滤),支持嵌套对象、全文检索、地理位置、has_vector 等丰富过滤类型,高召回低延迟。

    ⚡ 极致性能优化

    Rust + SIMD 指令加速;Scalar/Asymmetric/Binary 量化降低内存占用最高 64 倍;GPU 加速索引(NVIDIA/AMD);io_uring 异步 I/O 最大化磁盘吞吐。

    🏗️ 企业级部署能力

    分布式水平扩展(分片 + 副本);零停机扩缩容;多租户数据隔离;SOC 2 / GDPR 合规;SSO(SAML/OIDC);Prometheus / Grafana / Datadog 监控集成;严格模式磁盘保护;WAL 持久化保证断电不丢数据。

    🏆 典型使用场景

    📚 RAG(检索增强生成)系统

    Qdrant 是 RAG 应用最流行的向量数据库选择之一。将企业文档、知识库切分后存入 Qdrant,用户提问时先向量检索最相关片段,再喂给 LLM 生成答案。Tripadvisor 使用 Qdrant 为数十亿条评论和图片提供 AI 旅行规划检索,收入提升 2-3 倍。
    技术栈:Qdrant + LangChain/LlamaIndex + OpenAI/DeepSeek

    🤖 AI 智能体长期记忆

    AI Agent 需要跨会话持久化记忆,Qdrant 提供高性能向量存储让智能体”记住”历史上下文。Deutsche Telekom 的多智能体平台基于 Qdrant 实现实时上下文检索,支撑 200 万+ AI 驱动对话。
    技术栈:Qdrant + Mem0 + LangChain/CrewAI

    🛍️ 电商语义推荐系统

    传统关键词搜索无法理解用户意图,Qdrant 的向量语义匹配让”类似风格””可以搭配”等模糊需求精准命中。Lyzr 的 AI 智能体平台接入 Qdrant 后,延迟降低 90%、吞吐量提升 150%。支持实时相似度匹配数百万商品,结合元数据过滤实现个性化推荐。
    技术栈:Qdrant + 多模态嵌入模型(CLIP)+ 推荐算法

    💡 推荐理由

    作为一个深度使用过多个向量数据库的开发者,Qdrant 给我印象最深刻的是它的“工程完成度”。以下是我的真实使用体会:

    • 🦀 Rust 带来的安心感:生产环境最怕 OOM 和奇怪的崩溃,Qdrant 用 Rust 编写,内存安全 + 高并发,跑了几个月稳如磐石,不像某些 Java 系的方案动不动就要调 JVM 参数。
    • 🎯 过滤性能是真的强:很多向量数据库的元数据过滤是”后过滤”(先搜再筛),大数据量下性能灾难。Qdrant 的过滤是在 HNSW 遍历过程中完成的,实测百万级向量 + 复杂过滤条件,延迟依然在毫秒级。
    • 📦 量化功能省真金白银:Scalar Quantization 开箱即用,内存占用直接砍掉 75%,精度损失微乎其微。如果用量大,这一项就能省好几台服务器的钱。
    • 🔌 生态集成无脑顺畅:LangChain、LlamaIndex、Haystack、MCP 协议……主流 AI 框架全部原生支持,基本不用写适配代码,直接 pip install qdrant-client 开箱即用。
    • ☁️ Cloud 免费额度够用:不想自己运维可以用 Qdrant Cloud,免费套餐够小型项目跑起来,后续扩容也无缝迁移,不用担心被锁定。

    ⚠️ 注意事项:默认 Docker 启动是无认证的,千万不要直接暴露到公网!一定要先看官方安全配置指南,开启 API Key 或 mTLS 认证。另外,如果数据量在千万级以下,其实 Chroma 这类更轻量的方案也够用,Qdrant 的优势在大规模生产场景才完全体现。

    📦 下载地址 & 资源链接

    🌐 官方网站

    qdrant.tech

    💻 GitHub 仓库

    github.com/qdrant/qdrant

    ☁️ Qdrant Cloud

    cloud.qdrant.io(含免费套餐)

    📖 官方文档

    qdrant.tech/documentation

    🐍 Python 客户端

    qdrant-client (PyPI)

    📊 性能基准测试

    qdrant.tech/benchmarks

    Apache License 2.0 开源 · 完全自托管 · 32.5K+ Stars

  • 有人做了个AI”名气排行榜”,你的名字在大模型里有多大分量?

    有人做了个AI”名气排行榜”,你的名字在大模型里有多大分量?

    AI模型名气排行榜
    “In the Weights”网站界面,像素风设计,展示AI模型对人物的”认知强度”

    你上一次在谷歌上搜索自己的名字是什么时候?如果你试过,你可能已经注意到结果和以前不太一样了。这不是你的错觉——随着聊天机器人越来越成为人们获取信息的主要方式,搜索引擎已经不再是那个”权威记录者”了。

    那么问题来了:如果有人想看看自己在AI眼里”存在”吗,该怎么办?

    两个前OpenAI员工做了一个”AI虚荣搜索”

    托马斯·丁森和乔伊·弗林决定解决这个问题。他们做了一个叫”In the Weights”的网站——名字里的”weights”指的是AI模型的参数权重,也就是那些决定模型输出效果的神秘数字。

    这个网站做的事情很简单,但也足够让人上头:它向十几个主流AI模型(包括Grok、Gemini、多个版本的GPT、Claude、Llama)提出一个类似”XXX是谁?给出最多10个结果”的问题,然后给出一个”强度分数”。分数越高,意味着AI模型们越”认识”你。

    “在weights里,意味着你的存在被认为在创造超级人工智能的过程中是重要的。”——In the Weights网站关于页面

    排行榜一直在变

    网站的排行榜是实时变化的——就在我写这篇文章的时候,排名第一的是《小鬼当家》的主演麦考利·卡尔金,他的强度分数是988,和歌剧演唱家卢西亚诺·帕瓦罗蒂咬得很紧。

    TechCrunch的作者安东尼·哈——就是报道这件事的那位记者——在这个网站上的强度分数是641,排在前6%。他承认自己看了一眼同事的分数之后,感觉还能再高一点。

    网站还会标注可能的AI幻觉:显然GPT-5.4 Mini在回答”Anthony Ha是谁”的时候,给出的答案是”这是一个缩写,可能指代多个人”。

    这不只是虚荣心作祟

    丁森在接受TechCrunch采访时说,2026年做谷歌式的”虚荣搜索”已经不对了,因为越来越多的流量在流向大模型。他还说,这个网站的方向某种程度上是被一篇戏谑的博客文章”定调”的——那篇文章用幽默的方式讨论了AI权重和”我们是否只是一堆肉做的”这个经典哲学问题。

    到目前为止,这个网站的”接收情况”已经超出了他们的预期。他们本来以为这会是一个小小的好奇心满足工具,没想到它好像触发了某种神经——人们真的很好奇自己是否能在超级智能里”永垂不朽”。


    In the Weights用一种轻松、怀旧的方式(网站界面是任天堂NES风格的像素风)提出了一个严肃的问题:当AI模型成为人们认知世界的主要中介的时候,被AI”记住”到底意味着什么?你可以去试试看——但友情提醒,分数可能会让你有点在意。