标签: AI

  • Cursor发布Composer 2.5:不换底座追上Opus 4.7,成本仅1/10

    Cursor这次真的被我急了。过去几个月,Claude Code抢走了大量开发者注意力,Anthropic那帮人做的编程助手不仅能力强,还能以Cursor根本拿不到的价格直接服务用户。相当于Cursor一边和Claude Code竞争,一边还得向Anthropic付钱用他们的模型——这生意怎么算都别扭。

    5月18日,Cursor扔出了Composer 2.5。有意思的是,他们没换底座模型,仍然用着月之暗面的Kimi K2.5,但把85%的计算预算全部砸进了后训练。训练数据量是上一代的25倍,强化学习轮次拉满。结果在SWE-Bench Multilingual上拿到79.8%,和Claude Opus 4.7的80.5%几乎贴着跑。


    成本才是真正的杀手锏

    Composer 2.5每百万输入token收费0.50美元,输出2.50美元。达到同样性能,OpenAI和Anthropic的竞品要花差不多10倍的钱。Cursor自己做的effort curve显示,用不到1美元的单任务成本就能在CursorBench v3.1上拿到63%的成绩,而Opus 4.7和GPT-5.5得花好几美元才能摸到这个线。


    三个关键技术改进

    Cursor搞了三个关键改进。第一个是带文本反馈的定向强化学习——模型跑长任务时,不是等整个任务结束才给奖励信号,而是在出错的地方直接插入提示(比如工具调用失败时提醒”Available tools…”),让模型立刻知道哪步做错了。

    第二个是大规模合成数据,用”功能删除”法生成训练样本:从可运行代码库里删掉某个功能,让模型重新实现,用测试通过与否作为奖励信号。

    第三个是Sharded Muon优化器,分布式跑Newton-Schulz正交化,1T参数模型单步优化只需0.2秒。


    马斯克确认用Colossus 2训练

    马斯克在推特上转发了Composer 2.5的发布,还透露这模型部分跑在Colossus 2超算上训练。Cursor已经宣布下一代模型要用Colossus 2的百万H100等效算力,计算量是现在的10倍。按照这个节奏,Anthropic和OpenAI在编程模型上的定价优势,可能撑不了太久。

    AI编程工具市场正在分裂成两个阵营:一边是模型厂商自己做工具(Anthropic的Claude Code、OpenAI的Codex),另一边是独立工具厂商(Cursor、Warp、Zed)。独立厂商的命门是上游模型依赖,Cursor这次证明了一件事:你不一定要自研底座模型,后训练+合成数据+强化学习这套路,足以在垂直场景追平顶级模型。

  • LlamaIndex:49.5k Stars!领先的大模型数据框架,让AI理解你的私有数据

    LlamaIndex:49.5k Stars!领先的大模型数据框架,让AI理解你的私有数据

    🦙 LlamaIndex
    49.5k Stars!领先的大模型数据框架,让AI理解你的私有数据
    ⭐ 49.5k Stars
    🔧 数据框架
    📚 RAG引擎

    💡 项目简介

    LlamaIndex 是用于构建智能体(agentic)应用的开源框架,提供数据接入、结构化组织、检索增强接口等完整能力。它核心解决如何用私有数据增强LLM能力的问题——LLM本身基于公开数据预训练,无法直接获取用户私有数据,而LlamaIndex提供完整工具链,实现私有数据的接入、结构化、检索增强全流程。

    目前LlamaIndex已在GitHub获得49,514 Stars,是构建RAG(检索增强生成)应用的首选框架之一。无论是新手还是高级开发者,都能找到适合自己的API层级。

    ⚙️ 安装要求和过程
    环境要求
    Python版本:3.8+
    依赖管理:pip
    可选:OpenAI API Key(使用OpenAI模型时)

    快速安装
    # 新手快速上手(推荐)
    pip install llama-index
    
    # 高级用户自定义安装
    pip install llama-index-core  # 核心框架
    pip install llama-index-llms-openai  # OpenAI集成
    pip install llama-index-llms-ollama  # Ollama本地模型集成
    pip install llama-index-embeddings-huggingface  # HuggingFace嵌入模型

    ✨ 核心功能
    📥 多源数据接入
    提供数据连接器,支持接入API、PDF、文档、SQL等各类数据源和格式。无论是本地文件还是在线服务,都能轻松整合。

    🗂️ 数据结构化组织
    支持构建索引、知识图谱等结构,让数据可被LLM高效使用。提供多种索引类型:向量索引、树形索引、列表索引等。

    🔍 高级检索与查询接口
    输入LLM提示词,即可返回检索到的上下文和知识增强后的输出。支持多种检索策略:向量检索、关键词检索、混合检索等。

    🔧 灵活扩展性
    支持自定义所有核心模块,适配不同场景需求。提供300+集成包(LlamaHub),覆盖LLM、嵌入模型、向量存储等组件。

    🤖 多模型兼容
    支持OpenAI、本地Ollama、HuggingFace等各类LLM和嵌入模型。无需修改代码即可切换底层模型,真正实现解耦。

    🚀 典型使用场景
    1️⃣ 企业知识库问答系统
    将公司文档、PDF、API文档等私有数据接入LlamaIndex,构建智能问答系统,让员工快速获取准确信息。支持多用户、权限管理、对话历史等高级功能。

    2️⃣ 个人第二大脑
    整合个人笔记、文章、代码注释等,构建个性化AI助手,实现智能检索和知识管理。配合LlamaParse,甚至能解析扫描版PDF和图片。

    3️⃣ RAG应用快速原型
    利用LlamaIndex的高阶API,仅需5行代码即可完成数据接入和查询,快速验证RAG应用想法。适合创业团队快速MVP验证。

    💡 推荐理由

    🎯 完美的平衡:LlamaIndex是我接触过的最优雅的RAG框架之一。它完美平衡了易用性和灵活性——新手可以用5行代码快速上手,高级用户又能深度定制每个组件。

    🔌 强大的生态:特别是它对各类LLM和向量存储的广泛支持(300+集成包),让你可以轻松切换不同的技术栈而无需重写代码。LlamaHub让集成变得像pip install一样简单。

    📖 优秀的文档:它的文档详尽、社区活跃,几乎能找到所有常见问题的解决方案。从入门教程到高级进阶,覆盖全链路。

    🚀 企业级能力:配套的企业级文档智能处理平台LlamaParse,支持130+种文档格式解析,让非结构化文档的结构化处理变得轻而易举。

    📥 下载地址
    🔗 相关链接
    GitHub仓库https://github.com/run-llama/llama_index
    官方文档https://developers.llamaindex.ai
    LlamaParse(企业文档OCR)https://cloud.llamaindex.ai
    PyPI安装pip install llama-index

    📌 开源协议
    LlamaIndex 使用 MIT License,允许商用、修改、分发,非常适合企业和个人开发者使用。


    📌 本文属于「开源项目」系列,持续介绍GitHub上的优质AI开源项目,欢迎关注!

    🔥 下期预告:更多精彩AI开源项目即将上线,敬请期待…

  • 从少年黑客到铁穹研究员,他融了2800万美元教AI识别钓鱼邮件

    Shay Shwartz少年时期靠黑客技术谋生,16岁那年失手被抓,在法庭上他意识到自己的网络安全才能可以用来防御攻击,而不是发起攻击。此后他一路打怪升级,在以色列精英国防和情报部门干了十年,参与了铁穹项目的相关研发工作。

    Ocean AI创始团队
    Ocean AI创始团队(来源:Ocean / TechCrunch)

    AI把钓鱼攻击的门槛踩碎了

    过去只有高度成熟的黑客才能发起精准的鱼叉式钓鱼,因为要针对特定目标做大量调研,费时费力,能盯上的人很有限。AI出来之后,整个流程被自动化了——大语言模型可以批量采集公开信息,几秒钟生成针对某个人的高度定向钓鱼邮件,规模和精度都不是一个量级的。

    “我可以指示大语言模型去了解你的具体信息,大量采集公开信息,生成针对你的高度定向钓鱼攻击。”Shwartz对TechCrunch说。

    Ocean怎么做邮件安全

    Shwartz认为,传统供应商(Proofpoint、Mimecast)和新兴玩家(Abnormal Security)能检测常规钓鱼攻击,但对付AI驱动的定向攻击需要不同的思路。

    Ocean的做法是用小型语言模型去全面分析每封 incoming 邮件的上下文,识别欺诈和冒充行为,理解发件人的意图,再结合用户所属组织的具体场景做判断。Shwartz打了个比方:就像每个门口都有守卫,每封邮件进来都要被盘问一遍。

    目前Ocean每月为Kayak、金士顿科技、Headspace等客户审查数十亿封邮件。模型体量小,速度快,能在邮件到达用户收件箱之前完成判断。

    2800万美元,Lightspeed领投

    这轮融资由Lightspeed Venture Partners领投,Picture Capital和Cerca Partners跟投。天使投资人阵容也很豪华:Wiz联合创始人兼CEO Assaf Rappaport,以及近期以77.5亿美元被ServiceNow收购的Armis联合创始人Yevgeny Dibrov和Nadir Izrael都参与了。

    Ocean之前一直在隐身模式,现在正式亮相,时机挑得挺准——AI钓鱼攻击的量级正在指数级攀升,企业邮件安全是个真实且正在扩大的痛点。


  • Google I/O 2026全记录:Gemini 3.5、AI搜索和智能眼镜全部到位

    Google I/O 2026的主题只有一个:把Gemini塞进你数字生活的每一个角落。这场发布会5月19日开幕,整整两天的议程里,几乎没有哪个产品没被AI重新做一遍。

    搜索的”十个蓝色链接”时代正式结束

    搜索率先被改造。新搜索框支持长对话式查询,还能给出AI驱动的查询建议,你甚至可以往搜索框里直接拖文档、图片、视频和Chrome标签页。AI Overviews(AI概览)的月活已经摸到25亿,对话式搜索模式的月活也有10亿。

    信息代理(information agents)会在后台7×24小时帮你跑任务,生成式UI即时生成交互式视觉内容,背后由Gemini Flash 3.5驱动。出版商的日子估计不太好过了——referral流量还会继续掉。

    Gemini Flash 3.5驱动的搜索,已经不再是”搜完给你十个链接”的逻辑,而是直接帮你把事情做完。

    Gmail现在能跟你对话了

    Gmail Live语音交互模式在I/O上亮相,直接说话就能查邮件、提取行程、找学校通知。不用再盯着列表一页页翻。Workspace这边还有个AI图像生成应用叫Google Pics,支持点击图片局部标注修改需求,不用把提示词全部重写一遍,背后跑的是Gemini和Nano Banana 2模型。

    Gemini Spark:常驻后台的AI代理

    最值得一提的是Gemini Spark。这不是你叫它才动一下的聊天机器人,而是一个常驻后台的AI代理,能自动写完邮件、生成学习指南、监控订阅费用,还能对接Workspace、Canva、OpenTable这些第三方应用。

    硬件:XR眼镜合作款全部亮相

    Android XR眼镜的合作款全部亮相——三星、Gentle Monster、Warby Parker的版本都出来了,计划2026年年内发布。谷歌自研的Project Aura眼镜也更新了,计算单元更强,加了指纹解锁,还有新的充电盒设计。

    Wear OS 7也有更新,加入了类似iPhone的”实时更新”功能,手表上能同步快递、赛事比分等动态信息,还能查看AI代理的自动化任务进度。

    定价:Ultra订阅拆分两档

    谷歌把AI订阅Ultra拆成了100美元/月和200美元/月两档,200美元那档包含Project Genie世界模型的访问权限。这个定价明显在对标OpenAI Pro,谷歌这次是真的在全栈铺开,而不只是做个 benchmark 冠军。


  • 谷歌搜索亲手埋掉了十个蓝色链接,25年的老界面彻底变了

    “十个蓝色链接”——这个词在互联网上活了25年,从谷歌1990年代把搜索框推向大众开始,就是这个样子。输入关键词,吐出来一排蓝色超链接,点进去自己找答案。这套逻辑所有人习以为常,直到2026年5月19日谷歌I/O大会,它宣布:这个时代结束了。

    新搜索框是这次改造的核心。谷歌说这是搜索框自诞生以来最大的一次改动。它不再只是一个输入框了——能自动扩展长度来容纳长对话式查询,内置AI驱动的查询建议(不是简单的自动补全,而是理解你的意图来帮你构建更复杂的问题),而且你不需要在搜索前选择”要用AI模式还是普通模式”,系统自己判断。

    Google慕尼黑总部外墙
    谷歌慕尼黑总部(图片来源:TechCrunch)

    信息代理:谷歌提醒的进化版

    2003年谷歌推出过”谷歌提醒”(Google Alerts),关键词有新结果就发邮件通知你。那个服务现在还在,但早就不是人们获取信息的主要方式了。

    这次的新东西叫”信息代理”(information agents),背后的逻辑是一样的——追踪变化、推送通知——但能力强了太多。你可以让一个代理7×24小时在后台跑,用你自定义的参数监控某个行业的股市动向,它不只是发现变化,还能理解变化的意义,汇总之后通知你,附带来源链接和进一步查看的信息。

    谷歌搜索负责人Liz Reid在发布会上举了个例子:你可以设置提醒,用非常具体的参数追踪某个特定行业的股票市场动向,代理会为你制定监控计划,包括它需要访问的工具和数据——比如我们的实时金融数据。然后它会持续追踪这些变化,在条件满足时通知你。

    生成式UI:搜索结果变成交互式网页

    另一个有意思的更新是”生成式UI”——根据用户的问题,即时生成动态布局的交互式视觉内容。比如你问关于黑洞的问题,搜索结果不是一段文字,而是一个可以把概念具象化的交互式可视化组件,你接着问,它实时生成全新的视觉内容。

    这套系统由谷歌DeepMind团队用Gemini Flash 3.5模型开发,今年夏天会免费向所有谷歌用户推出。除此之外,用户还能用自然语言指令在搜索里直接搭建自己的小应用(比如根据日历信息做膳食规划、健身追踪等),这背后是谷歌的Antigravity代理开发平台在支撑。


    出版商要紧张了

    这套改动有一个绕不开的副作用:出版商从谷歌搜索拿到的引流会继续大幅下降。AI概览(AI Overviews)已经让很多媒体网站的referral流量掉了不少,现在搜索结果里直接出交互式内容,用户更没有理由点链接出去了。对一些依赖广告的媒体来说,这可能会是最后一根稻草。

    谷歌这边倒是不担心,AI概览的月活已经突破25亿,去年推出的对话式搜索模式月活也过了10亿。用户用脚投票,答案直接在搜索页上给到,何必再跳一次。

    搜索这件事的本质正在发生变化——从”帮你找信息”变成”帮你把信息消化好直接给你”。这个过程里,用户省了事,但整个内容生态的流量分配逻辑也被重新洗牌了。出版商适应得过来吗?今年夏天见分晓。

  • OpenAI上线图片溯源功能,AI生成图终于有身份证了

    前几天刷到一张真假难辨的图,第一反应是去翻评论区看有没有人说是AI做的。这种事现在越来越常见,AI生成的图像质量越来越高,肉眼基本看不出破绽,结果就是谣言、诈骗、假新闻配图越来越难甄别。

    5月19日,OpenAI终于动了,宣布了两件事:一是接入C2PA开放标准,在图片元数据包里写清楚”这张图是AI生成的”;二是和谷歌合作,给图片嵌入SynthID不可见水印,截图、裁剪、加滤镜都抹不掉。

    Google SynthID开发者大会展示图
    谷歌SynthID水印演示现场(图片来源:TechCrunch)

    两套系统,互补短板

    C2PA的好处是信息量大,谁生成的、用什么模型生成的,都能写进去。问题是元数据太容易被篡改,有人故意删掉就白搭。SynthID正好反过来,水印嵌在像素层,抗干扰能力强,但能携带的信息有限。

    OpenAI的说法是:水印在截图之类的转置操作里更耐用,元数据能比单独的水印提供更多信息,两个一起上,可靠性比单用任何一层都高得多。

    一个公开验证工具正在预览

    光有水印不够,得让用户能用才行。OpenAI在做的验证工具,上传一张图就能检测有没有C2PA标识或SynthID水印,初期只支持自家的DALL·E等模型生成的图像,但OpenAI说希望未来能扩展到其他公司的AI工具。

    这件事的意义不只是”OpenAI给自己打标记”。作为头部玩家,OpenAI同时支持C2PA和SynthID,等于在推整个行业往统一溯源标准上走。不然每家各自为战,用户要装一堆检测工具,最后还是一地鸡毛。


    目前只管自家图片

    有个现实的限制:这两套保护措施只覆盖OpenAI自己生成的图片。网上那些用Stable Diffusion、Midjourney或者其他野路子公司工具生成的图,暂时还不归它管。所以这套方案目前最大的作用是确保OpenAI”不当帮凶”,而不是一口气解决整个AI假图问题。

    不过方向是对的。溯源这件事,不做就永远没有,做了至少有个起点。等覆盖的模型多了、用户习惯用验证工具了,AI生成内容的透明度才能真正提上来。

  • Google把20年街景数据喂给了Genie,AI现在能模拟你家门口的街道了

    你有没有在Google Maps的街景里「逛」过别人的 neighborhood?把那个小黄人往巴黎某条街上一扔,看看酒店是不是在安全的地段。Google现在想把这件事变得不止是「看看」,而是让你真正走进去、改天气、看暴风雪里的同一条街是什么样子。

    5月19日的Google I/O大会上,DeepMind宣布把Street View的数据接入Project Genie——Google的通用世界模型。简单来说,Genie可以根据文字或图片提示,生成可交互的游戏式三维环境。现在加上街景,它生成的就是真实世界的地方。

    Google Genie Street View 模拟展示
    Genie接入街景数据后,可生成纽约街景的交互式模拟(图源:TechCrunch)

    为什么这件事有意思

    DeepMind研究员Jack Parker-Holder举了一个很具体的例子:一个即将部署到伦敦的机器人,那边常年见不到什么太阳。用Genie,他们可以模拟阳光从维多利亚式房屋上反射下来的罕见场景,这样机器人真的遇到时就不会「懵掉」。

    「你可以说,我要去纽约,但不是这个季节,是下雪的时候。我想看看那条街在下雪时是什么样子。」

    街景数据积累,Google干了20年。背着摄像头的小车和塞了相机的背包,在全球110个国家和七大洲拍了超过2800亿张图片。这些数据的价值,过去主要体现在地图产品和广告上,现在DeepMind找到了新用法。


    不只是玩游戏

    Genie 3去年8月开放了研究预览,今年1月向美国的Google AI Ultra订阅用户开放。它的目标应用场景有三个:教育、游戏、机器人训练。接上街景之后,机器人训练这个场景立刻变得很实。

    Waymo已经在用Genie的模拟器来训练无人驾驶汽车应对「极罕见事件」——比如龙卷风,或者一头大象突然出现在路上。以前这种场景只能靠人工合成,现在有了街景作为基底,模拟出来的环境至少地理位置是真实的。

    和Waymo自己的模拟器相比,Genie的优势在于视角。Waymo的模拟都是从车载摄像头角度看的,而街景数据可以切换到任意视角——机器人视角、行人视角、甚至无人机视角。

    • 2800亿张街景图片覆盖全球110个国家
    • Waymo已用Genie模拟龙卷风、大象等极端场景
    • 支持任意视角切换(车载/行人/机器人/无人机)
    • 教育、游戏、机器人训练三大目标场景

    还差在哪里

    坦率说,现在的效果还没到「以假乱真」的程度。Google团队给我看的样片,包括我以前住过的一个街区的海底版本,识别度很高,但画质还是电子游戏水准,不是照片级真实。

    更大的问题是物理规律。现在的Genie模型还没有真正理解因果关系——比如在一个约书亚树国家公园的雪地场景模拟里,跑过去的人直接穿过了仙人掌和灌木丛。物理规则不是硬编码进去的,模型是通过被动观察自己「悟」出来的,这个过程还需要时间。

    「这类模型在准确度和质量上,可能比视频生成落后6到12个月。但我认为这是可以解决的。」——Jack Parker-Holder

    对比一下,Google自己的图像生成器Nano Banana已经能在信息图里生成完美的文字,视频生成器Veo也理解了纸船会跟着水流漂、烟会在空气中散开这些物理常识。Genie要追上这个水平,还得再跑一阵。

    目前,Street View in Genie已经向部分美国Ultra用户开放,接下来几周会逐步扩展到全球Ultra用户。DeepMind的产品经理Diego Rivas提醒说,这还是一个实验性的东西,准确度方面还有很多要改进的地方。

    但方向是清晰的。Google Maps的前总监Jonathan Herbert说,他们很早就在想怎么把地图数据用在新形式的AI研究上。Genie接入街景,是这个世界模型第一次真正摸到「真实世界的地基」。接下来会发生什么,值得盯着看。

  • Andrej Karpathy官宣加入Anthropic,OpenAI联合创始人为何选择竞对

    5月19日,AI圈被一条推文炸开了锅——Andrej Karpathy在X上官宣了自己加入Anthropic的消息。这位OpenAI的联合创始人、特斯拉前AI负责人,选择在这时候加入Claude的缔造者,让不少人感到意外。

    「我认为LLM前沿领域接下来的几年会特别关键。我很兴奋能加入这里的团队,重新回到研发一线。」——Andrej Karpathy

    他到底是谁

    karpathy在AI圈子里的分量,不需要太多介绍。他是OpenAI的创始成员之一,早年深耕深度学习和计算机视觉,2017年被马斯克挖去特斯拉,一手搭建了FSD(全自动驾驶)和Autopilot的核心团队。2022年离开特斯拉后,他短暂回归OpenAI一年,2024年又出来创立了Eureka Labs,想用AI助手做教育。

    他还有一门非常出名的在线课程《Neural Networks: Zero to Hero》,教学生从零开始用代码实现神经网络,在YouTube上有一大批忠实观众。可以说,他是少数几个既能搞懂大模型理论、又能真正把大规模训练跑起来的人。

    Andrej Karpathy
    Andrej Karpathy(图源:San Francisco Chronicle / Getty Images)

    在Anthropic做什么

    Karpathy本周正式入职Anthropic,在Nick Joseph的带领下专注于预训练(pre-training)方向。预训练是构建前沿模型最烧钱、最吃算力的阶段,直接决定了Claude的核心知识和能力上限。

    Anthropic方面还透露,Karpathy会着手组建一个专门的团队,研究方向是用Claude来加速预训练研究本身。这个思路很清晰——用AI来研究AI,用更强的模型来帮自己训练下一代模型,形成研发飞轮。


    为什么是现在

    Anthropic在这个时间点挖来Karpathy,信号很明确:他们相信AI辅助的研发,而不仅仅是堆算力,才是接下来和OpenAI、Google竞争的关键。能同时懂LLM理论和大尺度训练实践的研究者,圈子里掰着手指头数得过来,Karpathy是一个。

    至于他创立的Eureka Labs,目前还没有进一步的消息。Karpathy在自己的帖子里也提到,他对教育的热情不会消失,未来会找时间继续这件事。

    • OpenAI联合创始人身份,深度参与GPT早期研发
    • 特斯拉FSD团队缔造者,大规模AI落地经验
    • 顶级AI教育者,Zero to Hero课程影响数十万开发者
    • 唯一同时深度参与过OpenAI和特斯拉AI全栈的领军人物

    同一天,Anthropic还宣布了另一位重磅人才的加入:网络安全老将Chris Rohlf加入了前沿红队(frontier red team)。Rohlf在Yahoo的”The Paranoids”安全团队成名,后来在Meta待了六年,职业生涯跨度超过20年。他在X上写道:「我们有一个真正的机会,用AI大幅改善网络安全」,并认为此刻加入Anthropic是正确的选择。

    两则人事消息同一天公布,怎么看都像是Anthropic在Google I/O期间的一次精准人才公关。不管是巧合还是刻意为之,Anthropic正在用行动告诉外界:他们不仅在模型能力上追,在人才吸引上也一点不虚。

  • AnythingLLM:60.3k Stars!全功能AI生产力加速器,隐私优先的本地知识库方案

    AnythingLLM:60.3k Stars!全功能AI生产力加速器,隐私优先的本地知识库方案

    AnythingLLM

    📦 项目简介

    AnythingLLM 是一款全功能一体化AI生产力加速器,默认本地运行、隐私优先。它将LLM聊天、RAG文档检索、AI代理、多模态支持完美集成在一个应用中,让你无需复杂配置即可拥有属于自己的私有AI助手


    ⚙️ 安装要求和过程

    环境要求

    • 桌面版:Windows/macOS/Linux,直接下载安装包
    • Docker版:Docker 20.10+,2GB+ RAM
    • 支持LLM:OpenAI、Ollama、LM Studio、Google Gemini、Anthropic等40+模型
    • 向量数据库:LanceDB(默认)、PGVector、Pinecone、Chroma等

    # 快速安装 – Docker方式

    docker pull mintplexlabs/anythingllm:latest

    docker run -d -p 3001:3001 –name anythingllm mintplexlabs/anythingllm:latest

    # 桌面版直接下载

    访问 https://anythingllm.com/download 下载对应系统安装包


    核心功能

    📚 RAG文档对话

    支持PDF、TXT、DOCX等多种文档格式,内置RAG(检索增强生成)能力,让AI精准理解你的文档内容。

    🤖 内置AI代理

    自动执行网页浏览、工作流自动化等复杂任务,支持无代码代理构建器,最多可降低80%的token消耗

    🔌 全面MCP兼容

    完全兼容MCP(模型上下文协议),可对接外部工具,扩展AI能力边界。

    👥 多用户权限管理

    Docker版本支持多用户权限管理,适合团队共享知识库,保护企业知识产权。

    🎨 多模态支持

    支持多模态LLM(闭源/开源模型均兼容),支持语音转文本、文本转语音、音视频转录。


    💡 典型使用场景

    🏠

    个人知识管理

    本地搭建私有知识库,对话查询个人文档、笔记,隐私数据完全本地存储,无需担心数据外泄。

    🏢

    企业团队使用

    多用户权限管理,团队共享知识库,控制不同用户的访问权限,保护企业核心知识资产

    🔧

    AI应用开发

    基于完整开发者API、MCP兼容性,快速构建自定义AI应用,对接现有业务系统

    🌐

    网站智能客服

    通过嵌入聊天组件,在网站部署AI客服,基于企业私有文档回答问题,提升用户满意度。


    💝 推荐理由

    说实话,我用过很多AI工具和知识库方案,但AnythingLLM是唯一让我觉得”这就是我想要的”的产品。它的设计理念非常清晰:隐私优先、本地运行、开箱即用

    我最喜欢它的RAG文档对话功能。你可以把PDF、Word、TXT文档直接拖进去,它就能基于这些文档回答问题。比起那些需要把数据上传到云端的方案,AnythingLLM让我感觉数据完全在自己掌控之中

    另外,它的MCP兼容性也非常棒,可以对接各种外部工具,让AI的能力不断扩展。如果你正在寻找一个隐私安全、功能全面、易于部署的AI生产力工具,AnythingLLM绝对值得一试!


    📥 下载地址

    🔗 官方网站:https://anythingllm.com

    📚 官方文档:https://docs.anythingllm.com

    💻 GitHub仓库:https://github.com/Mintplex-Labs/anything-llm

    📥 桌面版下载:https://anythingllm.com/download


    🔥 项目亮点总结
    60.3k+ Stars |
    隐私优先 |
    本地运行 |
    MCP兼容

  • MIT发布2026年十大AI趋势:人形数据、智能体协作、中国开源押注

    MIT发布2026年十大AI趋势:人形数据、智能体协作、中国开源押注

    MIT Technology Review 2026年十大AI趋势
    MIT Technology Review首次发布年度AI趋势清单

    MIT Technology Review在2026年4月发布了首次年度AI趋势清单,从人形机器人训练数据、AI加速诈骗、武器化深伪,到多Agent协作与中国开源押注,10个正在发生的AI趋势逐一解析。这份报告旨在剔除行业泡沫,精准识别那些具有实质影响力的技术、新兴趋势与强大运动。

    人形机器人训练数据成新石油

    就像人类文本成为大语言模型的训练数据一样,人类运动视频正被大规模收集用于训练人形机器人。从工人重复完成任务的”训练中心”,到被海外陌生人远程操控的机器人,这是一项没有成功保障的奇特尝试。这个方法是否有效,业界还在观望。

    大语言模型仍有巨大挖掘空间

    大语言模型曾风靡全球,现在所有AI从业者都在追逐下一个突破性技术。虽然容易实现的应用场景已经基本被开发,但大语言模型不会退出舞台。这项技术仍有巨大的挖掘空间,LLMs+的时代才刚刚开始。

    AI正在降低诈骗分子和黑客的准入门槛,让他们攻击目标的速度更快、成本更低、操作更容易。与此同时,武器化深度伪造的威胁已经成为现实。

    世界模型让AI理解物理世界

    AI公司希望构建能够理解外部世界的系统。如果这一目标实现,将克服大语言模型的局限性,帮助AI进入物理环境。这个世界模型(World models)被认为是下一代AI系统的关键方向。

    智能体协作取代单打独斗

    第一代AI智能体只能运行浏览器或编写代码片段,且只能单独行动。接下来将出现能够协作完成更复杂目标的智能体团队。多Agent协作(Agent orchestration)将是2026年AI应用落地的重要方向。


    中国开源模型赢得全球开发者好感

    免费开放前沿模型让中国实验室获得了全球信誉和开发者的广泛好感。这种方式是否具备财务可持续性尚不可知,但全球开发者已经在基于中国的基础模型进行开发。中国在开源AI领域的布局正在产生实质影响力。

    AI科学家的想象与现实

    学术界和企业都在开发能够自主完成研究任务、与科学家作为真正协作伙伴共事的智能体。有人认为这些AI合作科学家未来能够达到诺贝尔奖级别的研究高度。人工智能科学家(Artificial scientists)如能实现,将彻底改变科研范式。

    与此同时,全球范围内正在形成一股强大的AI反对浪潮。从保守派到自由派,从艺术家到工会,活动人士的势头正在上升,并且已经开始取得小的胜利。AI的快速发展正在遭遇越来越强的阻力。