博客

RAGFlow：80.8k Stars！开源RAG引擎，让AI精准理解你的文档

📚 RAGFlow

80.8k Stars！开源RAG引擎，让AI精准理解你的文档

⭐ 80.8k Stars
🔧 RAG引擎
📄 深度文档理解

💡 项目简介

RAGFlow 是一款基于深度文档理解构建的开源 RAG（检索增强生成）引擎，由 InfiniFlow 团队开发。它可以为各种规模的企业及个人提供一套精简的 RAG 工作流，把”大模型+企业知识库”的门槛直接干到地面。

说实话，我第一次用 RAGFlow 的时候有点被震撼到——它处理 PDF、Word、Excel 这些复杂格式文档的能力，比我之前试过的所有 RAG 框架都要强。关键是它有可视化分块界面，你能看到每个文本块是怎么切的，哪里出了问题直接改，不用盲目调参。

🚀 核心功能

📑 深度文档理解

支持 PDF、Word、Excel、PPT、图片、扫描件等复杂格式，能从非结构化数据中提取精准知识。表格、图表、多栏布局都能正确解析，真正做到了”看懂”文档。

🔍 高质量RAG管道

内置多路召回 + 融合重排，支持可视化文本分块，生成结果附带可追溯的引用来源。不再出现”幻觉”回答，每个答案都有据可依。

🤖 Agent + MCP 支持

内置 Agent 工作流，支持 MCP 协议接入，可对接 OpenClaw 等 AI Agent 平台。还能接入 Confluence、Notion、Google Drive 等数据源，一键同步知识库。

🔧 多种部署方式

支持 Docker 一键部署（推荐），也支持源码启动。兼容 DeepSeek v4、Gemini 3 Pro、GPT-5 系列等主流大模型，自带 embedding 模型。

⚙️ 安装要求与过程

环境要求

• CPU ≥ 4核
• 内存 ≥ 16 GB
• 磁盘 ≥ 50 GB
• Docker ≥ 24.0.0 & Docker Compose ≥ v2.26.1
• 系统参数要求：vm.max_map_count ≥ 262144

# 1. 克隆仓库
git clone https://github.com/infiniflow/ragflow.git
cd ragflow/docker

# 2. 启动服务（CPU版）
docker compose -f docker-compose.yml up -d

# 3. 查看日志确认启动成功
docker logs -f docker-ragflow-cpu-1

# 4. 浏览器访问 http://服务器IP
# 出现 Running on all addresses 即成功！

💼 典型使用场景

🏢 企业知识库问答

把公司的产品文档、技术手册、HR政策全部喂给 RAGFlow，员工直接用自然语言提问，AI 能精准定位到具体文档段落并给出答案，还附带引用来源。比传统关键词搜索强太多了。

📚 个人学习助手

上传教材、论文、技术书籍，让 AI 帮你梳理知识点、回答思考题。RAGFlow 对 PDF 的解析特别到位，公式、表格、图表都能正确识别，学习效率高了不少。

🤖 AI Agent 知识底座

通过 MCP 协议把 RAGFlow 接入 OpenClaw 或 AutoGPT，让 AI Agent 在执行任务时可以实时检索你的私有知识库。相当于给 Agent 装了一个”外挂大脑”。

🌟 推荐理由

我觉得 RAGFlow 最打动我的一点，是它把”可视化”做到了极致。很多 RAG 框架让你盲目调参，分块质量怎么样完全靠猜；RAGFlow 直接把每个文本块展示给你看，哪里分错了手动改，这种”可控性”在实际项目中真的太重要了。

另外它的文档解析能力确实一流，我试过把一本 500 页的技术书丢进去，公式、代码块、表格全都识别对了，召回准确率相当能打。如果你正在搭建企业知识库或者给 AI Agent 接知识底座，RAGFlow 绝对值得一试。⭐

📥 下载地址

📦 GitHub 仓库
 🌐 官方网站
 📚 官方文档
 ☁️ 云服务

📌 本文由 AI 自动采集整理，更多开源项目介绍持续更新中…

Tags: RAGFlow · RAG · 知识库 · 开源AI

2026年5月19日

2026世界杯足球海报埃及新星潮流运动风

🇺🇸 English Prompt

Dynamic high-energy FIFA World Cup 2026 sports poster featuring a confident young male football player walking forward. He has a slim athletic build, sharp jawline, short well-groomed beard, and a powerful streetwear-inspired presence.

He wears a premium oversized hoodie layered under a bold designer zip-up jacket with custom graphic patterns, techwear cargo pants with utility pockets, and luxury designer sneakers. A cross-body messenger bag is strapped across his chest while he carries a matching premium duffle bag in one hand. A sleek football rests near his feet.

The background is an explosive cinematic collage blending football stadium elements, gritty textures, abstract paint splatters, distressed brush strokes, and iconic national symbols of Japan. Aggressive contrasting color palette dominated by the country’s national colors with sharp black and white accents.

Large bold typography at the top reads Eygpt RISING STAr with FIFA World Cup 2026” placed below in clean modern styling.

Professional sports campaign aesthetic, dramatic cinematic lighting, ultra-detailed textures, urban hypebeast energy, photorealistic concept art, high-fidelity composition, powerful atmosphere, 8K quality, 4:5 aspect ratio.

Negative Prompt: blurry face, distorted anatomy, extra limbs, cartoon style, low quality, unrealistic proportions, messy composition, duplicate objects.

2026年5月19日

OpenAI连发三个语音模型，这次不只是”能说话”

OpenAI连发三个语音模型，这次不只是”能说话”

5月7日凌晨，OpenAI一口气发了三款音频模型：GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。官方说法是让开发者能构建”在用户说话时推理、翻译和转写”的实时语音产品。三款模型已经开放给开发者测试了。

这次更新的重点在于”分工”。三款模型各管一摊事：GPT-Realtime-2管实时语音Agent，GPT-Realtime-Translate管实时翻译，GPT-Realtime-Whisper管实时转写。这个打法很OpenAI——不只要做最好的单一模型，还要把整个语音AI的赛道拆成几块，各自做到极致。

GPT-Realtime-2 是 OpenAI 首个具备 GPT-5 级推理能力的语音模型（图源：OpenAI）

GPT-Realtime-2：从”能说”到”会说”

GPT-Realtime-2是这次更新的主角。OpenAI官方的说法是，这是第一款具备”GPT-5级推理”的语音模型。这个模型被设计来处理复杂请求、调用工具、处理对话中的打断，还能在更长的语音会话里保持上下文。

这些能力对应的都是语音Agent落地时最头疼的问题。比如一个用户想咨询买房的事，或者想改签机票，这些场景都可能包含一大堆条件和多轮确认。上下文窗口从32K提升到128K之后，模型可以在更长的实时对话里保留前面出现过的信息，不会聊到一半把前面说的话忘了。

GPT-Realtime-2在Big Bench Audio测试上比上一代GPT-Realtime-1.5高15.2%，在Audio MultiChallenge上高13.8%。这两个指标衡量的是模型在音频输入、多轮语音、复杂指令和上下文整合方面的能力。

还有一个很实用的细节：可调推理强度。你可以根据场景选择用多少算力。多数生产场景可以先使用较低的推理强度，优先保证通话里的响应速度；遇到更复杂的客服、预订、排障任务，再提高推理强度，用更多计算换取更完整的判断。这个设计很接地气——语音交互最怕的就是卡顿，用户在电话里等一两秒就会觉得”这AI不行”。

已经有企业在用了，效果还不错

OpenAI公布了几个已经在测试的企业用户：美国房地产网站Zillow、旅游预订平台Priceline、德国电信。这些都不是小打小闹的Demo，而是真实业务场景。

Zillow在用GPT-Realtime-2构建可以理解住房条件并安排看房的语音助手。他们说，在最困难的对抗性测试中，经过prompt优化后，电话任务成功率从69%提升到95%。这个提升幅度很夸张，但也说明语音Agent在垂直场景里确实能干活了。

Priceline的用例更典型：旅游预订链条很长，用户可能要查航班、订酒店、调整日期、处理延误、比较价格，还可能在境外需要翻译。语音Agent如果能稳定接入后台系统，就有机会把”问答”推进到”办事”。这个跨越才是语音AI真正有价值的地方。

另外两款模型：翻译和转写

GPT-Realtime-Translate主打实时语音到语音翻译，支持70多种输入语言到13种输出语言。传统语音翻译常常要求说话人停顿，系统等一句话结束后再翻译；而GPT-Realtime-Translate更接近连续口译的形态，说话人讲话时它就能跟上节奏。

GPT-Realtime-Whisper则强调实时流式转写，可以在说话人讲话时生成字幕、会议记录和工作流更新。它的价格最便宜，只有0.017美元/分钟。

三款模型放在一起看，OpenAI已经把实时音频拆成了三个明确入口，价格和延迟要求各不相同。奥特曼想要的可能是”通吃”——不管你要做语音客服、跨语言会议还是实时字幕，都得用我的API。

语音AI这波竞争，正在从”像人”变成”能办事”

这个市场里已经有一堆强势玩家了。ElevenLabs今年2月完成5亿美元D轮融资，估值110亿美元；Deepgram今年1月完成1.3亿美元融资，估值13亿美元，服务1300多家客户；Cartesia的Sonic 3模型已经有1万多客户使用，主打90毫秒低延迟。

OpenAI的优势在于模型栈——它可以把整个企业调用TTS的链路放在同一个开发者平台里。对开发者来说，少接几个供应商，就少一些延迟、集成和运维成本。但语音市场并不好啃，每家都有自己的地盘和忠实客户。

从目前企业用户的测试反馈来看，GPT-Realtime-2确实在某些场景里把语音Agent的完成率拉到了一个可用的水平。但这波”从对话走向执行”的转型能不能真正跑通，可能还得看接下来半年这些早期客户的真实业务数据。

📎 原文来源：AI有嘴了，OpenAI 连发三语音模型 — 36氪

2026年5月19日
喊一声就能做播客，Alexa这波升级有点意思

喊一声就能做播客，Alexa这波升级有点意思

亚马逊本周一给Alexa+推了个新功能，叫”Alexa Podcasts”。简单来说就是你跟它说个话题，几分钟它就能给你生成一期播客。不用写稿子，不用找素材，甚至不用想大纲——你报个题目，剩下的它全包了。

我试了试这个流程：你跟Alexa+说”帮我做个关于火星殖民的播客”，它先去搜资料，然后给你列个大纲让你确认。你可以调整长度、语气、侧重点，确认后它就用AI生成的主播声音把节目录好。做完了会在你的Echo Show设备和Alexa应用里发通知，节目还会保存在”音乐”和”更多”板块里，随时能回放。

Alexa+ 现在可以按需生成播客内容了（图源：Amazon）

这功能今天开始推给美国用户。亚马逊的官方说法是想把”你好奇的任何话题变成播客节目，几分钟就能搞定”。听起来很诱人，但我觉得这里有几个问题值得琢磨。

“turn any topic you’re curious about into a podcast episode, ready in minutes.” —— 亚马逊对Alexa Podcasts功能的描述

从语音助手到内容工厂

这个功能的意义不只是”多了个玩法”。它标志着Alexa+的定位在发生转变：从回答问题、控制智能家居的语音助手，变成了个性化的AI内容创作平台。你不再只是”问它东西”，而是”让它帮你做东西”。

但这个方向肯定会引发争议。AI生成的声音、自动化内容这些事，一直都有人在质疑：伦理边界在哪？内容准确性怎么保证？传统播客创作者的生存空间会不会被挤占？尤其是涉及新闻或者复杂话题的时候，AI生成的播客到底靠不靠谱，这事还得打个问号。

亚马逊自己也知道这个问题，所以找了一堆媒体机构合作。他们宣称Alexa+可以通过合作协议获取实时信息，合作方包括美联社、路透社、《华盛顿邮报》、时代周刊、福布斯、商业内幕、政客、今日美国、康泰纳仕、赫斯特、VOX媒体，还有全美200多家地方报纸。这个阵容确实挺豪华的，但合作归合作，AI对新闻内容的”理解”和”转述”能不能做到不出错，还是要打个问号。

不只是播客，还有更多玩法

亚马逊说他们还在探索其他个性化AI音频形式，包括定制化的新闻简报、基于用户个人文档和共享信息生成专属内容等等。这些功能的逻辑都一样：你提供素材（或者让它自己去搜），它帮你做成音频。

我觉得这事挺有意思的。播客制作一直是个门槛挺高的活：你要会写稿、会录音、会剪辑，还得有个像样的麦克风。现在Alexa+说”这些都不用了，你只要有个想法就行”，这对普通人来说确实是个很低的创作门槛。但反过来想，当所有人都能几分钟做出一期”播客”，播客这个媒介本身的价值会不会被稀释？这事可能还得观望一阵子。

目前这个功能只在美国推出，国内用户想试还得等等。但按照亚马逊的节奏，如果美国这边反馈好，其他国家应该也不会等太久。

📎 原文来源：Amazon’s new Alexa+ powered feature can generate podcast episodes — TechCrunch

2026年5月19日
微软AI CEO：18个月内AI接管大部分白领工作，MBA和法学学位正在贬值
微软AI CEO Mustafa Suleyman两个月前跟《金融时报》说了一句话，让整个白领圈安静了。他说：“12到18个月内，大多数坐在电脑前完成的工作，会被AI完全自动化。” 他列举了会计、法律、营销、项目管理——基本上把办公室里能想到的工作都点了一遍。

Suleyman不是第一个说这种话的人，但他是目前位置最高的那个。作为微软AI部门的CEO，他管着微软跟OpenAI的合作、Copilot产品线、以及微软自己的大模型研发。他说这话的时候，微软刚刚把Copilot Deep Think（他们的深度推理模型）给Plus用户推了上去。

“大多数（如果不是全部）专业任务上，AI将达到人类水平。未来一年或18个月内，大部分’坐在电脑前’的任务将被AI完全自动化。”——Mustafa Suleyman，微软AI CEO

他的依据是算力，不是愿景

Suleyman的论证逻辑很直接：算力在指数级增长，模型写代码的能力很快就会超过大多数人类程序员。他没有说具体哪个基准测试，但如果你看过过去半年GPT-5.5、Claude Opus 4.7、Gemini 3.1的编码测试成绩，这个判断不算离谱。

同期还有两个人在说类似的话。Anthropic CEO Dario Amodei去年5月警告AI可能消灭一半入门级白领工作（不过最近他改口了）。福特CEO Jim Farley说AI会把美国白领岗位数量砍一半。马斯克在今年1月的达沃斯论坛上更直接：通用人工智能（AGI）可能在2026年内实现。

但现实跟预测之间有个巨大的裂缝——目前为止，AI在专业服务领域的渗透非常有限。

实际数据：AI有时候让人变慢

2025年Thomson Reuters的一份报告发现，律师、会计、审计师确实在用AI做文档审查、常规分析这类定向任务，生产力有边际提升，但离大规模岗位替代还差得很远。

更有意思的是反向结果。非营利组织Model Evaluation and Threat Research（METR）做了一个研究，发现AI让软件开发者的任务完成时间延长了20%。原因挺直观的：开发者要花时间验证AI生成的代码对不对，这个验证时间经常超过自己写的时间。

经济层面的影响也高度集中在科技行业。Apollo Global Management首席经济学家Torsten Slok的研究显示，2025年第四季度大型科技公司的利润率提升了20%以上，但更广泛的Bloomberg 500指数企业的利润率几乎没有变化。投资者也不太相信AI能提升科技行业以外的企业盈利——这从华尔街对S&P 500的盈利预期就能看出来。

裁员已经在发生，但规模不大

就业咨询公司Challenger, Gray & Christmas的数据：2026年截至目前，已有49,135个裁员跟AI相关。微软2025年裁员15,000人，虽然在裁员备忘录里没有明确提出AI是原因，但CEO Satya Nadella说公司必须”为新时代重新构想我们的使命”。

市场对这个预期的反应很激烈。2026年2月，软件股出现大规模抛售——分析师称之为”SaaSpocalypse“（SaaS末日），因为Anthropic和OpenAI相继发布了企业级智能体AI系统，能做很多SaaS公司的核心工作。投资者担心这些传统软件公司会被AI代理直接替代掉。

Suleyman的真正目标：让微软不再依赖OpenAI

Suleyman在访谈里说了一句很直白的话：“创造新模型会变得像创建一个播客或者写一篇博客一样简单。为每个机构、组织和个人设计符合他们需求的AI，这将成为可能。”

他的核心任务是让微软AI实现”超级智能”（superintelligence），减少对OpenAI的依赖，优先建设微软自己的前沿基础模型。他说：”这是我们这个时代最重要的技术，我们必须开发属于自己的、处于绝对前沿的基础模型。”

这个战略背后的逻辑很清楚：微软每年给OpenAI付不少钱，如果有一天关系破裂（或者OpenAI自己做了类似Copilot的产品），微软需要一个备选方案。Suleyman之前是DeepMind的联合创始人，后来创办了Inflection AI，2024年被微软挖来做这个”独立模型”的项目。

但过去三个月的证据显示，AI的实际效果并没有Suleyman预测的那么惊人。Anthropic的Claude正在取代OpenAI成为企业收入第一的模型，但整体AI在企业端的落地还是比预期慢。

普通白领现在该做什么

Suleyman的预测听起来吓人，但有几个需要注意的点：
- 他说的是”坐在电脑前完成的任务”，不是整个岗位。律师的文档审查可能被自动化，但客户谈判、法庭辩论这些需要人的工作还在
- 18个月是从现在往后算，也就是2027年底之前。这个时间表非常激进，历史上类似的AI预测大部分都延期了
- MBA和法学学位作为”职场门票”的价值确实在贬值，但贬值速度可能没有Suleyman说的那么快
- Block CEO Jack Dorsey提出了一个更有意思的观点：AI不仅会替代岗位，还会重构公司本身的组织形式——一个运行了兩千年的逻辑（信息路由=中层管理）可能被重写
如果你现在在做一个”纯电脑”的白领工作，Suleyman的建议（以及越来越多AI研究者的建议）是：学会用AI工具，让自己变成”用AI完成任务的人”，而不是”被AI替代的人”。这个转型窗口，按照他的时间表，只有18个月。

📎 原文来源：Fortune – Microsoft AI chief gives it 18 months—for all white-collar work to be automated by AI
2026年5月19日
NVIDIA Vera Rubin NVL72发布：推理成本暴降90%，Vera CPU亲自送货上门
如果你最近关注AI硬件圈，5月18日这天有个消息值得盯一下。NVIDIA CEO黄仁勋站在Dell Technologies World的舞台上，说了一句话：”需求正在抛物线式增长，完全是抛物线。”台下坐着的5000家企业代表应该都听懂了——这里面包括礼来、三星、霍尼韦尔这些已经在用Dell AI Factory跑AI负载的公司。

这次发布的核心是两个东西：Vera Rubin NVL72架构，以及NVIDIA第一款专门为AI代理（Agent）设计的CPU——Vera CPU。别被名字搞混了，Rubin是GPU架构，Vera是CPU，俩搭配着用。

推理成本直接砍掉90%

Vera Rubin NVL72最吓人的数据是：每token推理成本只有上一代Blackwell平台的1/10。换句话说，原来跑100块钱的推理任务，现在只要10块。这个降幅不是靠砍性能换来的——Dell同步发布的PowerEdge XE9812服务器，用HGX Rubin NVL8架构，性能是上一代HGX B200的5.5倍。

“67%的企业AI工作负载现在跑在云端之外——本地、设备端、边缘、托管机房，这才是真实的企业AI部署现状。”——NVIDIA CEO黄仁勋

88%的受访企业至少运行1个本地AI工作负载。这个数据背后有个很现实的原因：把数据搬来搬去的成本，比直接在企业自己机房里跑AI贵多了。Vera Rubin NVL72就是为这种场景设计的——专门优化长序列推理和高并发Agent任务。

Vera CPU：首款为AI代理设计的处理器

NVIDIA之前出过Grace CPU，但Vera是第一款明确为”AI代理时代”设计的CPU。这里的逻辑是：AI代理干活的时候，不是一口气跑完的，它要查数据库、跑代码、调工具，这些步骤是串行的，特别吃CPU的单线程性能和内存带宽。

Vera的三个关键数字：
- 内存带宽1.2TB/s，是其他CPU的3倍
- AI代理工作负载完成速度比x86处理器快50%
- 企业数据查询速度提升3倍（Starburst引擎吞吐量提升3倍）
第一批发货的Vera CPU已经送到三个地方：OpenAI在米申湾的办公室、SpaceX AI在帕洛阿尔托的实验室、以及Anthropic在旧金山的总部。下一批会送到甲骨文云基础设施在圣克拉拉的机房。NVIDIA超大规模计算副总裁Ian Buck亲自送货上门——这阵仗挺少见的，一般芯片发布都是发新闻稿，不会搞”ceo亲自交付”这套。

2030年的AI基础设施市场：3-4万亿美元

黄仁勋在台上给出了一个预测：2030年全球AI基础设施支出将达到3-4万亿美元，同期token消耗量预计增长3400%。这两个数字放在一起看就有意思了——基础设施投入增长，单位token成本下降，但总消耗量增长更快，所以市场总盘子还是在爆炸。

Dell AI Factory这边的策略是把”计算、网络、存储”打包成一个整体方案，客户不用自己拼组件。配套的还有NVIDIA机密计算（Confidential Computing）支持，模型权重和企业数据在运行过程中全程加密，这个对金融、医疗这些敏感行业挺重要的。

目前已经在Dell AI Factory上跑AI负载的5000家企业里，礼来用它加速药物研发，三星用它跑芯片设计仿真，霍尼韦尔把原来放在公有云上的工业AI迁移回了本地机房。这些案例的背后逻辑都一样：数据搬不动，算力得靠近数据放。

开源模型也在往这套基础设施上迁

NVIDIA在这次发布会上列了一个支持Dell AI Factory的开源模型清单：Nemotron、Reflection、MiniMax-M2.7、DeepSeek Pro、DeepSeek-V4、GLM 5.1、Kimi K2.6。这些模型都做了NVFP4精度优化，在Vera Rubin架构上跑起来更高效。

Hugging Face上已经开了Dell Enterprise Hub，企业可以直接拉取这些优化过的模型镜像部署。这个动作的信号很明确：NVIDIA不只是卖芯片，它在搭一个从芯片到模型到部署工具链的完整生态，让企业”买了硬件就能跑起来”，而不是买回去之后发现软件栈对不上。

下一波详细技术发布会在6月1-4日的COMPUTEX GTC Taipei大会上放出。如果你在关注AI推理成本这条曲线，Vera Rubin NVL72的价格和实测数据值得等一下那个发布会。

📎 原文来源：NVIDIA Blog – Dell Technologies World 2026: Agentic AI Inference at 1/10th the Cost
2026年5月19日
OpenAI确认打造超级应用：ChatGPT、Codex、浏览器三合一
OpenAI最近确认了一个挺大的产品调整：他们要把ChatGPT、AI编程工具Codex、还有自己开发的Atlas浏览器，全部合并成一个桌面应用。这个消息是5月正式公开的，但内部备忘录早在3月就写好了。

目前OpenAI应用业务CEO Fidji Simo在休医疗假，所以这个整合项目由Greg Brockman牵头，具体执行团队由Codex CEO Thibault Sottiaux领导。

为什么要合并？

OpenAI过去一年有点产品”摊大饼”的意思——Sora、Atlas、Codex、Canvas，各自为战，工程资源被拆得稀碎。结果就是每个产品都还不错，但都没达到能碾压竞品的那种好。

合并之后，ChatGPT会作为核心编排层，统一调度对话、编码、浏览器三类能力。你可以直接在对话里让AI写代码，然后立刻用内置浏览器测试运行效果。

这个设计明显是对标Anthropic的Claude Cowork——后者在企业市场抢占份额的速度，确实让OpenAI有点坐不住了。

分阶段推进，移动端保持独立

合并不是一口气完成的，OpenAI做了分阶段规划：
- 第一阶段：先给Codex加编码之外的通用生产力功能，拓宽使用场景
- 第二阶段：把Atlas浏览器整合进来，实现对话+编码+网页操作的闭环
- 第三阶段：ChatGPT作为中枢编排层，统一协调所有功能模块
有意思的是，移动端的ChatGPT App会保持独立，不参与这次合并。看来OpenAI也清楚，手机上搞太重的应用体验未必好。

为IPO做准备？

这个时间点值得玩味。截至2026年2月，ChatGPT周活跃用户9亿；截至5月，Codex周活也到了400万。合并后，OpenAI可以更容易地把普通ChatGPT用户转化为付费高阶用户——毕竟在一个应用里就能用到编码、浏览器等高级功能，付费动力会强很多。

如果OpenAI真的在2026年晚些时候启动IPO，这个”超级应用”的故事会比单纯”我们有一个好模型”要好讲得多，估值也会更有想象力。

当然，产品整合这种事，说起来容易做起来难。三个不同定位的产品合并成一个，用户体验能不能做到1+1+1>3，还得等实际产品出来才知道。

📎 原文来源：OpenAI Super App Confirmed – ChatGPT + Codex + Atlas Browser Merging Into One Desktop
2026年5月19日
Google I/O 2026 Day 1直击：Gemini 4.0、Omni多模态、XR眼镜齐亮相

今天Google I/O 2026正式开幕，谷歌一口气发布了多个重磅产品。看完整个发布会，感觉谷歌这次是认真了，不再是以前那种”我们有个很酷的研究项目”的画饼风格，而是实打实地把AI塞进了每一个产品线里。

Gemini 4.0：不止是基准测试

Gemini 4.0这次是真的来了。谷歌没有只拿基准测试分数说事，而是把重点放在了实际应用场景上——Workspace集成、多模态推理、智能体可靠性，这些都是企业用户真正关心的东西。

外界预期Gemini 4.0在多模态推理上会有显著提升，如果它能接近Claude Mythos Preview的94.6% GPQA成绩，那谷歌就真的把今年早些时候丢掉的话语权给抢回来了。

谷歌的优势在于生态。安卓30亿+设备、搜索数据、Workspace 2亿+用户，这不是OpenAI或者Anthropic短时间内能追上的。

Gemini Omni：文本+图像+视频统一管线

这次最让我意外的是Gemini Omni。它不是Veo的升级版，而是一个统一的文本/图像/视频生成管线，可以在对话窗口里直接生成和编辑视频，还会自动配背景音乐。

早期泄露的测试报告显示，Omni在提示词保真度和音频质量上都比Veo 3.1强。如果这套系统正式上线，谷歌就是第一个在消费级场景里提供全模态统一生成能力的厂商。叠加安卓生态的分发优势，这个组合拳确实不好接。

Google I/O 2026 Day 1 发布会现场

Android XR眼镜与Aluminium OS

硬件方面，谷歌和三星、Warby Parker、Gentle Monster、XREAL合作的Android XR眼镜正式亮相。无屏版本重80克以内，售价379-499美元，搭载骁龙AR Gen 3，延迟200ms。这个规格如果能兑现，Meta的Ray-Ban系列可能要感受到压力了。

更值得关注的是Aluminium OS，这个基于安卓开发的系统将替代ChromeOS，首批笔记本由宏碁、华硕、戴尔、惠普、联想生产，2026年秋季上市。谷歌这是在把安卓的势力范围从手机扩展到PC。

Gemini Spark：谷歌版的AI智能体

Gemini Spark是这次发布的一个容易被忽略但很重要的产品。它能自动化跨应用任务——整理收件箱、生成会议简报、追踪新闻事件进展。这和微软的Copilot、Anthropic的Claude Cowork是一个赛道的产品，但谷歌的优势在于它自己的应用生态（Gmail、Calendar、Drive、Docs）。

总体来看，谷歌这次的策略很清晰：不追求单一的基准测试冠军，而是把Gemini铺到所有能铺的地方——手机、眼镜、笔记本、云端、企业应用。这种打法短期内在基准测试上可能不够性感，但长期来看，生态黏性才是最难被颠覆的壁垒。

📎 原文来源：Google I/O 2026 Live – Gemini 4, Omni Video Model, Android XR Glasses, Aluminium OS

2026年5月19日
prompts.chat：162k Stars！开源Prompt社区，让AI提示词成为你的超能力
prompts.chat – 开源Prompt社区平台

📌 项目简介

prompts.chat（前身为Awesome ChatGPT Prompts）是一个面向AI提示词的全生命周期社区平台，支持用户分享、发现、收藏来自社区的优质AI提示词。项目采用免费开源模式，支持私有化部署，可满足企业/组织的隐私合规需求。

162k+

GitHub Stars

21.2k

Forks

MIT

开源协议

⚙️ 安装要求与过程

方式一：直接使用官方平台（推荐）

无需安装，直接访问 prompts.chat 即可使用社区提示词资源，支持浏览、搜索、复制优质提示词。

方式二：私有化部署
```
# 1. 克隆项目
git clone https://github.com/f/prompts.chat.git
cd prompts.chat

# 2. 安装依赖
npm install

# 3. 配置环境变量
cp .env.example .env
# 编辑 .env 填写必要配置

# 4. 启动开发服务器
npm run dev

# 5. 构建生产版本
npm run build
npm start

# 访问 http://localhost:3000
```
系统要求

项目要求

Node.js 18.0+ （推荐 20.x LTS）

包管理器 npm / pnpm / yarn

数据库 PostgreSQL / MySQL（可选）

操作系统 Windows / Linux / macOS

✨ 核心功能

💬 提示词社区共享

用户可上传、浏览其他社区成员贡献的优质AI提示词，涵盖编程、写作、翻译、创意等各个领域。

📌 提示词收藏管理

支持用户收藏自己常用的提示词，建立个人提示词库，方便后续快速复用，提升AI交互效率。

🏢 私有化部署支持

支持企业/组织自行部署到内部环境，保障提示词数据完全私密，不对外泄露，满足合规需求。

🔍 智能搜索与分类

提供强大的搜索功能和细致的分类标签，快速定位所需提示词，支持按热度、最新、评分排序。

📚 提示词最佳实践

收录提示词工程最佳实践案例，帮助初学者快速掌握提示词编写技巧，提升AI输出质量。

🔄 持续更新维护

项目保持高频更新，持续集成最新的AI模型提示词模板，社区活跃度高，问题响应迅速。

🚀 典型使用场景

👨‍💻 场景一：开发者提升编码效率

开发者在prompts.chat中搜索”代码审查””bug修复””重构建议”等提示词，直接复制到ChatGPT/Claude中使用，快速完成代码优化、文档生成、单元测试编写等任务，显著提升开发效率。

✍️ 场景二：内容创作者寻找灵感

公众号博主、自媒体运营者在平台搜索”标题生成””文章大纲””社交媒体文案”等提示词，快速生成高质量内容框架，配合AI完成创作，大幅缩短内容生产周期。

🏢 场景三：企业构建私有提示词库

企业IT部门私有化部署prompts.chat，将公司积累的优质提示词（如”会议纪要总结””合同审查””客户邮件回复”）统一管理，让员工共享最佳实践，提升全员AI应用能力。

💡 推荐理由

说实话，我觉得prompts.chat是AI时代必备的”提示词手册”——它把散落在各处的优质提示词集中管理，让我不用每次都从零开始构思怎么跟AI对话。

最实用的是它的收藏功能，我把自己常用的”代码解释””文章润色””Excel公式生成”等提示词收藏起来，形成个人提示词库，现在写AI指令速度快了好几倍。

162k+ Stars说明一切——如果你天天跟ChatGPT、Claude这些AI助手打交道，prompts.chat绝对能帮你少走弯路，让AI输出更精准、更高效。加上支持私有化部署，企业用户也能放心使用。

📥 下载地址

🔗 GitHub 仓库
 🌐 官方平台
 📚 使用文档

本文由 WorkBuddy AI 自动采集撰写 · 转载请注明出处
2026年5月19日
Anthropic估值冲至1.2万亿美元，超越OpenAI登顶AI王座

Anthropic最近在链上Pre-IPO市场的隐含估值冲到了1.2万亿美元，正式超过OpenAI，成为全球AI新王。这个数字有多夸张？比OpenAI高出20%，如果以此估值上市，Anthropic将直接空降全球第11大上市公司。

Anthropic估值走势（图源：36氪）

80倍增长，Dario在台上”凡尔赛”

估值暴涨的背后是业绩真的在飞。CEO Dario Amodei在旧金山开发者大会上透露，今年第一季度Anthropic的年化收入和使用量同比涨了80倍——他们原本的规划仅仅是10倍。

Dario甚至还”抱怨”说增速太快很难驾驭，希望回到仅仅10倍的增长，那样会轻松点。推动这波增长的核心是Claude Code，2025年底上线的这个编程工具在开发者群体里扩散速度超出了所有人预期。

马斯克出手：22万块GPU救急

因为需求爆炸，Anthropic的算力基础设施被瞬间击穿，用户发现Claude开始限流甚至高峰期掉线。关键时刻，马斯克出现了——Anthropic与SpaceX达成独家合作，拿下Colossus 1数据中心的全部算力。

这个数据中心拥有300MW计算能力和22万块英伟达顶级GPU，一个月内全部到账。几个月前马斯克还在网上骂Claude”邪恶”，现在把给Grok准备的GPU全都给了Anthropic，也是挺讽刺的。

拿到这22万块GPU之后，Anthropic直接给用户送了大礼包：Claude Code五小时限额翻倍，Pro/Max取消峰值限制，API速率大幅提升。

2000亿美元抱上谷歌大腿

据外媒透露，Anthropic已与谷歌签署了一份为期五年、价值约2000亿美元的云服务协议，占到了谷歌云合同积压总额的40%以上。现在的AI圈，正陷入一种疯狂的循环：云巨头掏钱给AI公司，AI公司转手把这笔钱作为”房租”买回算力服务。

把Anthropic所有已公开的算力合同摊开：亚马逊5GW、谷歌+博通5GW、微软+英伟达300亿美元Azure容量、Fluidstack 500亿美元基础设施、SpaceX 300MW+22万张GPU，三线并进的算力格局已经成型。

1.2万亿美元估值建立在2029年收入增长20-30倍的预期之上。这场算力豪赌能不能兑现，接下来三年见分晓。

📎 原文来源：全球AI新王诞生，Anthropic估值冲爆1.2万亿，首次反超OpenAI

2026年5月19日

项目	要求
Node.js	18.0+ （推荐 20.x LTS）
包管理器	npm / pnpm / yarn
数据库	PostgreSQL / MySQL（可选）
操作系统	Windows / Linux / macOS

博客

2026世界杯足球海报埃及新星潮流运动风

🇺🇸 English Prompt

OpenAI连发三个语音模型，这次不只是”能说话”

GPT-Realtime-2：从”能说”到”会说”

已经有企业在用了，效果还不错

另外两款模型：翻译和转写

语音AI这波竞争，正在从”像人”变成”能办事”

喊一声就能做播客，Alexa这波升级有点意思

从语音助手到内容工厂

不只是播客，还有更多玩法

他的依据是算力，不是愿景

实际数据：AI有时候让人变慢

裁员已经在发生，但规模不大

Suleyman的真正目标：让微软不再依赖OpenAI

普通白领现在该做什么

推理成本直接砍掉90%

Vera CPU：首款为AI代理设计的处理器

2030年的AI基础设施市场：3-4万亿美元

开源模型也在往这套基础设施上迁

为什么要合并？

分阶段推进，移动端保持独立

为IPO做准备？

Gemini 4.0：不止是基准测试

Gemini Omni：文本+图像+视频统一管线

Android XR眼镜与Aluminium OS

Gemini Spark：谷歌版的AI智能体

📌 项目简介

⚙️ 安装要求与过程

方式一：直接使用官方平台（推荐）

方式二：私有化部署

系统要求

✨ 核心功能

🚀 典型使用场景

💡 推荐理由

📥 下载地址

80倍增长，Dario在台上”凡尔赛”

马斯克出手：22万块GPU救急

2000亿美元抱上谷歌大腿