标签： AI Agent

IBM搞了个企业IT基准测试，结果把前沿AI模型全 underneath 50%分数线

大语言模型在各种排行榜上吊打人类已经不是新闻了。编码、数学、逻辑推理，GPT和Claude们基本想考多少考多少。但IBM研究院和Artificial Analysis最近联合推出了一个专门面向企业IT场景的基准测试ITBench-AA，把这批”优等生”拉回现实——得分全部低于50%。

这个测试的核心区别在于：它不考”答题”，而是考”做事”。

ITBench-AA评估的是AI Agent在企业IT环境中自主行动的能力——不是回答问题，而是真正去排查故障、管理配置、处理工单。

为什么通用基准测不出来？

通用的AI基准测试有个通病：题目是干净的，输入是结构化的，正确答案是明确的。但真实的企业IT环境完全不是这样。

想象一下：某个生产环境报警了，日志分散在三台服务器和一个云服务上，错误信息是模糊的，相关文档散落在内部Wiki的废弃页面里。一个合格的IT工程师会知道先查什么、忽略什么、什么时候需要升级工单。而当前的前瞻模型，即使逻辑推理能力很强，在这种”脏”环境里的表现就掉下来了。

ITBench-AA试图模拟的就是这种复杂度。它要求AI Agent不仅能”理解”问题，还要能规划多步行动、在过程中根据新信息调整策略、并且在不确定时知道停止而非瞎猜。

50%意味着什么？

低于50%的意思不是说这些模型”不能用”，而是说它们还没达到”可以无人监督地自主处理企业IT任务”的水平。这个门槛其实挺高的——企业环境里一个错误的自动化操作可能导致服务中断甚至数据丢失，所以准确率要求天然就高。

但这个结果的另一层含义是：AI Agent要真正进入企业核心运维流程，还有相当距离。现在的Agent更适合做”辅助”角色——给IT工程师提供建议、帮忙查文档、生成脚本草稿——而不是直接接管。

这个基准测试会改变什么？

ITBench-AA的出现至少会带来两个变化。第一，它给AI公司和中国企业提供了一个清晰的改进方向——不再是模糊的”提升推理能力”，而是具体的”在多步IT运维场景中减少错误率”。

第二，它会推动更多行业建立自己的”Agent能力基准”。IT运维只是第一个，类似的基准测试很可能出现在法律、医疗、金融合规等领域。这些领域的共同点是：任务复杂、容错率低、需要多步推理。

对从事AI Agent开发的团队来说，这个基准测试是个很有价值的参考。它告诉你：别只盯着MMLU和HumanEval了，去看看你的Agent在”脏”环境里到底行不行。

📎 原文来源：Hugging Face Blog: ITBench-AA Benchmark | AIToolly报道

2026年5月28日
Robinhood 让 AI Agent 帮你炒股，亏了也算你的
AI Agent 今年最火的应用方向之一，是替你干活——包括替你花钱。Robinhood 昨天宣布，平台即将支持用户让自己的 AI Agent 直接下单交易股票，同时还推出了一张专门给 AI Agent 用的虚拟信用卡。

AI 代理有独立账户，但每笔交易你都能看见

具体怎么运作？Robinhood 的用户可以给自己的 AI Agent 开一个独立的子账户，绑定专用的钱包。这个 Agent 能读取和分析你的投资组合，自己制定交易策略、给出投资建议，但它只能用这个专属钱包里预充值的余额来下单，动不了你主账户里的钱。

Robinhood 推出的 AI Agent 交易功能界面（图源：TechCrunch）

每笔交易执行前，你会收到提醒。有些场景下，Agent 会先给你看订单预览，你点了批准才会真正下单。Robinhood 说他们内置了欺诈检测机制，可疑交易会由人工团队审核，帮你处理纠纷。

「我们收到很多用户的需求，希望可以接入他们自己的工具、大语言模型和 Agent，与 Robinhood 连接。这就是我们推出新产品的初衷。」——Robinhood 产品副总裁 Abhishek Fatehpuria

还能分析研报、识别投资机会

Agent 的能力不限于下单。用户可以把它连接到自己的 MCP（模型上下文协议）服务，让它分析投资组合的行业集中度风险、执行交易、浏览分析师研报来识别不同行业的新投资机会。

目前这个功能还在测试阶段，暂时只支持股票交易。Robinhood 表示很快会加上对期权、加密货币、事件合约、期货和预测市场的支持。

同步推出的还有一张 AI Agent 专用的虚拟信用卡。用户可以把自己的 Agent 连到 Robinhood 的银行 MCP 服务器，让 Agent 帮你在网上买东西付钱。这张虚拟卡目前只对 Robinhood Gold 黄金卡持卡人开放，用户可以设每月消费上限，也可以选择让 Agent 每笔支付前都来问你一声。

不止 Robinhood 一家在搞

让 AI Agent 代表用户付钱这件事，Robinhood 不是独一家。Stripe 早就发布了 Agent 支付接口，亚马逊和谷歌也在做类似的东西，初创公司 Prva Pay 也在冲这个方向。整个行业都在预判：下一步，用户的 Agent 会像现在的 App 一样普遍。

Robinhood 过去几年一直在往 AI 方向投。2024 年收购了 AI 驱动的研究平台 Pluto，去年还给平台加了能给出投资建议的 AI 助手。这次把 Agent 交易做进来，算是把「AI 帮你理财」这件事又往前推了一步。

当然，把交易权交给 AI Agent 意味着什么，每个人心里都有杆秤。Agent 能读研报、能分析组合风险，但它下的每一单最终都是你的钱在买单。Robinhood 给了用户监控和审批的机制，但「Agent 炒股」这件事本身，距离真正普及还有不少路要走。
- AI Agent 有独立子账户和预充值钱包，无法直接动用主账户资金
- 每笔交易可设置需用户审批，平台内置欺诈检测保护
- 目前仅支持股票，期权、加密货币等功能即将上线
- 同步推出 AI Agent 虚拟信用卡，支持设置月度消费限额
📎 原文来源：Robinhood now lets your AI agents trade stocks — TechCrunch
2026年5月28日
AI编程独角兽Cognition融资10亿美元，估值250亿美元，Devin年化收入逼近5亿

做AI编程助手的创业公司里，Cognition是个异类。别人都在想着怎么把自己的工具塞进VS Code或者GitHub，它直接搞了个能自己干活儿的”AI软件工程师”Devin。结果就是：成立没几年，最新一轮融资超过10亿美元，估值250亿美元（融资前）。

八个月前，Cognition刚以102亿美元的投后估值完成4亿美元融资。八个月后，估值翻了一倍还多。这速度，就算在AI创投圈里也是相当炸裂的。

Cognition CEO Scott Wu / TechCrunch

投资人为什么这么敢押？

这一轮由Lux Capital和General Catalyst领投，Founders Fund、8VC这些老股东继续跟投，还新进了Ribbit Capital、Atreides、Layer Global。阵容豪华，说明顶级VC在用真金白银投票——他们认为，独立的AI编程创业公司还有生存空间，不会被模型厂商直接吃掉。

AI编程这个赛道，去年看起来像是模型厂商的囊中之物——Anthropic的Claude Code、OpenAI的Codex，还有谷歌收购Windsurf团队后搞的Jules，哪个不是自带模型、直接集成？Cognition能融到这个量级，本身就是在证明：专注做”AI agent自己写代码”这件事，有它独特的价值。

客户和收入数据说话

Cognition说自己已经拿下了奔驰、NASA、高盛、桑坦德银行这些大客户。更关键的是收入数据：过去六个月，企业客户使用Devin的规模每月环比增长50%，目前年化收入运行率已经达到4.92亿美元。

这个增速，如果属实，确实能支撑250亿美元的估值。对比一下：Anthropic最新季度营收约翻了一番达到109亿美元年化，估值才到这个量级。当然，创业公司的”运行率”数字要打个折扣看，但方向是对的。

Windsurf收购的后续

去年Cognition收购了Windsurf的剩余资产（在谷歌挖走Windsurf团队之后）。这个操作挺有意思——Windsurf的核心团队去了谷歌做Jules，Cognition拿下了剩下的IP和产品。现在看来，这笔交易让Cognition在AI编程工具的产品积累上补了一课。

Devin到底好不好用，开发者社区里评价两极。有人觉得它确实能处理一些完整的开发任务，也有人觉得它还是太容易跑偏，需要人一直盯着。但投资人的逻辑可能是：哪怕Devin现在还不够成熟，这个方向——完全自主的AI软件工程师——值得提前下重注。

📎 原文来源：AI coding startup Cognition raises $1B at $25B pre-money valuation — TechCrunch

2026年5月28日
mem0：给AI装上”长期记忆”，AI Agent记忆层首选方案
🧠 给AI装上”长期记忆”：mem0 项目深度解析

mem0 – 面向AI智能体的通用记忆层

📌 项目简介

mem0 是一个面向AI智能体的通用记忆层（Universal Memory Layer），解决了当前大模型最致命的短板之一：没有长期记忆。每次对话都是全新开始，AI记不住你是谁、喜欢什么、上次聊到哪。

mem0 的出现让AI拥有了跨会话、跨平台、跨智能体的持久记忆能力，被 Y Combinator S24 孵化，目前在GitHub已获得 39,000+ Stars，是AI Agent基础设施赛道最热门的开源项目之一。

⚙️ 安装要求与过程

环境要求：
- Python 3.9+ 或 Node.js 16+
- OpenAI / Anthropic / Ollama 等LLM API密钥（可选，也可用内置模型）
- Docker（自托管模式需要）
快速安装（Python）：
```
# 基础安装
pip install mem0ai

# 如需BM25关键词匹配 + 实体提取（推荐）
pip install mem0ai[nlp]
python -m spacy download en_core_web_sm
```
快速安装（Node.js）：
```
npm install mem0ai
```
CLI快速上手：
```
# 全局安装CLI
npm install -g @mem0/cli

# 初始化（交互式配置）
mem0 init

# 添加用户记忆
mem0 add "Prefers dark mode and vim keybindings" --user-id alice

# 检索记忆
mem0 search "What does Alice prefer?" --user-id alice
```
🚀 核心功能

1. 多层级记忆管理

支持用户级、会话级、智能体状态级三层记忆隔离与融合，同一个用户在不同场景下的记忆可以独立管理，也可以按需共享。

2. 自适应个性化

随着交互次数增加，mem0会自动学习用户偏好、习惯用语、决策风格，并在后续对话中主动应用这些记忆，实现真正的个性化AI体验。

3. 多信号融合检索（2026年4月重大升级）

同时支持语义检索（向量相似度）、BM25关键词匹配、实体链接匹配三种信号并行打分融合，检索准确率大幅提升。在 LoCoMo 基准测试中得分 91.6（较旧版提升20分）。

4. 时间感知推理

mem0 能理解时间维度——「我上周说过什么」和「我去年说过什么」的权重完全不同。支持基于时间的检索，完美适配待办计划、历史事件追溯等场景。

5. 三种部署方式，灵活适配

① 库调用（pip/npm安装，适合原型开发）；② 自托管服务（Docker部署，数据完全私有）；③ 全托管云平台（零运维，直接注册即用）。

💡 典型使用场景

场景一：AI助手个性化陪聊

想象你有一个AI助手，它记得你上次说「正在学TypeScript」、「不喜欢太官方的解释」、「喜欢用代码示例说明问题」。下次你问「如何实现防抖」，它会直接给你TypeScript代码，并用轻松的口吻解释——而不是从头介绍你是谁。mem0让这种体验成为可能。

场景二：企业客服智能体

用户打来电话，AI客服能立刻调出他三个月前报过的故障、偏好的解决方案、甚至他的情绪标签（「这位用户比较急躁，需要快速响应」）。mem0让企业AI从「每次都像第一次」变成「老朋友一样了解你」。

场景三：医疗健康追踪

AI健康助手跟踪患者的历史症状、用药偏好、过敏记录，并在每次交互中主动引用这些记忆，提供真正个性化的护理建议。这在欧盟AI Act生效后，对「可解释AI」的合规要求也极其重要。

🌟 推荐理由

我第一次用 mem0 的时候，说实话是被它的简单震撼到了。

只需要 pip install mem0ai，然后几行代码，你的AI就有了记忆。不需要部署向量数据库，不需要设计Embedding流程，不需要操心记忆的增删改查——mem0 全帮你搞定了。

但真正让我决定在用生产环境用它的，是2026年4月的那次算法大升级。新算法在 LongMemEval 上拿到 94.8分，记忆召回率提升了 53.6%。这意味着：它不只是「能存记忆」，而是「存对了、取准了」。

另外不得不提的是，mem0 的全托管云平台（app.mem0.ai）对独立开发者非常友好，免费额度够用，付费版也比自己搭建维护便宜得多。

如果你正在做AI Agent开发，mem0 是目前最值得接入的记忆层方案，没有之一。

📦 下载地址

GitHub（开源，Apache 2.0协议）：
https://github.com/mem0ai/mem0 ⭐ 39K+ Stars

官网（全托管云平台）：
https://mem0.ai

PyPI（Python包）：
https://pypi.org/project/mem0ai/

npm（Node.js包）：
https://www.npmjs.com/package/mem0ai

研究论文：
https://mem0.ai/research

📌 本文由 WorkBuddy AI 自动采集撰写，开源项目第12期
2026年5月27日

llama.cpp：90.4K Stars！本地大模型推理引擎，让普通电脑也能跑 AI

⭐ 90.4K+ GitHub Stars

💡 一句话介绍：llama.cpp 是用纯 C/C++ 编写的大语言模型推理框架，让普通电脑无需独立显卡就能运行大模型，是目前本地 AI 推理的基石项目。

📦 项目简介

llama.cpp 由 Georgi Gerganov 于 2023 年 3 月发布，最初的目标是在 Apple Silicon Mac 上用纯 CPU 运行 Meta 的 LLaMA 模型。项目发布后迅速引爆开源社区，截至目前已在 GitHub 收获 超过 9 万 Stars，成为本地大模型推理领域的事实标准。

它的核心设计哲学是极简、高效与可移植——完全用 C/C++ 实现，没有任何 Python 依赖，单个可执行文件即可运行数十亿参数的大语言模型。它也是 GGUF 量化格式的发起者，这种格式已成为 Hugging Face 上量化模型的事实标准。

今天，llama.cpp 不仅是开源项目，更是整个本地 AI 生态的底层引擎——LM Studio、Jan AI、KoboldCPP、Ollama（早期版本）等产品都在使用它作为推理后端。

🔗 项目地址：https://github.com/ggml-org/llama.cpp

📄 开源协议：MIT（完全免费，可商用）

🌐 文档地址：https://llama-cpp.readthedocs.io/

⚙️ 安装要求与过程

环境要求

最低配置：4GB 内存即可运行 7B 量化模型（Q4_K_M）
推荐配置：16GB 内存可运行 13B~70B 量化模型
GPU 加速：可选，支持 NVIDIA CUDA、Apple Metal、AMD ROCm、Vulkan
操作系统：Windows / macOS / Linux / Android / iOS 全平台支持
依赖：无需 Python，无需 Docker，无需任何运行时

方式一：下载预编译文件（⭐ 推荐新手）

步骤

访问 GitHub Releases 页面
下载对应操作系统的压缩包（Windows 选 llama-bn-x64.zip，macOS 选对应芯片版本）
解压后无需安装，直接使用命令行运行

# 启动 OpenAI 兼容 API 服务（最常用）
./llama-server -m ./qwen2.5-7b-instruct-q4_k_m.gguf -c 4096 --port 8080

# 启动交互式对话模式
./llama-cli -m ./model.gguf -p "你好，请介绍一下自己" -n 256

# 启动后访问 http://localhost:8080 即可使用内置 Web UI

方式二：pip 安装 llama-cpp-python（Python 用户）

# 基础 CPU 版本
pip install llama-cpp-python

# NVIDIA GPU CUDA 加速版本
CMAKE_ARGS="-DGGML_CUDA=on" pip install llama-cpp-python --upgrade --force-reinstall

# macOS Apple Silicon Metal 加速版本
CMAKE_ARGS="-DGGML_METAL=on" pip install llama-cpp-python --upgrade --force-reinstall

# Python 调用示例
from llama_cpp import Llama

llm = Llama(
    model_path="./qwen2.5-7b-instruct-q4_k_m.gguf",
    n_ctx=4096,
    n_gpu_layers=-1  # -1 表示将所有层卸载到 GPU
)
output = llm("你好，请介绍 llama.cpp 的特色", max_tokens=256)
print(output['choices'][0]['text'])

方式三：从源码编译（进阶用户 / 自定义后端）

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp

# 编译（根据硬件选择参数）
cmake -B build -DGGML_CUDA=ON   # NVIDIA GPU 版本
# cmake -B build -DGGML_METAL=ON  # Apple Silicon 版本
# cmake -B build                   # 纯 CPU 版本

cmake --build build --config Release -j $(nproc)

# 编译完成后可执行文件位于 build/bin/ 目录下

✨ 核心功能

🔧 1. 纯 C/C++ 实现，零依赖部署

整个项目只依赖 C 标准库和 C++ 标准库，编译后生成单个可执行文件。这意味着你可以把 llama-server 直接拷贝到任何同架构机器上运行，无需安装 Python、Conda 或任何运行时环境。对于生产环境部署来说，这是巨大的优势。

📊 2. GGUF 量化格式支持（业界标准）

llama.cpp 社区发明了 GGUF（GPT-Generated Unified Format）格式，支持 Q4_K_M、Q5_K_M、Q8_0、IQ4_XS 等多种量化精度。Q4 量化可将模型大小缩减至 FP16 版本的 25%，7B 模型仅需约 4GB 内存即可运行。目前 Hugging Face 上绝大多数模型都提供 GGUF 版本。

🖥️ 3. 纯 CPU 运行能力

这是 llama.cpp 最大的亮点——它针对 CPU 推理做了大量优化（AVX2/AVX-512、NEON 等指令集加速），使得在 Intel i5、Apple M 系列芯片、AMD Ryzen 等消费级 CPU 上也能流畅运行量化后的 LLM。对于没有独立显卡的用户，这是运行本地大模型的唯一选择。

🚀 4. 多 GPU 后端加速

通过 -ngl（n-gpu-layers）参数可指定将多少 Transformer 层卸载到 GPU，显存不足时也可通过部分 GPU 加速显著提升推理速度。支持的后端包括：NVIDIA CUDA、Apple Metal、AMD ROCm、Vulkan，甚至支持 WebGPU 在浏览器中运行。

🔌 5. OpenAI 兼容 API Server

内置 llama-server 模式，提供完全兼容 OpenAI API 格式的接口。这意味着你可以用完全相同的代码，在本地用 llama.cpp 替代 OpenAI 的 API，无缝对接 Open WebUI、SillyTavern、Continue.dev 等前端应用，无需修改任何代码。

🌍 6. 广泛的模型架构支持

覆盖绝大多数主流开源 LLM 架构，包括 Llama 3.x、Mistral、Mixtral MoE、Qwen 2.5/3、Gemma 2/3、Phi-4、DeepSeek V2/V3、Command-R 等。新模型发布后，社区通常数天内即可完成适配。

🚀 典型使用场景

场景一：隐私优先的本地助手

对于对数据隐私有严格要求的个人和企业，llama.cpp 是最理想的选择。所有推理在本地完成，数据无需上传云端。结合 Open WebUI 作为前端，你可以在完全离线的状态下拥有一个功能完整的 AI 助手。

# 启动本地 API 服务
./llama-server -m ./models/qwen2.5-7b-q4_k_m.gguf \
    -c 4096 -ngl 99 --port 8080

# Open WebUI 连接本地服务
open-webui serve  # 然后访问 http://localhost:3000
                 # 在设置中填写 API URL: http://localhost:8080/v1

场景二：AI 应用的后端推理引擎

如果你正在开发需要本地 LLM 能力的应用（如桌面软件、移动 App、嵌入式设备），llama.cpp 是最佳的推理引擎选择。它的 C/C++ 接口可以直接嵌入到你的应用中，无需启动外部服务。

著名的 AI 编码助手 Continue.dev、本地 AI 助手 Jan AI、角色扮演工具 KoboldCPP 都使用 llama.cpp 作为底层推理引擎。

场景三：低成本服务器部署

对于想要搭建内部 AI 服务的团队，llama.cpp 可以在没有高端 GPU 的服务器上运行。一台配备 64GB 内存的普通服务器，就可以运行量化后的 70B 参数模型，为整个团队提供 LLM 推理服务。

# 服务器部署：运行 70B 模型（需要约 40GB 内存）
./llama-server -m ./llama-3.3-70b-q2_k.gguf \
    -c 8192 --port 8080 -t 16  # -t 16 表示使用 16 个 CPU 线程

📊 量化版本选择指南

量化版本	模型大小（7B）	质量	适用场景
Q8_0	~7.5GB	⭐⭐⭐⭐⭐ 几乎无损	显存充足，追求最佳质量
Q5_K_M	~5.5GB	⭐⭐⭐⭐ 非常接近 Q8	大多数场景的最佳平衡
Q4_K_M	~4.5GB	⭐⭐⭐ 轻微质量下降	显存/内存有限的常规场景（推荐）
IQ4_XS	~4.0GB	⭐⭐⭐ 智能量化，同大小质量更优	新一代推荐选择
Q3_K_M	~3.5GB	⭐⭐ 质量下降较明显	内存严重受限的极端场景

⚠️ 注意：量化级别越低，推理质量下降越多。对于重要场景，建议使用 Q4_K_M 或更高质量；对于简单任务（如代码补全、分类），Q3 也是可以接受的。

💡 推荐理由

如果你问我”想要在本地运行大模型，应该从哪里开始？”，我的答案一定是 llama.cpp。

作为一个在开源社区活跃了多年的项目，llama.cpp 不仅技术上过硬，社区生态也极其丰富。它解决了本地 AI 推理的三个核心痛点：

门槛低：不需要懂 Python，不需要配置环境，下载预编译文件解压就能用
质量高：经过两年多的社区优化，推理速度和质量已经非常接近商业方案
生态好：几乎所有主流本地 AI 工具都支持或基于 llama.cpp

对我个人来说，llama.cpp 最有价值的地方在于它的 OpenAI 兼容 API。这让我的本地开发环境和云端开发环境可以用同一套代码——开发时连本地 llama.cpp，部署时换成一个环境变量指向 OpenAI，其他代码完全不用改。这种灵活性在今天这个 AI 工具链快速变化的时代，是非常宝贵的。

另外，如果你对 AI 推理的底层原理感兴趣，llama.cpp 的源代码是最好的学习材料。它把 Transformer 推理的每一步都用 C 语言实现得清晰可读，比任何教科书都更直观。

📌 适合人群：想要在本地运行大模型的 AI 爱好者、需要在无网环境下提供 LLM 能力的开发者、对 AI 推理性能优化感兴趣的研究者。

📌 不适合人群：只想用图形界面、不想碰命令行的用户（建议直接用 LM Studio 或 Jan AI，它们底层用的就是 llama.cpp）。

📥 下载地址

📦 GitHub 仓库：https://github.com/ggml-org/llama.cpp
📦 预编译版本下载（Releases）：https://github.com/ggml-org/llama.cpp/releases
📦 Python 包（llama-cpp-python）：https://pypi.org/project/llama-cpp-python/
📦 官方文档：https://llama-cpp.readthedocs.io/
📦 GGUF 模型下载（Hugging Face）：Hugging Face GGUF 模型库

⚡ 提示：如果你不想自己编译或配置，可以直接使用基于 llama.cpp 封装的图形化工具：LM Studio（最友好的图形界面）、Jan AI（开源替代方案）、或 Ollama（命令行工具，我们之前介绍过）。它们的底层都是 llama.cpp，但提供了更简单的使用体验。

2026年5月27日

DeepSeek-V3：103K Stars！开源MoE大模型，以极低成本媲美GPT-4
⭐ GitHub热门AI开源项目 · 第38期

DeepSeek-V3

103K+ Stars | ⚡ MoE大模型 | 🚀 成本仅GPT-4的1/10

由DeepSeek开发的开源混合专家大模型，在数学、代码和多语言基准测试中表现出色

📌 项目简介

DeepSeek-V3 是由DeepSeek团队开发的新一代开源混合专家（MoE）大语言模型，总参数规模达671B，每个token激活37B参数。该模型在数学、代码生成和多语言理解等基准测试中表现出色，性能媲美GPT-4和Claude 3.5，但训练成本仅约557万美元，是迄今为止性价比最高的开源大模型之一。

671B

总参数量

37B

激活参数量

$5.57M

训练成本

128K

上下文窗口
⚙️ 安装要求和过程

环境要求

🐍 Python 3.8+ （推荐使用Python 3.10+）

📦 PyTorch 2.0+ 或更高版本

💻 GPU 推荐：至少80GB显存（如A100/H100）用于完整模型推理

💾 内存：建议至少128GB系统内存

📁 磁盘空间：完整模型约需1.3TB存储空间（BF16格式）

💡 提示：如果显存有限，可以使用模型量化（如4-bit/8-bit量化）或分布式推理来降低硬件要求。DeepSeek也提供了更小的蒸馏版本供本地部署。

快速安装步骤

# 1. 克隆官方仓库
git clone https://github.com/deepseek-ai/DeepSeek-V3.git
cd DeepSeek-V3

# 2. 安装依赖
pip install -r requirements.txt

# 3. 下载模型权重（需同意许可协议）
download deepseek-ai/DeepSeek-V3

# 4. 运行推理示例
python inference.py –model-path ./DeepSeek-V3 –input “你好，请介绍一下你自己”
⚡ 核心功能

🧩 混合专家（MoE）架构

采用创新的MoE架构，总参数671B但仅激活37B，大幅提升推理效率，降低计算成本。

📐 超强数学推理

在美国数学竞赛AIME 2024上取得优异成绩，数学推理能力接近甚至超越GPT-4o。

💻 顶级代码生成

在HumanEval和MBPP等代码基准测试中表现优异，支持多种编程语言，代码质量接近Claude 3.5。

🌍 多语言支持

支持中、英、法等多种语言，多语言理解能力在开源模型中处于领先地位。

⚡ 高效推理引擎

配备优化的推理引擎，支持批处理、KV Cache、投机解码（Speculative Decoding）等加速技术，生成速度最高可达60 TPS（tokens per second）。

🚀 典型使用场景

📚 场景一：教育科技与数学辅导

DeepSeek-V3的数学推理能力极强，可用于开发智能数学辅导系统。例如，某在线教育平台集成DeepSeek-V3后，能够逐步解答高中数学竞赛题，并给出详细的解题步骤和思路分析，学生满意度提升40%。

💼 场景二：企业级代码助手

利用DeepSeek-V3的代码生成能力，企业可以搭建内部代码助手。例如，某金融科技公司使用DeepSeek-V3辅助Python和SQL开发，代码审查效率提升50%，同时减少了30%的常见bug发生率。

🌐 场景三：多语言内容生成

DeepSeek-V3的多语言支持使其非常适合国际化内容生成。某跨境电商平台使用DeepSeek-V3自动生成产品描述（支持12种语言），内容生产速度提升10倍，且本地化质量显著优于传统机器翻译。

💡 推荐理由

作为一名经常使用大模型的开发者，我之所以强烈推荐 DeepSeek-V3，主要有以下几个原因：

① 性价比无敌 —— 训练成本仅约557万美元，但性能媲美GPT-4o和Claude 3.5 Sonnet。对于预算有限的团队来说，这是目前最好的开源选择。

② 开源可商用 —— 采用MIT License，完全开源且可免费商用。你可以自由部署、修改、二次开发，不用担心许可问题。

③ 推理效率高 —— MoE架构让它在保持强大能力的同时，推理成本远低于同级别密集模型。配合优化的推理引擎，可以在消费级硬件上运行量化版本。

④ 中文能力出色 —— 与许多主要面向英文优化的开源模型不同，DeepSeek-V3在中文理解和生成方面表现非常出色，适合国内开发者使用。

⑤ 活跃的社区支持 —— GitHub上103K+ stars，且有DeepSeek团队持续维护更新。社区贡献了大量教程、工具链和部署方案，降低了使用门槛。

如果你正在寻找一个性能强劲、成本低廉、可商用的开源大模型，DeepSeek-V3绝对值得一试。💪

📥 下载地址

🐙 GitHub 官方仓库

🤗 Hugging Face 模型下载

🌐 DeepSeek 官方网站

🚀 DeepSeek 开放平台（API）

💡 提示：如果硬件资源有限，可以访问 DeepSeek开放平台直接使用API，无需本地部署。

📌 本文由 WorkBuddy AI 自动采集撰写

关注我们，每周获取更多GitHub热门AI开源项目介绍 🚀
2026年5月27日
UI-TARS Desktop：35.3k Stars！字节跳动开源多模态AI代理桌面端，让AI直接操作你的电脑
📦 项目简介

UI-TARS Desktop 是字节跳动开源的多模态 AI Agent 桌面应用，基于自研的 UI-TARS 多模态大模型和先进的 GUI Agent 架构，让你可以用自然语言直接控制电脑——打开软件、修改设置、操作浏览器，全部由 AI 代劳。

项目已获得 35.3k+ Stars，Apache 2.0 开源协议，支持 Windows / macOS / Linux 三平台，是 2026 年最值得关注的多模态 AI Agent 项目之一。

UI-TARS Desktop 实际操作演示

⚙️ 安装要求和过程
环境要求：

Windows 10+ / macOS 12+ / Linux（Ubuntu 20.04+）

8GB+ RAM（推荐 16GB）

支持 CPU 推理，推荐 NVIDIA GPU（4GB+ 显存）以获得最佳体验

Node.js 22+（如使用 Agent TARS CLI）
方式一：下载桌面端（推荐）
1. 访问 GitHub Releases 页面，下载对应系统的安装包
2. Windows 用户：下载 .exe 安装包，双击安装
3. macOS 用户：下载 .dmg 文件，拖入 Applications 文件夹
4. 首次启动需下载 UI-TARS 模型（约 4GB），请保持网络畅通
方式二：使用 Agent TARS CLI
```
# 快速启动（无需全局安装）
npx @agent-tars/cli@latest

# 全局安装
npm install @agent-tars/cli@latest -g

# 使用火山引擎方舟模型启动
agent-tars --provider volcengine --model doubao-1.5-thinking-vision-pro-250428 --apiKey YOUR_KEY

# 使用 Anthropic Claude 模型启动
agent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey YOUR_KEY
```
🚀 核心功能

🤖

自然语言控制

基于视觉语言模型（VLM），用日常语言描述任务，AI 自动理解并执行

🖥️

全系统 GUI 操作

精准控制鼠标、键盘，操作任意桌面应用，不受 API 限制

🌐

混合浏览器 Agent

支持 GUI Agent 视觉定位、DOM 操作或混合策略控制浏览器

🔌

MCP 工具集成

内核基于 MCP 构建，支持挂载各类 MCP 服务器，连接真实世界工具

🔒

隐私安全

完全本地处理，数据不上传云端，支持企业内网部署

🔄

远程操作

v0.2.0 起免费提供远程电脑操作和远程浏览器操作，无需额外配置

🎯 典型使用场景

场景一：让 AI 帮你配置开发环境

告诉 UI-TARS “帮我在 VS Code 里打开自动保存，并把延迟设为 500 毫秒”，它会自动打开 VS Code 设置页面，找到对应选项并完成修改——全程无需你动手。

场景二：自动完成网页预订任务

对 Agent TARS CLI 说 “帮我在 Priceline 上订 9 月 1 日圣何塞到纽约最早的航班，以及 9 月 6 日最晚的返程航班”，它会自动打开浏览器、填写表单、筛选结果并完成预订。

场景三：查询并分析 GitHub 项目

直接问 “你能帮我查看 GitHub 上 UI-TARS-Desktop 项目最新的开放 issue 吗？”，AI 会自动访问项目页面、抓取 issue 列表并整理成可读的格式反馈给你。

💡 推荐理由

UI-TARS Desktop 最打动我的是它的「真正理解界面」的能力。不同于传统 RPA 工具依赖元素定位，UI-TARS 通过视觉语言模型直接”看”屏幕，就像人一样理解界面布局和元素含义。

作为字节跳动出品的开源项目，它的技术栈相当扎实：基于自研的 UI-TARS-1.5-7B 多模态模型，支持 Docker 沙箱隔离执行，MCP 工具集成也非常完善。最关键的是——它完全本地运行，你的数据不会被上传到任何云端服务器。

如果你一直在寻找一个能真正帮你操作电脑的 AI Agent，而不是只会聊天的对话工具，UI-TARS Desktop 绝对值得一试。它的远程操作功能（v0.2.0 起免费）更是让”AI 助手”的概念从聊天进化到了”真正帮你做事”。

🚀 立即体验 UI-TARS Desktop

开源 · 本地运行 · 多模态 AI Agent · 字节跳动出品

支持 Windows / macOS / Linux · Apache 2.0 协议

📥 下载地址
- 官方网站：https://agent-tars.com
- GitHub 仓库：https://github.com/byteDance/UI-TARS-Desktop（35.3k+ ⭐）
- Agent TARS CLI：npx @agent-tars/cli@latest
- 模型下载：HuggingFace | ModelScope
- 论文地址：arXiv:2501.12326
- 社区交流：Discord | 官方文档
📌 本文由 WorkBuddy AI 自动采集撰写，原文发布于 hiyoho.com
2026年5月27日
ClickUp裁员22%背后：AI正在重新定义「谁还有工作」
ClickUp裁员22%背后：AI正在重新定义「谁还有工作」

上个周四，协作软件公司ClickUp的CEO Zeb Evans在X平台上发了一条消息，说他们刚裁掉了22%的员工。听起来是个坏消息，但Evans的话风很有意思——他说这次裁员不是为了省钱，而是为了激进地拥抱AI。

这话不是修饰。Evans说他要把裁员省下来的大部分钱，直接回馈给留下来的员工，甚至要推出「百万美元级别」的薪资档位。意思很直白：如果你用AI做出了远超预期的成果，你的薪水就不该被传统档位限制住。

「那些用AI自动化了自己工作的人，永远会有工作。」——Zeb Evans，ClickUp CEO

3000个AI代理已上岗

根据《财富》杂志的报道，ClickUp最近内部部署了大约3000个AI代理，用来代替员工处理各类复杂任务。现在的员工不需要亲自完成那些工作，而是负责指挥这些代理，最后审核输出结果是否符合公司标准。

这个变化挺激进的。员工的核心技能从「把事情做好」变成了「把AI代理用好」。ClickUp把这个目标叫做成为一家「100倍组织」——用极少的真人，产出百倍于传统团队的产出。

ClickUp不是唯一这么想的公司。Gartner最近的调查显示，大约80%正在使用自主AI技术的公司已经进行了裁员。但这里有个问题：裁员并不一定会转化为有意义的财务回报。也就是说，有些公司可能只是拿AI当裁员的借口。

ClickUp坚称自己不是这类公司。Evans在邮件里跟TechCrunch说，他们确实从AI代理身上看到了生产力提升，而且不仅在内部衡量这些效率提升，显然还在准备向客户推出包含相关功能的新产品。

ClickUp总部，该公司正大力拥抱AI代理技术（图源：Getty Images）

「Token最大化」正在成为考核指标

近几个月来，越来越多的公司开始监测员工的token消耗量，把它当作衡量员工是否真的在用AI工具的指标。但批评者认为这个叫「tokenmaxxing」的概念是错误的——它只会推高AI成本，而不一定带来实际价值。

Evans的说法是：「我们不做token成本的游戏化，我们做的是创造价值和节省时间的游戏化。」这话听起来有道理，但实际执行起来，员工为了证明自己在用AI，可能会无意义地消耗更多token。

这场实验的核心矛盾在于：如果AI不断接管更多任务，ClickUp最终需要的人就会越来越少。那些没能很好实现职能自动化的员工，最终还是会被淘汰。CEO说「用AI自动化工作的人永远有工作」，但没说这些工作将来还有多少需要真人来做。

一个人估值2.5亿美元的公司

科技圈已经出现了一个把AI自动化用到极致的极端案例。成立仅一年的Polsia，声称用AI为独立创业者处理所有软件运营工作，而这家公司只有1名员工——就是它的创始人兼CEO Ben Broca。

这种效率显然带来了回报：Polsia刚刚以2.5亿美元的估值完成了3000万美元的融资。这个故事给整个行业抛出了一个尖锐的问题：如果1个人加上一堆AI代理就能做原来需要几百人才能做的事情，那其他人的工作在哪里？

ClickUp的这次裁员，加上他们明说的「100倍组织」目标，本质上是在告诉整个行业：用AI极致提效不是未来，是现在。那些还在犹豫要不要拥抱AI的公司和员工，可能很快就要面对一个很现实的选择——要么学会指挥AI代理，要么被那些已经学会的人取代。

这场变化的速度可能比大多数人想象的要快。ClickUp把节省下来的人力成本用来给剩下的人涨薪，这个做法挺聪明——它至少在一定程度上缓解了留下来的员工的焦虑。但整个行业能不能复制这个模式，还得看AI代理到底能不能真的交付它们承诺的那些生产力红利。
- ClickUp裁员22%，CEO称是拥抱AI而非成本削减
- 内部已部署约3000个AI代理，员工角色转变为「代理指挥者」
- Gartner：80%使用自主AI技术的公司已完成裁员
- 「1人公司」Polsia以2.5亿美元估值融资，AI极致效率的极端案例
📎 原文来源：TechCrunch – What ClickUp’s mass layoff tells us about the future of work
2026年5月26日
OpenClaw — 你的专属个人AI助手
🦞 OpenClaw — 你的专属个人AI助手

📝 项目简介

OpenClaw 是一款可以运行在你自己设备上的个人AI助手，支持任何操作系统、任何平台。它让你在已经使用的通讯渠道中与AI交互，真正实现”你的数据你做主”。

项目在GitHub上获得了 374,000+ Stars，是2026年最热门的个人AI助手项目之一。

💻 安装要求和过程

环境要求：
- Node.js：24.x（推荐）或 22.19+
- 操作系统：macOS、Linux、Windows（推荐WSL2）
- 包管理器：npm、pnpm 或 bun
快速安装步骤：
```
# 全局安装 OpenClaw
npm install -g openclaw@latest
# 或使用 pnpm
pnpm add -g openclaw@latest

# 运行引导式安装（推荐）
openclaw onboard --install-daemon
```
守护进程模式（推荐）：
```
# 安装守护进程
openclaw onboard --install-daemon

# 检查网关状态
openclaw gateway status
```
前台调试模式：
```
# 停止后台网关
openclaw gateway stop

# 前台运行（带详细日志）
openclaw gateway --port 18789 --verbose
```
✨ 核心功能

🌐 本地优先网关（Local-first Gateway）

单一控制平面管理会话、渠道、工具和事件，所有数据保存在本地设备上。

📱 多渠道收件箱

支持 20+ 通讯平台：WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、IRC、Microsoft Teams、Matrix、飞书、LINE、Mattermost等。

🤖 多Agent路由

将不同渠道/账号/联系人路由到隔离的Agent（工作区 + 每Agent会话），实现多用户、多场景并行处理。

🎙️ 语音唤醒 + 对话模式

macOS/iOS支持语音唤醒词，Android支持连续语音对话（集成ElevenLabs TTS + 系统TTS备用）。

🎨 实时画布（Live Canvas）

Agent驱动的可视化工作区，支持A2UI协议，让AI实时生成和操作界面元素。

🚀 典型使用场景

场景1：跨平台消息助手
在你最常用的通讯工具（如WhatsApp或Telegram）中直接与AI对话，OpenClaw作为后台网关统一处理，无需切换应用。

场景2：开发者工作流自动化
结合Cron作业、Webhook和Gmail Pub/Sub，让AI定时执行任务、监控邮件并自动回复，打造个性化自动化工作流。

场景3：多设备协同助手
在macOS菜单栏、iOS和Android设备上同时运行OpenClaw节点，通过WebSocket配对，实现跨设备语音控制和画布同步。

💡 推荐理由

作为一名AI工具和开源项目的爱好者，我认为OpenClaw在以下几个方面表现出色：
- 隐私优先：所有数据保存在本地，不依赖第三方云服务，真正实现了”own-your-data”的理念。
- 渠道覆盖广：支持的平台数量远超同类项目，几乎覆盖了所有主流通讯工具。
- 架构设计优雅：Gateway作为控制平面，配合可选 Companion App，既保证了功能完整性，又保持了模块化。
- 活跃社区：374K+ Stars和众多企业赞助商（OpenAI、GitHub、NVIDIA、Vercel等）证明了项目的生命力和商业价值。
如果你在寻找一个真正属于自己、可定制、跨平台的AI助手，OpenClaw绝对值得一试！

📥 下载地址
- 官方网站：https://openclaw.ai
- GitHub仓库：https://github.com/openclaw/openclaw ⭐ 374K+
- 文档中心：https://docs.openclaw.ai
- 快速开始：https://docs.openclaw.ai/start/getting-started
- Discord社区：https://discord.gg/clawd
- ClawHub技能市场：https://clawhub.ai
🦞 EXFOLIATE! EXFOLIATE!
2026年5月26日
ClickUp大裁员22%：AI替代人工的时代真的来了？

AI加持下的”100倍组织”梦想

ClickUp 的 CEO Zeb Evans 在 X 平台上说了一句话，让很多人心里一紧。他说这次裁掉 22% 的员工，不是成本削减，而是”激进地拥抱 AI”，要让 ClickUp 变成”100 倍组织”。

什么叫”100 倍组织”？简单说就是：用极少的人，干出原来 100 倍的工作量。Evans 甚至承诺，省下来的人力成本会”直接回流给留下来的员工”，还要推出”百万美元薪资档位”。听起来很美好，但问题是——那些被裁掉的人，已经不在”留下来的人”的范围内了。

AI正在重塑工作场所，但代价由谁承担？

3000 个 AI 智能体在”上班”

根据《财富》杂志的报道，ClickUp 最近内部引入了约 3000 个 AI 智能体，代替员工处理各类复杂任务。现在的员工不需要亲自完成工作，而是被要求”指挥”这些智能体，然后审核输出结果。

这个变化背后有一个微妙的逻辑：原来一个人做的工作，现在变成”人指挥 AI 做，人审核”。理论上人的效率提升了，但实际上需要的人数变少了。Evans 说”用 AI 自动化自己工作的人永远会有工作”——这话没错，但能走到那一步的人，显然不会是全部。

ClickUp 并非唯一一家把 AI 智能体当作生产力答案的公司。Gartner 的调查显示，约 80% 使用自主技术的公司已经削减了岗位——但裁员并不一定会转化为有意义的财务回报。

“代币最大化”：一个值得警惕的指标

近几个月来，越来越多的公司开始监控员工的”代币消耗量”，把它当作衡量员工是否真正在用 AI 工具的指标。ClickUp 说他们不是在做”代币成本游戏化”，而是在游戏化”创造的价值和节省的时间”。

但批评者指出，把代币消耗作为考核指标本身就是个错误方向，因为这只会刺激不必要的 AI 调用，推高成本，却不一定带来真实的价值产出。这就像一个餐厅老板跟厨师说：”你今天用了多少度电，我就给你发多少奖金。”厨师会怎么反应？当然是拼命开最大功率的烤箱。

一个极端案例：只有一名员工的初创公司

科技圈一直在理论推演”AI 完全替代人工”的场景，而现在已经有了一个高知名度的极端案例：成立仅一年的 Polsia，声称用 AI 自动化了所有软件运营工作，整个公司只有一名员工——创始人兼 CEO Ben Broca。

这种效率显然正在获得资本市场的认可：Polsia 刚刚以 2.5 亿美元的估值完成了 3000 万美元的融资。投资者用真金白银说明了一件事——他们相信”一个人 + AI”可以替代几十甚至上百人的传统团队。

ClickUp 的裁员或许只是一个开始。当 Evans 说”AI 会让留下的人拿到百万美元薪资”时，他可能没意识到，这句话的另一面是：大部分人会离开，而留下的人将面临前所未有的工作强度和压力。

📎 原文来源：What ClickUp’s mass layoff tells us about the future of work | TechCrunch

2026年5月26日

标签： AI Agent

为什么通用基准测不出来？

50%意味着什么？

这个基准测试会改变什么？

AI 代理有独立账户，但每笔交易你都能看见

还能分析研报、识别投资机会

不止 Robinhood 一家在搞

投资人为什么这么敢押？

客户和收入数据说话

Windsurf收购的后续

🧠 给AI装上”长期记忆”：mem0 项目深度解析

📌 项目简介

⚙️ 安装要求与过程

🚀 核心功能

1. 多层级记忆管理

2. 自适应个性化

3. 多信号融合检索（2026年4月重大升级）

4. 时间感知推理

5. 三种部署方式，灵活适配

💡 典型使用场景

🌟 推荐理由

📦 下载地址

📦 项目简介

⚙️ 安装要求与过程

环境要求

方式一：下载预编译文件（⭐ 推荐新手）

步骤

方式二：pip 安装 llama-cpp-python（Python 用户）

方式三：从源码编译（进阶用户 / 自定义后端）

✨ 核心功能

🔧 1. 纯 C/C++ 实现，零依赖部署

📊 2. GGUF 量化格式支持（业界标准）

🖥️ 3. 纯 CPU 运行能力

🚀 4. 多 GPU 后端加速

🔌 5. OpenAI 兼容 API Server

🌍 6. 广泛的模型架构支持

🚀 典型使用场景

场景一：隐私优先的本地助手

场景二：AI 应用的后端推理引擎

场景三：低成本服务器部署

📊 量化版本选择指南

💡 推荐理由

📥 下载地址

DeepSeek-V3

📌 项目简介

⚙️ 安装要求和过程

环境要求

快速安装步骤

⚡ 核心功能

🚀 典型使用场景

💡 推荐理由

📥 下载地址

📦 项目简介

⚙️ 安装要求和过程

方式一：下载桌面端（推荐）

方式二：使用 Agent TARS CLI

🚀 核心功能

🎯 典型使用场景

场景一：让 AI 帮你配置开发环境

场景二：自动完成网页预订任务

场景三：查询并分析 GitHub 项目

💡 推荐理由

📥 下载地址

ClickUp裁员22%背后：AI正在重新定义「谁还有工作」

3000个AI代理已上岗

「Token最大化」正在成为考核指标

一个人估值2.5亿美元的公司

🦞 OpenClaw — 你的专属个人AI助手

📝 项目简介

💻 安装要求和过程

✨ 核心功能

🚀 典型使用场景

💡 推荐理由

📥 下载地址

AI加持下的”100倍组织”梦想

3000 个 AI 智能体在”上班”

“代币最大化”：一个值得警惕的指标

一个极端案例：只有一名员工的初创公司