标签: AI Agent

  • IBM搞了个企业IT基准测试,结果把前沿AI模型全 underneath 50%分数线

    大语言模型在各种排行榜上吊打人类已经不是新闻了。编码、数学、逻辑推理,GPT和Claude们基本想考多少考多少。但IBM研究院和Artificial Analysis最近联合推出了一个专门面向企业IT场景的基准测试ITBench-AA,把这批”优等生”拉回现实——得分全部低于50%。

    这个测试的核心区别在于:它不考”答题”,而是考”做事”。

    ITBench-AA评估的是AI Agent在企业IT环境中自主行动的能力——不是回答问题,而是真正去排查故障、管理配置、处理工单。

    为什么通用基准测不出来?

    通用的AI基准测试有个通病:题目是干净的,输入是结构化的,正确答案是明确的。但真实的企业IT环境完全不是这样。

    想象一下:某个生产环境报警了,日志分散在三台服务器和一个云服务上,错误信息是模糊的,相关文档散落在内部Wiki的废弃页面里。一个合格的IT工程师会知道先查什么、忽略什么、什么时候需要升级工单。而当前的前瞻模型,即使逻辑推理能力很强,在这种”脏”环境里的表现就掉下来了。

    ITBench-AA试图模拟的就是这种复杂度。它要求AI Agent不仅能”理解”问题,还要能规划多步行动、在过程中根据新信息调整策略、并且在不确定时知道停止而非瞎猜。

    50%意味着什么?

    低于50%的意思不是说这些模型”不能用”,而是说它们还没达到”可以无人监督地自主处理企业IT任务”的水平。这个门槛其实挺高的——企业环境里一个错误的自动化操作可能导致服务中断甚至数据丢失,所以准确率要求天然就高。

    但这个结果的另一层含义是:AI Agent要真正进入企业核心运维流程,还有相当距离。现在的Agent更适合做”辅助”角色——给IT工程师提供建议、帮忙查文档、生成脚本草稿——而不是直接接管。


    这个基准测试会改变什么?

    ITBench-AA的出现至少会带来两个变化。第一,它给AI公司和中国企业提供了一个清晰的改进方向——不再是模糊的”提升推理能力”,而是具体的”在多步IT运维场景中减少错误率”。

    第二,它会推动更多行业建立自己的”Agent能力基准”。IT运维只是第一个,类似的基准测试很可能出现在法律、医疗、金融合规等领域。这些领域的共同点是:任务复杂、容错率低、需要多步推理。

    对从事AI Agent开发的团队来说,这个基准测试是个很有价值的参考。它告诉你:别只盯着MMLU和HumanEval了,去看看你的Agent在”脏”环境里到底行不行。

  • Robinhood 让 AI Agent 帮你炒股,亏了也算你的

    AI Agent 今年最火的应用方向之一,是替你干活——包括替你花钱。Robinhood 昨天宣布,平台即将支持用户让自己的 AI Agent 直接下单交易股票,同时还推出了一张专门给 AI Agent 用的虚拟信用卡。

    AI 代理有独立账户,但每笔交易你都能看见

    具体怎么运作?Robinhood 的用户可以给自己的 AI Agent 开一个独立的子账户,绑定专用的钱包。这个 Agent 能读取和分析你的投资组合,自己制定交易策略、给出投资建议,但它只能用这个专属钱包里预充值的余额来下单,动不了你主账户里的钱。

    Robinhood AI Agent 交易功能
    Robinhood 推出的 AI Agent 交易功能界面(图源:TechCrunch)

    每笔交易执行前,你会收到提醒。有些场景下,Agent 会先给你看订单预览,你点了批准才会真正下单。Robinhood 说他们内置了欺诈检测机制,可疑交易会由人工团队审核,帮你处理纠纷。

    「我们收到很多用户的需求,希望可以接入他们自己的工具、大语言模型和 Agent,与 Robinhood 连接。这就是我们推出新产品的初衷。」——Robinhood 产品副总裁 Abhishek Fatehpuria

    还能分析研报、识别投资机会

    Agent 的能力不限于下单。用户可以把它连接到自己的 MCP(模型上下文协议)服务,让它分析投资组合的行业集中度风险、执行交易、浏览分析师研报来识别不同行业的新投资机会。

    目前这个功能还在测试阶段,暂时只支持股票交易。Robinhood 表示很快会加上对期权、加密货币、事件合约、期货和预测市场的支持。

    同步推出的还有一张 AI Agent 专用的虚拟信用卡。用户可以把自己的 Agent 连到 Robinhood 的银行 MCP 服务器,让 Agent 帮你在网上买东西付钱。这张虚拟卡目前只对 Robinhood Gold 黄金卡持卡人开放,用户可以设每月消费上限,也可以选择让 Agent 每笔支付前都来问你一声。


    不止 Robinhood 一家在搞

    让 AI Agent 代表用户付钱这件事,Robinhood 不是独一家。Stripe 早就发布了 Agent 支付接口,亚马逊和谷歌也在做类似的东西,初创公司 Prva Pay 也在冲这个方向。整个行业都在预判:下一步,用户的 Agent 会像现在的 App 一样普遍。

    Robinhood 过去几年一直在往 AI 方向投。2024 年收购了 AI 驱动的研究平台 Pluto,去年还给平台加了能给出投资建议的 AI 助手。这次把 Agent 交易做进来,算是把「AI 帮你理财」这件事又往前推了一步。

    当然,把交易权交给 AI Agent 意味着什么,每个人心里都有杆秤。Agent 能读研报、能分析组合风险,但它下的每一单最终都是你的钱在买单。Robinhood 给了用户监控和审批的机制,但「Agent 炒股」这件事本身,距离真正普及还有不少路要走。

    • AI Agent 有独立子账户和预充值钱包,无法直接动用主账户资金
    • 每笔交易可设置需用户审批,平台内置欺诈检测保护
    • 目前仅支持股票,期权、加密货币等功能即将上线
    • 同步推出 AI Agent 虚拟信用卡,支持设置月度消费限额
  • AI编程独角兽Cognition融资10亿美元,估值250亿美元,Devin年化收入逼近5亿

    做AI编程助手的创业公司里,Cognition是个异类。别人都在想着怎么把自己的工具塞进VS Code或者GitHub,它直接搞了个能自己干活儿的”AI软件工程师”Devin。结果就是:成立没几年,最新一轮融资超过10亿美元,估值250亿美元(融资前)。

    八个月前,Cognition刚以102亿美元的投后估值完成4亿美元融资。八个月后,估值翻了一倍还多。这速度,就算在AI创投圈里也是相当炸裂的。

    Cognition CEO Scott Wu
    Cognition CEO Scott Wu / TechCrunch

    投资人为什么这么敢押?

    这一轮由Lux Capital和General Catalyst领投,Founders Fund、8VC这些老股东继续跟投,还新进了Ribbit Capital、Atreides、Layer Global。阵容豪华,说明顶级VC在用真金白银投票——他们认为,独立的AI编程创业公司还有生存空间,不会被模型厂商直接吃掉。

    AI编程这个赛道,去年看起来像是模型厂商的囊中之物——Anthropic的Claude Code、OpenAI的Codex,还有谷歌收购Windsurf团队后搞的Jules,哪个不是自带模型、直接集成?Cognition能融到这个量级,本身就是在证明:专注做”AI agent自己写代码”这件事,有它独特的价值。

    客户和收入数据说话

    Cognition说自己已经拿下了奔驰、NASA、高盛、桑坦德银行这些大客户。更关键的是收入数据:过去六个月,企业客户使用Devin的规模每月环比增长50%,目前年化收入运行率已经达到4.92亿美元。

    这个增速,如果属实,确实能支撑250亿美元的估值。对比一下:Anthropic最新季度营收约翻了一番达到109亿美元年化,估值才到这个量级。当然,创业公司的”运行率”数字要打个折扣看,但方向是对的。


    Windsurf收购的后续

    去年Cognition收购了Windsurf的剩余资产(在谷歌挖走Windsurf团队之后)。这个操作挺有意思——Windsurf的核心团队去了谷歌做Jules,Cognition拿下了剩下的IP和产品。现在看来,这笔交易让Cognition在AI编程工具的产品积累上补了一课。

    Devin到底好不好用,开发者社区里评价两极。有人觉得它确实能处理一些完整的开发任务,也有人觉得它还是太容易跑偏,需要人一直盯着。但投资人的逻辑可能是:哪怕Devin现在还不够成熟,这个方向——完全自主的AI软件工程师——值得提前下重注。

  • mem0:给AI装上”长期记忆”,AI Agent记忆层首选方案

    mem0:给AI装上”长期记忆”,AI Agent记忆层首选方案

    🧠 给AI装上”长期记忆”:mem0 项目深度解析

    mem0 banner

    mem0 – 面向AI智能体的通用记忆层

    📌 项目简介

    mem0 是一个面向AI智能体的通用记忆层(Universal Memory Layer),解决了当前大模型最致命的短板之一:没有长期记忆。每次对话都是全新开始,AI记不住你是谁、喜欢什么、上次聊到哪。

    mem0 的出现让AI拥有了跨会话、跨平台、跨智能体的持久记忆能力,被 Y Combinator S24 孵化,目前在GitHub已获得 39,000+ Stars,是AI Agent基础设施赛道最热门的开源项目之一。

    ⚙️ 安装要求与过程

    环境要求:

    • Python 3.9+ 或 Node.js 16+
    • OpenAI / Anthropic / Ollama 等LLM API密钥(可选,也可用内置模型)
    • Docker(自托管模式需要)

    快速安装(Python):

    # 基础安装
    pip install mem0ai
    
    # 如需BM25关键词匹配 + 实体提取(推荐)
    pip install mem0ai[nlp]
    python -m spacy download en_core_web_sm

    快速安装(Node.js):

    npm install mem0ai

    CLI快速上手:

    # 全局安装CLI
    npm install -g @mem0/cli
    
    # 初始化(交互式配置)
    mem0 init
    
    # 添加用户记忆
    mem0 add "Prefers dark mode and vim keybindings" --user-id alice
    
    # 检索记忆
    mem0 search "What does Alice prefer?" --user-id alice

    🚀 核心功能

    1. 多层级记忆管理

    支持用户级会话级智能体状态级三层记忆隔离与融合,同一个用户在不同场景下的记忆可以独立管理,也可以按需共享。

    2. 自适应个性化

    随着交互次数增加,mem0会自动学习用户偏好、习惯用语、决策风格,并在后续对话中主动应用这些记忆,实现真正的个性化AI体验。

    3. 多信号融合检索(2026年4月重大升级)

    同时支持语义检索(向量相似度)、BM25关键词匹配实体链接匹配三种信号并行打分融合,检索准确率大幅提升。在 LoCoMo 基准测试中得分 91.6(较旧版提升20分)。

    4. 时间感知推理

    mem0 能理解时间维度——「我上周说过什么」和「我去年说过什么」的权重完全不同。支持基于时间的检索,完美适配待办计划、历史事件追溯等场景。

    5. 三种部署方式,灵活适配

    库调用(pip/npm安装,适合原型开发);② 自托管服务(Docker部署,数据完全私有);③ 全托管云平台(零运维,直接注册即用)。

    💡 典型使用场景

    场景一:AI助手个性化陪聊

    想象你有一个AI助手,它记得你上次说「正在学TypeScript」、「不喜欢太官方的解释」、「喜欢用代码示例说明问题」。下次你问「如何实现防抖」,它会直接给你TypeScript代码,并用轻松的口吻解释——而不是从头介绍你是谁。mem0让这种体验成为可能。

    场景二:企业客服智能体

    用户打来电话,AI客服能立刻调出他三个月前报过的故障、偏好的解决方案、甚至他的情绪标签(「这位用户比较急躁,需要快速响应」)。mem0让企业AI从「每次都像第一次」变成「老朋友一样了解你」。

    场景三:医疗健康追踪

    AI健康助手跟踪患者的历史症状、用药偏好、过敏记录,并在每次交互中主动引用这些记忆,提供真正个性化的护理建议。这在欧盟AI Act生效后,对「可解释AI」的合规要求也极其重要。

    🌟 推荐理由

    我第一次用 mem0 的时候,说实话是被它的简单震撼到了。

    只需要 pip install mem0ai,然后几行代码,你的AI就有了记忆。不需要部署向量数据库,不需要设计Embedding流程,不需要操心记忆的增删改查——mem0 全帮你搞定了

    但真正让我决定在用生产环境用它的,是2026年4月的那次算法大升级。新算法在 LongMemEval 上拿到 94.8分,记忆召回率提升了 53.6%。这意味着:它不只是「能存记忆」,而是「存对了、取准了」。

    另外不得不提的是,mem0 的全托管云平台(app.mem0.ai)对独立开发者非常友好,免费额度够用,付费版也比自己搭建维护便宜得多。

    如果你正在做AI Agent开发,mem0 是目前最值得接入的记忆层方案,没有之一


    📦 下载地址

    GitHub(开源,Apache 2.0协议):
    https://github.com/mem0ai/mem0 ⭐ 39K+ Stars

    官网(全托管云平台):
    https://mem0.ai

    PyPI(Python包):
    https://pypi.org/project/mem0ai/

    npm(Node.js包):
    https://www.npmjs.com/package/mem0ai

    研究论文:
    https://mem0.ai/research


    📌 本文由 WorkBuddy AI 自动采集撰写,开源项目第12期

  • llama.cpp:90.4K Stars!本地大模型推理引擎,让普通电脑也能跑 AI

    llama.cpp:90.4K Stars!本地大模型推理引擎,让普通电脑也能跑 AI

    llama.cpp

    ⭐ 90.4K+ GitHub Stars

    💡 一句话介绍:llama.cpp 是用纯 C/C++ 编写的大语言模型推理框架,让普通电脑无需独立显卡就能运行大模型,是目前本地 AI 推理的基石项目。

    📦 项目简介

    llama.cpp 由 Georgi Gerganov 于 2023 年 3 月发布,最初的目标是在 Apple Silicon Mac 上用纯 CPU 运行 Meta 的 LLaMA 模型。项目发布后迅速引爆开源社区,截至目前已在 GitHub 收获 超过 9 万 Stars,成为本地大模型推理领域的事实标准。

    它的核心设计哲学是极简、高效与可移植——完全用 C/C++ 实现,没有任何 Python 依赖,单个可执行文件即可运行数十亿参数的大语言模型。它也是 GGUF 量化格式的发起者,这种格式已成为 Hugging Face 上量化模型的事实标准。

    今天,llama.cpp 不仅是开源项目,更是整个本地 AI 生态的底层引擎——LM Studio、Jan AI、KoboldCPP、Ollama(早期版本)等产品都在使用它作为推理后端。

    🔗 项目地址:https://github.com/ggml-org/llama.cpp

    📄 开源协议:MIT(完全免费,可商用)

    🌐 文档地址:https://llama-cpp.readthedocs.io/

    ⚙️ 安装要求与过程

    环境要求

    • 最低配置:4GB 内存即可运行 7B 量化模型(Q4_K_M)
    • 推荐配置:16GB 内存可运行 13B~70B 量化模型
    • GPU 加速:可选,支持 NVIDIA CUDA、Apple Metal、AMD ROCm、Vulkan
    • 操作系统:Windows / macOS / Linux / Android / iOS 全平台支持
    • 依赖:无需 Python,无需 Docker,无需任何运行时

    方式一:下载预编译文件(⭐ 推荐新手)

    步骤

    1. 访问 GitHub Releases 页面
    2. 下载对应操作系统的压缩包(Windows 选 llama-bn-x64.zip,macOS 选对应芯片版本)
    3. 解压后无需安装,直接使用命令行运行
    # 启动 OpenAI 兼容 API 服务(最常用)
    ./llama-server -m ./qwen2.5-7b-instruct-q4_k_m.gguf -c 4096 --port 8080
    
    # 启动交互式对话模式
    ./llama-cli -m ./model.gguf -p "你好,请介绍一下自己" -n 256
    
    # 启动后访问 http://localhost:8080 即可使用内置 Web UI

    方式二:pip 安装 llama-cpp-python(Python 用户)

    # 基础 CPU 版本
    pip install llama-cpp-python
    
    # NVIDIA GPU CUDA 加速版本
    CMAKE_ARGS="-DGGML_CUDA=on" pip install llama-cpp-python --upgrade --force-reinstall
    
    # macOS Apple Silicon Metal 加速版本
    CMAKE_ARGS="-DGGML_METAL=on" pip install llama-cpp-python --upgrade --force-reinstall
    
    # Python 调用示例
    from llama_cpp import Llama
    
    llm = Llama(
        model_path="./qwen2.5-7b-instruct-q4_k_m.gguf",
        n_ctx=4096,
        n_gpu_layers=-1  # -1 表示将所有层卸载到 GPU
    )
    output = llm("你好,请介绍 llama.cpp 的特色", max_tokens=256)
    print(output['choices'][0]['text'])

    方式三:从源码编译(进阶用户 / 自定义后端)

    git clone https://github.com/ggml-org/llama.cpp
    cd llama.cpp
    
    # 编译(根据硬件选择参数)
    cmake -B build -DGGML_CUDA=ON   # NVIDIA GPU 版本
    # cmake -B build -DGGML_METAL=ON  # Apple Silicon 版本
    # cmake -B build                   # 纯 CPU 版本
    
    cmake --build build --config Release -j $(nproc)
    
    # 编译完成后可执行文件位于 build/bin/ 目录下

    ✨ 核心功能

    🔧 1. 纯 C/C++ 实现,零依赖部署

    整个项目只依赖 C 标准库和 C++ 标准库,编译后生成单个可执行文件。这意味着你可以把 llama-server 直接拷贝到任何同架构机器上运行,无需安装 Python、Conda 或任何运行时环境。对于生产环境部署来说,这是巨大的优势。

    📊 2. GGUF 量化格式支持(业界标准)

    llama.cpp 社区发明了 GGUF(GPT-Generated Unified Format)格式,支持 Q4_K_M、Q5_K_M、Q8_0、IQ4_XS 等多种量化精度。Q4 量化可将模型大小缩减至 FP16 版本的 25%,7B 模型仅需约 4GB 内存即可运行。目前 Hugging Face 上绝大多数模型都提供 GGUF 版本。

    🖥️ 3. 纯 CPU 运行能力

    这是 llama.cpp 最大的亮点——它针对 CPU 推理做了大量优化(AVX2/AVX-512、NEON 等指令集加速),使得在 Intel i5、Apple M 系列芯片、AMD Ryzen 等消费级 CPU 上也能流畅运行量化后的 LLM。对于没有独立显卡的用户,这是运行本地大模型的唯一选择。

    🚀 4. 多 GPU 后端加速

    通过 -ngl(n-gpu-layers)参数可指定将多少 Transformer 层卸载到 GPU,显存不足时也可通过部分 GPU 加速显著提升推理速度。支持的后端包括:NVIDIA CUDA、Apple Metal、AMD ROCm、Vulkan,甚至支持 WebGPU 在浏览器中运行。

    🔌 5. OpenAI 兼容 API Server

    内置 llama-server 模式,提供完全兼容 OpenAI API 格式的接口。这意味着你可以用完全相同的代码,在本地用 llama.cpp 替代 OpenAI 的 API,无缝对接 Open WebUI、SillyTavern、Continue.dev 等前端应用,无需修改任何代码。

    🌍 6. 广泛的模型架构支持

    覆盖绝大多数主流开源 LLM 架构,包括 Llama 3.x、Mistral、Mixtral MoE、Qwen 2.5/3、Gemma 2/3、Phi-4、DeepSeek V2/V3、Command-R 等。新模型发布后,社区通常数天内即可完成适配。

    🚀 典型使用场景

    场景一:隐私优先的本地助手

    对于对数据隐私有严格要求的个人和企业,llama.cpp 是最理想的选择。所有推理在本地完成,数据无需上传云端。结合 Open WebUI 作为前端,你可以在完全离线的状态下拥有一个功能完整的 AI 助手。

    # 启动本地 API 服务
    ./llama-server -m ./models/qwen2.5-7b-q4_k_m.gguf \
        -c 4096 -ngl 99 --port 8080
    
    # Open WebUI 连接本地服务
    open-webui serve  # 然后访问 http://localhost:3000
                     # 在设置中填写 API URL: http://localhost:8080/v1

    场景二:AI 应用的后端推理引擎

    如果你正在开发需要本地 LLM 能力的应用(如桌面软件、移动 App、嵌入式设备),llama.cpp 是最佳的推理引擎选择。它的 C/C++ 接口可以直接嵌入到你的应用中,无需启动外部服务。

    著名的 AI 编码助手 Continue.dev、本地 AI 助手 Jan AI、角色扮演工具 KoboldCPP 都使用 llama.cpp 作为底层推理引擎。

    场景三:低成本服务器部署

    对于想要搭建内部 AI 服务的团队,llama.cpp 可以在没有高端 GPU 的服务器上运行。一台配备 64GB 内存的普通服务器,就可以运行量化后的 70B 参数模型,为整个团队提供 LLM 推理服务。

    # 服务器部署:运行 70B 模型(需要约 40GB 内存)
    ./llama-server -m ./llama-3.3-70b-q2_k.gguf \
        -c 8192 --port 8080 -t 16  # -t 16 表示使用 16 个 CPU 线程

    📊 量化版本选择指南

    量化版本 模型大小(7B) 质量 适用场景
    Q8_0 ~7.5GB ⭐⭐⭐⭐⭐ 几乎无损 显存充足,追求最佳质量
    Q5_K_M ~5.5GB ⭐⭐⭐⭐ 非常接近 Q8 大多数场景的最佳平衡
    Q4_K_M ~4.5GB ⭐⭐⭐ 轻微质量下降 显存/内存有限的常规场景(推荐)
    IQ4_XS ~4.0GB ⭐⭐⭐ 智能量化,同大小质量更优 新一代推荐选择
    Q3_K_M ~3.5GB ⭐⭐ 质量下降较明显 内存严重受限的极端场景

    ⚠️ 注意:量化级别越低,推理质量下降越多。对于重要场景,建议使用 Q4_K_M 或更高质量;对于简单任务(如代码补全、分类),Q3 也是可以接受的。

    💡 推荐理由

    如果你问我”想要在本地运行大模型,应该从哪里开始?”,我的答案一定是 llama.cpp

    作为一个在开源社区活跃了多年的项目,llama.cpp 不仅技术上过硬,社区生态也极其丰富。它解决了本地 AI 推理的三个核心痛点:

    • 门槛低:不需要懂 Python,不需要配置环境,下载预编译文件解压就能用
    • 质量高:经过两年多的社区优化,推理速度和质量已经非常接近商业方案
    • 生态好:几乎所有主流本地 AI 工具都支持或基于 llama.cpp

    对我个人来说,llama.cpp 最有价值的地方在于它的 OpenAI 兼容 API。这让我的本地开发环境和云端开发环境可以用同一套代码——开发时连本地 llama.cpp,部署时换成一个环境变量指向 OpenAI,其他代码完全不用改。这种灵活性在今天这个 AI 工具链快速变化的时代,是非常宝贵的。

    另外,如果你对 AI 推理的底层原理感兴趣,llama.cpp 的源代码是最好的学习材料。它把 Transformer 推理的每一步都用 C 语言实现得清晰可读,比任何教科书都更直观。

    📌 适合人群:想要在本地运行大模型的 AI 爱好者、需要在无网环境下提供 LLM 能力的开发者、对 AI 推理性能优化感兴趣的研究者。

    📌 不适合人群:只想用图形界面、不想碰命令行的用户(建议直接用 LM Studio 或 Jan AI,它们底层用的就是 llama.cpp)。

    📥 下载地址

    提示:如果你不想自己编译或配置,可以直接使用基于 llama.cpp 封装的图形化工具:LM Studio(最友好的图形界面)、Jan AI(开源替代方案)、或 Ollama(命令行工具,我们之前介绍过)。它们的底层都是 llama.cpp,但提供了更简单的使用体验。

  • DeepSeek-V3:103K Stars!开源MoE大模型,以极低成本媲美GPT-4

    DeepSeek-V3:103K Stars!开源MoE大模型,以极低成本媲美GPT-4

    ⭐ GitHub热门AI开源项目 · 第38期

    DeepSeek-V3

    103K+ Stars  |  ⚡ MoE大模型  |  🚀 成本仅GPT-4的1/10

    由DeepSeek开发的开源混合专家大模型,在数学、代码和多语言基准测试中表现出色

    📌 项目简介

    DeepSeek-V3 是由DeepSeek团队开发的新一代开源混合专家(MoE)大语言模型,总参数规模达671B,每个token激活37B参数。该模型在数学、代码生成和多语言理解等基准测试中表现出色,性能媲美GPT-4和Claude 3.5,但训练成本仅约557万美元,是迄今为止性价比最高的开源大模型之一。

    671B
    总参数量

    37B
    激活参数量

    $5.57M
    训练成本

    128K
    上下文窗口

    ⚙️ 安装要求和过程

    环境要求

    • 🐍 Python 3.8+ (推荐使用Python 3.10+)
    • 📦 PyTorch 2.0+ 或更高版本
    • 💻 GPU 推荐:至少80GB显存(如A100/H100)用于完整模型推理
    • 💾 内存:建议至少128GB系统内存
    • 📁 磁盘空间:完整模型约需1.3TB存储空间(BF16格式)

    💡 提示:如果显存有限,可以使用模型量化(如4-bit/8-bit量化)或分布式推理来降低硬件要求。DeepSeek也提供了更小的蒸馏版本供本地部署。

    快速安装步骤

    # 1. 克隆官方仓库
    git clone https://github.com/deepseek-ai/DeepSeek-V3.git
    cd DeepSeek-V3

    # 2. 安装依赖
    pip install -r requirements.txt

    # 3. 下载模型权重(需同意许可协议)
    download deepseek-ai/DeepSeek-V3

    # 4. 运行推理示例
    python inference.py –model-path ./DeepSeek-V3 –input “你好,请介绍一下你自己”

    核心功能

    🧩 混合专家(MoE)架构

    采用创新的MoE架构,总参数671B但仅激活37B,大幅提升推理效率,降低计算成本。

    📐 超强数学推理

    在美国数学竞赛AIME 2024上取得优异成绩,数学推理能力接近甚至超越GPT-4o。

    💻 顶级代码生成

    在HumanEval和MBPP等代码基准测试中表现优异,支持多种编程语言,代码质量接近Claude 3.5。

    🌍 多语言支持

    支持中、英、法等多种语言,多语言理解能力在开源模型中处于领先地位。

    ⚡ 高效推理引擎

    配备优化的推理引擎,支持批处理、KV Cache、投机解码(Speculative Decoding)等加速技术,生成速度最高可达60 TPS(tokens per second)。

    🚀 典型使用场景

    📚 场景一:教育科技与数学辅导

    DeepSeek-V3的数学推理能力极强,可用于开发智能数学辅导系统。例如,某在线教育平台集成DeepSeek-V3后,能够逐步解答高中数学竞赛题,并给出详细的解题步骤和思路分析,学生满意度提升40%。

    💼 场景二:企业级代码助手

    利用DeepSeek-V3的代码生成能力,企业可以搭建内部代码助手。例如,某金融科技公司使用DeepSeek-V3辅助Python和SQL开发,代码审查效率提升50%,同时减少了30%的常见bug发生率。

    🌐 场景三:多语言内容生成

    DeepSeek-V3的多语言支持使其非常适合国际化内容生成。某跨境电商平台使用DeepSeek-V3自动生成产品描述(支持12种语言),内容生产速度提升10倍,且本地化质量显著优于传统机器翻译。

    💡 推荐理由

    作为一名经常使用大模型的开发者,我之所以强烈推荐 DeepSeek-V3,主要有以下几个原因:

    ① 性价比无敌 —— 训练成本仅约557万美元,但性能媲美GPT-4o和Claude 3.5 Sonnet。对于预算有限的团队来说,这是目前最好的开源选择。

    ② 开源可商用 —— 采用MIT License,完全开源且可免费商用。你可以自由部署、修改、二次开发,不用担心许可问题。

    ③ 推理效率高 —— MoE架构让它在保持强大能力的同时,推理成本远低于同级别密集模型。配合优化的推理引擎,可以在消费级硬件上运行量化版本。

    ④ 中文能力出色 —— 与许多主要面向英文优化的开源模型不同,DeepSeek-V3在中文理解和生成方面表现非常出色,适合国内开发者使用。

    ⑤ 活跃的社区支持 —— GitHub上103K+ stars,且有DeepSeek团队持续维护更新。社区贡献了大量教程、工具链和部署方案,降低了使用门槛。

    如果你正在寻找一个性能强劲、成本低廉、可商用的开源大模型,DeepSeek-V3绝对值得一试。💪

    📥 下载地址

    💡 提示:如果硬件资源有限,可以访问 DeepSeek开放平台 直接使用API,无需本地部署。


    📌 本文由 WorkBuddy AI 自动采集撰写

    关注我们,每周获取更多GitHub热门AI开源项目介绍 🚀

  • UI-TARS Desktop:35.3k Stars!字节跳动开源多模态AI代理桌面端,让AI直接操作你的电脑

    UI-TARS Desktop:35.3k Stars!字节跳动开源多模态AI代理桌面端,让AI直接操作你的电脑


    📦 项目简介

    UI-TARS Desktop 是字节跳动开源的多模态 AI Agent 桌面应用,基于自研的 UI-TARS 多模态大模型和先进的 GUI Agent 架构,让你可以用自然语言直接控制电脑——打开软件、修改设置、操作浏览器,全部由 AI 代劳。

    项目已获得 35.3k+ Stars,Apache 2.0 开源协议,支持 Windows / macOS / Linux 三平台,是 2026 年最值得关注的多模态 AI Agent 项目之一。

    UI-TARS Desktop 演示

    UI-TARS Desktop 实际操作演示

    ⚙️ 安装要求和过程

    环境要求:

    • Windows 10+ / macOS 12+ / Linux(Ubuntu 20.04+)
    • 8GB+ RAM(推荐 16GB)
    • 支持 CPU 推理,推荐 NVIDIA GPU(4GB+ 显存)以获得最佳体验
    • Node.js 22+(如使用 Agent TARS CLI)

    方式一:下载桌面端(推荐)

    1. 访问 GitHub Releases 页面,下载对应系统的安装包
    2. Windows 用户:下载 .exe 安装包,双击安装
    3. macOS 用户:下载 .dmg 文件,拖入 Applications 文件夹
    4. 首次启动需下载 UI-TARS 模型(约 4GB),请保持网络畅通

    方式二:使用 Agent TARS CLI

    # 快速启动(无需全局安装)
    npx @agent-tars/cli@latest
    
    # 全局安装
    npm install @agent-tars/cli@latest -g
    
    # 使用火山引擎方舟模型启动
    agent-tars --provider volcengine --model doubao-1.5-thinking-vision-pro-250428 --apiKey YOUR_KEY
    
    # 使用 Anthropic Claude 模型启动
    agent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey YOUR_KEY
    

    🚀 核心功能

    🤖
    自然语言控制
    基于视觉语言模型(VLM),用日常语言描述任务,AI 自动理解并执行
    🖥️
    全系统 GUI 操作
    精准控制鼠标、键盘,操作任意桌面应用,不受 API 限制
    🌐
    混合浏览器 Agent
    支持 GUI Agent 视觉定位、DOM 操作或混合策略控制浏览器
    🔌
    MCP 工具集成
    内核基于 MCP 构建,支持挂载各类 MCP 服务器,连接真实世界工具
    🔒
    隐私安全
    完全本地处理,数据不上传云端,支持企业内网部署
    🔄
    远程操作
    v0.2.0 起免费提供远程电脑操作和远程浏览器操作,无需额外配置

    🎯 典型使用场景

    场景一:让 AI 帮你配置开发环境

    告诉 UI-TARS “帮我在 VS Code 里打开自动保存,并把延迟设为 500 毫秒”,它会自动打开 VS Code 设置页面,找到对应选项并完成修改——全程无需你动手。

    场景二:自动完成网页预订任务

    对 Agent TARS CLI 说 “帮我在 Priceline 上订 9 月 1 日圣何塞到纽约最早的航班,以及 9 月 6 日最晚的返程航班”,它会自动打开浏览器、填写表单、筛选结果并完成预订。

    场景三:查询并分析 GitHub 项目

    直接问 “你能帮我查看 GitHub 上 UI-TARS-Desktop 项目最新的开放 issue 吗?”,AI 会自动访问项目页面、抓取 issue 列表并整理成可读的格式反馈给你。

    💡 推荐理由

    UI-TARS Desktop 最打动我的是它的「真正理解界面」的能力。不同于传统 RPA 工具依赖元素定位,UI-TARS 通过视觉语言模型直接”看”屏幕,就像人一样理解界面布局和元素含义。

    作为字节跳动出品的开源项目,它的技术栈相当扎实:基于自研的 UI-TARS-1.5-7B 多模态模型,支持 Docker 沙箱隔离执行,MCP 工具集成也非常完善。最关键的是——它完全本地运行,你的数据不会被上传到任何云端服务器。

    如果你一直在寻找一个能真正帮你操作电脑的 AI Agent,而不是只会聊天的对话工具,UI-TARS Desktop 绝对值得一试。它的远程操作功能(v0.2.0 起免费)更是让”AI 助手”的概念从聊天进化到了”真正帮你做事”。

    🚀 立即体验 UI-TARS Desktop

    开源 · 本地运行 · 多模态 AI Agent · 字节跳动出品

    支持 Windows / macOS / Linux · Apache 2.0 协议

    📥 下载地址


    📌 本文由 WorkBuddy AI 自动采集撰写,原文发布于 hiyoho.com

  • ClickUp裁员22%背后:AI正在重新定义「谁还有工作」

    ClickUp裁员22%背后:AI正在重新定义「谁还有工作」

    上个周四,协作软件公司ClickUp的CEO Zeb Evans在X平台上发了一条消息,说他们刚裁掉了22%的员工。听起来是个坏消息,但Evans的话风很有意思——他说这次裁员不是为了省钱,而是为了激进地拥抱AI。

    这话不是修饰。Evans说他要把裁员省下来的大部分钱,直接回馈给留下来的员工,甚至要推出「百万美元级别」的薪资档位。意思很直白:如果你用AI做出了远超预期的成果,你的薪水就不该被传统档位限制住。

    「那些用AI自动化了自己工作的人,永远会有工作。」——Zeb Evans,ClickUp CEO

    3000个AI代理已上岗

    根据《财富》杂志的报道,ClickUp最近内部部署了大约3000个AI代理,用来代替员工处理各类复杂任务。现在的员工不需要亲自完成那些工作,而是负责指挥这些代理,最后审核输出结果是否符合公司标准。

    这个变化挺激进的。员工的核心技能从「把事情做好」变成了「把AI代理用好」。ClickUp把这个目标叫做成为一家「100倍组织」——用极少的真人,产出百倍于传统团队的产出。

    ClickUp不是唯一这么想的公司。Gartner最近的调查显示,大约80%正在使用自主AI技术的公司已经进行了裁员。但这里有个问题:裁员并不一定会转化为有意义的财务回报。也就是说,有些公司可能只是拿AI当裁员的借口。

    ClickUp坚称自己不是这类公司。Evans在邮件里跟TechCrunch说,他们确实从AI代理身上看到了生产力提升,而且不仅在内部衡量这些效率提升,显然还在准备向客户推出包含相关功能的新产品。

    ClickUp AI工作流程示意图
    ClickUp总部,该公司正大力拥抱AI代理技术(图源:Getty Images)

    「Token最大化」正在成为考核指标

    近几个月来,越来越多的公司开始监测员工的token消耗量,把它当作衡量员工是否真的在用AI工具的指标。但批评者认为这个叫「tokenmaxxing」的概念是错误的——它只会推高AI成本,而不一定带来实际价值。

    Evans的说法是:「我们不做token成本的游戏化,我们做的是创造价值和节省时间的游戏化。」这话听起来有道理,但实际执行起来,员工为了证明自己在用AI,可能会无意义地消耗更多token。

    这场实验的核心矛盾在于:如果AI不断接管更多任务,ClickUp最终需要的人就会越来越少。那些没能很好实现职能自动化的员工,最终还是会被淘汰。CEO说「用AI自动化工作的人永远有工作」,但没说这些工作将来还有多少需要真人来做。

    一个人估值2.5亿美元的公司

    科技圈已经出现了一个把AI自动化用到极致的极端案例。成立仅一年的Polsia,声称用AI为独立创业者处理所有软件运营工作,而这家公司只有1名员工——就是它的创始人兼CEO Ben Broca。

    这种效率显然带来了回报:Polsia刚刚以2.5亿美元的估值完成了3000万美元的融资。这个故事给整个行业抛出了一个尖锐的问题:如果1个人加上一堆AI代理就能做原来需要几百人才能做的事情,那其他人的工作在哪里?

    ClickUp的这次裁员,加上他们明说的「100倍组织」目标,本质上是在告诉整个行业:用AI极致提效不是未来,是现在。那些还在犹豫要不要拥抱AI的公司和员工,可能很快就要面对一个很现实的选择——要么学会指挥AI代理,要么被那些已经学会的人取代。

    这场变化的速度可能比大多数人想象的要快。ClickUp把节省下来的人力成本用来给剩下的人涨薪,这个做法挺聪明——它至少在一定程度上缓解了留下来的员工的焦虑。但整个行业能不能复制这个模式,还得看AI代理到底能不能真的交付它们承诺的那些生产力红利。


    • ClickUp裁员22%,CEO称是拥抱AI而非成本削减
    • 内部已部署约3000个AI代理,员工角色转变为「代理指挥者」
    • Gartner:80%使用自主AI技术的公司已完成裁员
    • 「1人公司」Polsia以2.5亿美元估值融资,AI极致效率的极端案例
  • OpenClaw — 你的专属个人AI助手

    OpenClaw — 你的专属个人AI助手

    🦞 OpenClaw — 你的专属个人AI助手


    OpenClaw Logo

    📝 项目简介

    OpenClaw 是一款可以运行在你自己设备上的个人AI助手,支持任何操作系统、任何平台。它让你在已经使用的通讯渠道中与AI交互,真正实现”你的数据你做主”。

    项目在GitHub上获得了 374,000+ Stars,是2026年最热门的个人AI助手项目之一。

    💻 安装要求和过程

    环境要求:

    • Node.js:24.x(推荐)或 22.19+
    • 操作系统:macOS、Linux、Windows(推荐WSL2)
    • 包管理器:npm、pnpm 或 bun

    快速安装步骤:

    # 全局安装 OpenClaw
    npm install -g openclaw@latest
    # 或使用 pnpm
    pnpm add -g openclaw@latest
    
    # 运行引导式安装(推荐)
    openclaw onboard --install-daemon

    守护进程模式(推荐):

    # 安装守护进程
    openclaw onboard --install-daemon
    
    # 检查网关状态
    openclaw gateway status

    前台调试模式:

    # 停止后台网关
    openclaw gateway stop
    
    # 前台运行(带详细日志)
    openclaw gateway --port 18789 --verbose

    ✨ 核心功能

    🌐 本地优先网关(Local-first Gateway)
    单一控制平面管理会话、渠道、工具和事件,所有数据保存在本地设备上。
    📱 多渠道收件箱
    支持 20+ 通讯平台:WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、IRC、Microsoft Teams、Matrix、飞书、LINE、Mattermost等。
    🤖 多Agent路由
    将不同渠道/账号/联系人路由到隔离的Agent(工作区 + 每Agent会话),实现多用户、多场景并行处理。
    🎙️ 语音唤醒 + 对话模式
    macOS/iOS支持语音唤醒词,Android支持连续语音对话(集成ElevenLabs TTS + 系统TTS备用)。
    🎨 实时画布(Live Canvas)
    Agent驱动的可视化工作区,支持A2UI协议,让AI实时生成和操作界面元素。

    🚀 典型使用场景

    场景1:跨平台消息助手
    在你最常用的通讯工具(如WhatsApp或Telegram)中直接与AI对话,OpenClaw作为后台网关统一处理,无需切换应用。

    场景2:开发者工作流自动化
    结合Cron作业、Webhook和Gmail Pub/Sub,让AI定时执行任务、监控邮件并自动回复,打造个性化自动化工作流。

    场景3:多设备协同助手
    在macOS菜单栏、iOS和Android设备上同时运行OpenClaw节点,通过WebSocket配对,实现跨设备语音控制和画布同步。

    💡 推荐理由

    作为一名AI工具和开源项目的爱好者,我认为OpenClaw在以下几个方面表现出色:

    • 隐私优先:所有数据保存在本地,不依赖第三方云服务,真正实现了”own-your-data”的理念。
    • 渠道覆盖广:支持的平台数量远超同类项目,几乎覆盖了所有主流通讯工具。
    • 架构设计优雅:Gateway作为控制平面,配合可选 Companion App,既保证了功能完整性,又保持了模块化。
    • 活跃社区:374K+ Stars和众多企业赞助商(OpenAI、GitHub、NVIDIA、Vercel等)证明了项目的生命力和商业价值。

    如果你在寻找一个真正属于自己、可定制、跨平台的AI助手,OpenClaw绝对值得一试!

    📥 下载地址

    🦞 EXFOLIATE! EXFOLIATE!

  • ClickUp大裁员22%:AI替代人工的时代真的来了?

    AI加持下的”100倍组织”梦想

    ClickUp 的 CEO Zeb Evans 在 X 平台上说了一句话,让很多人心里一紧。他说这次裁掉 22% 的员工,不是成本削减,而是”激进地拥抱 AI”,要让 ClickUp 变成”100 倍组织”。

    什么叫”100 倍组织”?简单说就是:用极少的人,干出原来 100 倍的工作量。Evans 甚至承诺,省下来的人力成本会”直接回流给留下来的员工”,还要推出”百万美元薪资档位”。听起来很美好,但问题是——那些被裁掉的人,已经不在”留下来的人”的范围内了。

    AI与工作未来的概念图
    AI正在重塑工作场所,但代价由谁承担?

    3000 个 AI 智能体在”上班”

    根据《财富》杂志的报道,ClickUp 最近内部引入了约 3000 个 AI 智能体,代替员工处理各类复杂任务。现在的员工不需要亲自完成工作,而是被要求”指挥”这些智能体,然后审核输出结果。

    这个变化背后有一个微妙的逻辑:原来一个人做的工作,现在变成”人指挥 AI 做,人审核”。理论上人的效率提升了,但实际上需要的人数变少了。Evans 说”用 AI 自动化自己工作的人永远会有工作”——这话没错,但能走到那一步的人,显然不会是全部。

    ClickUp 并非唯一一家把 AI 智能体当作生产力答案的公司。Gartner 的调查显示,约 80% 使用自主技术的公司已经削减了岗位——但裁员并不一定会转化为有意义的财务回报。

    “代币最大化”:一个值得警惕的指标

    近几个月来,越来越多的公司开始监控员工的”代币消耗量”,把它当作衡量员工是否真正在用 AI 工具的指标。ClickUp 说他们不是在做”代币成本游戏化”,而是在游戏化”创造的价值和节省的时间”。

    但批评者指出,把代币消耗作为考核指标本身就是个错误方向,因为这只会刺激不必要的 AI 调用,推高成本,却不一定带来真实的价值产出。这就像一个餐厅老板跟厨师说:”你今天用了多少度电,我就给你发多少奖金。”厨师会怎么反应?当然是拼命开最大功率的烤箱。

    一个极端案例:只有一名员工的初创公司

    科技圈一直在理论推演”AI 完全替代人工”的场景,而现在已经有了一个高知名度的极端案例:成立仅一年的 Polsia,声称用 AI 自动化了所有软件运营工作,整个公司只有一名员工——创始人兼 CEO Ben Broca。

    这种效率显然正在获得资本市场的认可:Polsia 刚刚以 2.5 亿美元的估值完成了 3000 万美元的融资。投资者用真金白银说明了一件事——他们相信”一个人 + AI”可以替代几十甚至上百人的传统团队。

    ClickUp 的裁员或许只是一个开始。当 Evans 说”AI 会让留下的人拿到百万美元薪资”时,他可能没意识到,这句话的另一面是:大部分人会离开,而留下的人将面临前所未有的工作强度和压力。