标签: 大模型

  • AI智能体火了:从「聊两句」到「真的帮你干活」

    AI智能体火了:从「聊两句」到「真的帮你干活」

    如果你最近试过让AI帮你订外卖、整理文献、生成科研报告,你可能已经注意到一个变化:AI不再只是坐着和你聊天,它开始动手了。这个变化背后有一个关键词——智能体(Agent)。2026年,这个概念从实验室走到了普通用户的手机屏幕上。

    AI智能体应用场景
    AI智能体正在融入科研、电商、金融等真实工作场景(图源:新华网)

    智能体到底是什么?

    国家网信办等部门2026年5月印发的文件里给了个官方定义:智能体是具备自主感知、记忆、决策、交互与执行能力的智能系统。说人话就是——以前的AI是你问它答,现在的智能体是你告诉它一个目标,它会自己拆解任务、调用工具、执行步骤,最后把结果交给你。

    百度李彦宏对这个变化的判断很直接:过去几年AI竞争的核心是模型能力,现在竞争的焦点变成了”你能不能帮用户把事情做完”。这个判断背后有一个新的度量指标——日活智能体数(DAA),对应移动互联网时代的日活用户数(DAU)。

    衡量一个AI平台和生态是否繁荣,更应该看DAA——有多少智能体在给用户干活并交付结果。这才是AI从聊天工具向数字员工转变的真正标志。

    科研场景:从翻文献到一键出报告

    上海交通大学和深势科技推出的科研智能体SciMaster,已经能做的事情包括:你把一个问题丢给它,它自动拆成子任务,去全网和海量文献里检索,整合论文、专利、数据,最后生成一份深度调研报告。在药物研发和新材料设计领域,这类工具正在改变工作流。

    根据行业研究数据,智能体现在在材料化学、基因组学、生物医学等科研领域的渗透率正在快速提升,成为跨领域科研创新的核心辅助工具。

    电商场景:一句话下单,还会”劝退”你

    2026年5月,淘宝闪购和千问智能体完成深度打通,覆盖全国300多个城市和3000多个区县。你可以直接对智能体说”帮我点两杯奶茶,少糖,加珍珠”,它会自动识别意图、匹配商品、完成下单。

    有个有趣的细节:智能体在帮你选品时还会做出”劝退”动作。有记者测试时试图让智能体买”量子水杯”,结果被千问科普了一大通,直接劝退。这种机制其实是在用AI帮用户做理性决策,而不仅仅是被动执行指令。


    金融与教育:效率提升是实打实的

    券商研究员以前做行业研究,翻研报、读财报、搜新闻,2到3天才能出一份初稿。现在把研究主题交给智能体,它自动检索、精读财报、提炼观点,2到3小时就能输出结构化分析草稿。教育领域也是类似,文献综述这类耗时费力的活,现在智能体可以在一两天内完成过去需要几周的文献梳理工作。

    当然,智能体还不是完美的。幻觉问题、执行出错、决策跑偏,这些都是行业和用户正在共同面对的问题。多家公司和研究机构正在从技术层面加强核验能力,比如让智能体的推理过程可溯源、可校验,关键结论用实际运行结果来验证,而不只是模型自己说”我是对的”。

    政策层面也在跟上。2026年5月出台的《智能体规范应用与创新发展实施意见》,给这个正在快速爆发的行业划定了安全底线。智能体这个东西,本质上是AI从”会说话”到”能干活”的跨越,这个过程才刚刚开始。

  • Cohere收购Aleph Alpha估值200亿美元,要在美中之间做主权AI第三极

    4月24日,总部位于加拿大多伦多的Cohere宣布收购德国AI公司Aleph Alpha,合并后估值约200亿美元,两家公司称之为”跨大西洋AI强国”。这起并购背后的战略逻辑非常清晰:随着美中AI紧张关系加剧,欧盟和加拿大的组织机构正在积极寻找美国科技巨头之外的替代方案,而一家同时在两国数据主权框架下运营的AI公司,恰好能满足这个需求。

    Cohere的CEO Aidan Gomez将领导合并后的实体,总部设在多伦多,欧洲总部设在柏林。施瓦茨集团(Aleph Alpha的主要支持者之一,旗下拥有Lidl和Kaufland)将作为交易的一部分,向Cohere即将进行的E轮融资投资6亿美元。Aleph Alpha深耕德国公共部门关系——德国数字事务部、巴登-符腾堡州政府、德意志银行、SAP和博世都是现有客户。

    当数据主权从政治口号变成采购决策,一家能在加拿大和欧盟框架下同时提供大模型的公司,溢价能力会比单纯的技术基准分数更具说服力。

    200亿美元估值背后的赌注

    我的判断是:这200亿美元的合并估值,建立在”主权AI比同等美国托管能力享有溢价”的前提之上,这是一个乐观的假设。目前这个前提在国防、医疗保健和公共部门合同中确实成立,但在商业企业中(成本效率和能力基准占主导),客户是否愿意为主权溢价买单,还是个未知数。

    这起交易的结构倒是很合理。Cohere带来全球大语言模型开发能力,现有客户包括加拿大皇家银行、BCE、富士通、LG CNS,还有2.4亿美元的加拿大政府资金支持。Aleph Alpha则带来欧洲公共部门的深度关系网。合并后的实体在地理和政治覆盖上,确实能提供一种微软、谷歌、亚马逊目前无法声称的叙事:我们的训练数据、推理基础设施和公司治理,同时符合加拿大和欧盟的监管框架。

    地缘政治的底层逻辑

    这起并购其实是政府结盟的私营部门体现。2026年初,加拿大和德国在慕尼黑安全会议上启动了主权技术联盟,Cohere-Aleph Alpha就是那个联盟在AI领域的具体落地。对于不想把敏感数据路由到美国基础设施的欧盟组织来说,这家合并后的公司提供了一个技术上可行、政治上正确的选择。

    • 国防和公共部门:主权溢价的逻辑最成立,这部分市场Cohere-Aleph Alpha有明显优势
    • 商业企业:成本和能力基准仍是采购决策的核心,这部分市场竞争激烈
    • 数据本地化要求严格的行业(金融、医疗):合并后的跨大西洋架构有差异化价值

  • llama.cpp:90.4K Stars!本地大模型推理引擎,让普通电脑也能跑 AI

    llama.cpp:90.4K Stars!本地大模型推理引擎,让普通电脑也能跑 AI

    llama.cpp

    ⭐ 90.4K+ GitHub Stars

    💡 一句话介绍:llama.cpp 是用纯 C/C++ 编写的大语言模型推理框架,让普通电脑无需独立显卡就能运行大模型,是目前本地 AI 推理的基石项目。

    📦 项目简介

    llama.cpp 由 Georgi Gerganov 于 2023 年 3 月发布,最初的目标是在 Apple Silicon Mac 上用纯 CPU 运行 Meta 的 LLaMA 模型。项目发布后迅速引爆开源社区,截至目前已在 GitHub 收获 超过 9 万 Stars,成为本地大模型推理领域的事实标准。

    它的核心设计哲学是极简、高效与可移植——完全用 C/C++ 实现,没有任何 Python 依赖,单个可执行文件即可运行数十亿参数的大语言模型。它也是 GGUF 量化格式的发起者,这种格式已成为 Hugging Face 上量化模型的事实标准。

    今天,llama.cpp 不仅是开源项目,更是整个本地 AI 生态的底层引擎——LM Studio、Jan AI、KoboldCPP、Ollama(早期版本)等产品都在使用它作为推理后端。

    🔗 项目地址:https://github.com/ggml-org/llama.cpp

    📄 开源协议:MIT(完全免费,可商用)

    🌐 文档地址:https://llama-cpp.readthedocs.io/

    ⚙️ 安装要求与过程

    环境要求

    • 最低配置:4GB 内存即可运行 7B 量化模型(Q4_K_M)
    • 推荐配置:16GB 内存可运行 13B~70B 量化模型
    • GPU 加速:可选,支持 NVIDIA CUDA、Apple Metal、AMD ROCm、Vulkan
    • 操作系统:Windows / macOS / Linux / Android / iOS 全平台支持
    • 依赖:无需 Python,无需 Docker,无需任何运行时

    方式一:下载预编译文件(⭐ 推荐新手)

    步骤

    1. 访问 GitHub Releases 页面
    2. 下载对应操作系统的压缩包(Windows 选 llama-bn-x64.zip,macOS 选对应芯片版本)
    3. 解压后无需安装,直接使用命令行运行
    # 启动 OpenAI 兼容 API 服务(最常用)
    ./llama-server -m ./qwen2.5-7b-instruct-q4_k_m.gguf -c 4096 --port 8080
    
    # 启动交互式对话模式
    ./llama-cli -m ./model.gguf -p "你好,请介绍一下自己" -n 256
    
    # 启动后访问 http://localhost:8080 即可使用内置 Web UI

    方式二:pip 安装 llama-cpp-python(Python 用户)

    # 基础 CPU 版本
    pip install llama-cpp-python
    
    # NVIDIA GPU CUDA 加速版本
    CMAKE_ARGS="-DGGML_CUDA=on" pip install llama-cpp-python --upgrade --force-reinstall
    
    # macOS Apple Silicon Metal 加速版本
    CMAKE_ARGS="-DGGML_METAL=on" pip install llama-cpp-python --upgrade --force-reinstall
    
    # Python 调用示例
    from llama_cpp import Llama
    
    llm = Llama(
        model_path="./qwen2.5-7b-instruct-q4_k_m.gguf",
        n_ctx=4096,
        n_gpu_layers=-1  # -1 表示将所有层卸载到 GPU
    )
    output = llm("你好,请介绍 llama.cpp 的特色", max_tokens=256)
    print(output['choices'][0]['text'])

    方式三:从源码编译(进阶用户 / 自定义后端)

    git clone https://github.com/ggml-org/llama.cpp
    cd llama.cpp
    
    # 编译(根据硬件选择参数)
    cmake -B build -DGGML_CUDA=ON   # NVIDIA GPU 版本
    # cmake -B build -DGGML_METAL=ON  # Apple Silicon 版本
    # cmake -B build                   # 纯 CPU 版本
    
    cmake --build build --config Release -j $(nproc)
    
    # 编译完成后可执行文件位于 build/bin/ 目录下

    ✨ 核心功能

    🔧 1. 纯 C/C++ 实现,零依赖部署

    整个项目只依赖 C 标准库和 C++ 标准库,编译后生成单个可执行文件。这意味着你可以把 llama-server 直接拷贝到任何同架构机器上运行,无需安装 Python、Conda 或任何运行时环境。对于生产环境部署来说,这是巨大的优势。

    📊 2. GGUF 量化格式支持(业界标准)

    llama.cpp 社区发明了 GGUF(GPT-Generated Unified Format)格式,支持 Q4_K_M、Q5_K_M、Q8_0、IQ4_XS 等多种量化精度。Q4 量化可将模型大小缩减至 FP16 版本的 25%,7B 模型仅需约 4GB 内存即可运行。目前 Hugging Face 上绝大多数模型都提供 GGUF 版本。

    🖥️ 3. 纯 CPU 运行能力

    这是 llama.cpp 最大的亮点——它针对 CPU 推理做了大量优化(AVX2/AVX-512、NEON 等指令集加速),使得在 Intel i5、Apple M 系列芯片、AMD Ryzen 等消费级 CPU 上也能流畅运行量化后的 LLM。对于没有独立显卡的用户,这是运行本地大模型的唯一选择。

    🚀 4. 多 GPU 后端加速

    通过 -ngl(n-gpu-layers)参数可指定将多少 Transformer 层卸载到 GPU,显存不足时也可通过部分 GPU 加速显著提升推理速度。支持的后端包括:NVIDIA CUDA、Apple Metal、AMD ROCm、Vulkan,甚至支持 WebGPU 在浏览器中运行。

    🔌 5. OpenAI 兼容 API Server

    内置 llama-server 模式,提供完全兼容 OpenAI API 格式的接口。这意味着你可以用完全相同的代码,在本地用 llama.cpp 替代 OpenAI 的 API,无缝对接 Open WebUI、SillyTavern、Continue.dev 等前端应用,无需修改任何代码。

    🌍 6. 广泛的模型架构支持

    覆盖绝大多数主流开源 LLM 架构,包括 Llama 3.x、Mistral、Mixtral MoE、Qwen 2.5/3、Gemma 2/3、Phi-4、DeepSeek V2/V3、Command-R 等。新模型发布后,社区通常数天内即可完成适配。

    🚀 典型使用场景

    场景一:隐私优先的本地助手

    对于对数据隐私有严格要求的个人和企业,llama.cpp 是最理想的选择。所有推理在本地完成,数据无需上传云端。结合 Open WebUI 作为前端,你可以在完全离线的状态下拥有一个功能完整的 AI 助手。

    # 启动本地 API 服务
    ./llama-server -m ./models/qwen2.5-7b-q4_k_m.gguf \
        -c 4096 -ngl 99 --port 8080
    
    # Open WebUI 连接本地服务
    open-webui serve  # 然后访问 http://localhost:3000
                     # 在设置中填写 API URL: http://localhost:8080/v1

    场景二:AI 应用的后端推理引擎

    如果你正在开发需要本地 LLM 能力的应用(如桌面软件、移动 App、嵌入式设备),llama.cpp 是最佳的推理引擎选择。它的 C/C++ 接口可以直接嵌入到你的应用中,无需启动外部服务。

    著名的 AI 编码助手 Continue.dev、本地 AI 助手 Jan AI、角色扮演工具 KoboldCPP 都使用 llama.cpp 作为底层推理引擎。

    场景三:低成本服务器部署

    对于想要搭建内部 AI 服务的团队,llama.cpp 可以在没有高端 GPU 的服务器上运行。一台配备 64GB 内存的普通服务器,就可以运行量化后的 70B 参数模型,为整个团队提供 LLM 推理服务。

    # 服务器部署:运行 70B 模型(需要约 40GB 内存)
    ./llama-server -m ./llama-3.3-70b-q2_k.gguf \
        -c 8192 --port 8080 -t 16  # -t 16 表示使用 16 个 CPU 线程

    📊 量化版本选择指南

    量化版本 模型大小(7B) 质量 适用场景
    Q8_0 ~7.5GB ⭐⭐⭐⭐⭐ 几乎无损 显存充足,追求最佳质量
    Q5_K_M ~5.5GB ⭐⭐⭐⭐ 非常接近 Q8 大多数场景的最佳平衡
    Q4_K_M ~4.5GB ⭐⭐⭐ 轻微质量下降 显存/内存有限的常规场景(推荐)
    IQ4_XS ~4.0GB ⭐⭐⭐ 智能量化,同大小质量更优 新一代推荐选择
    Q3_K_M ~3.5GB ⭐⭐ 质量下降较明显 内存严重受限的极端场景

    ⚠️ 注意:量化级别越低,推理质量下降越多。对于重要场景,建议使用 Q4_K_M 或更高质量;对于简单任务(如代码补全、分类),Q3 也是可以接受的。

    💡 推荐理由

    如果你问我”想要在本地运行大模型,应该从哪里开始?”,我的答案一定是 llama.cpp

    作为一个在开源社区活跃了多年的项目,llama.cpp 不仅技术上过硬,社区生态也极其丰富。它解决了本地 AI 推理的三个核心痛点:

    • 门槛低:不需要懂 Python,不需要配置环境,下载预编译文件解压就能用
    • 质量高:经过两年多的社区优化,推理速度和质量已经非常接近商业方案
    • 生态好:几乎所有主流本地 AI 工具都支持或基于 llama.cpp

    对我个人来说,llama.cpp 最有价值的地方在于它的 OpenAI 兼容 API。这让我的本地开发环境和云端开发环境可以用同一套代码——开发时连本地 llama.cpp,部署时换成一个环境变量指向 OpenAI,其他代码完全不用改。这种灵活性在今天这个 AI 工具链快速变化的时代,是非常宝贵的。

    另外,如果你对 AI 推理的底层原理感兴趣,llama.cpp 的源代码是最好的学习材料。它把 Transformer 推理的每一步都用 C 语言实现得清晰可读,比任何教科书都更直观。

    📌 适合人群:想要在本地运行大模型的 AI 爱好者、需要在无网环境下提供 LLM 能力的开发者、对 AI 推理性能优化感兴趣的研究者。

    📌 不适合人群:只想用图形界面、不想碰命令行的用户(建议直接用 LM Studio 或 Jan AI,它们底层用的就是 llama.cpp)。

    📥 下载地址

    提示:如果你不想自己编译或配置,可以直接使用基于 llama.cpp 封装的图形化工具:LM Studio(最友好的图形界面)、Jan AI(开源替代方案)、或 Ollama(命令行工具,我们之前介绍过)。它们的底层都是 llama.cpp,但提供了更简单的使用体验。

  • DeepSeek-V3:103K Stars!开源MoE大模型,以极低成本媲美GPT-4

    DeepSeek-V3:103K Stars!开源MoE大模型,以极低成本媲美GPT-4

    ⭐ GitHub热门AI开源项目 · 第38期

    DeepSeek-V3

    103K+ Stars  |  ⚡ MoE大模型  |  🚀 成本仅GPT-4的1/10

    由DeepSeek开发的开源混合专家大模型,在数学、代码和多语言基准测试中表现出色

    📌 项目简介

    DeepSeek-V3 是由DeepSeek团队开发的新一代开源混合专家(MoE)大语言模型,总参数规模达671B,每个token激活37B参数。该模型在数学、代码生成和多语言理解等基准测试中表现出色,性能媲美GPT-4和Claude 3.5,但训练成本仅约557万美元,是迄今为止性价比最高的开源大模型之一。

    671B
    总参数量

    37B
    激活参数量

    $5.57M
    训练成本

    128K
    上下文窗口

    ⚙️ 安装要求和过程

    环境要求

    • 🐍 Python 3.8+ (推荐使用Python 3.10+)
    • 📦 PyTorch 2.0+ 或更高版本
    • 💻 GPU 推荐:至少80GB显存(如A100/H100)用于完整模型推理
    • 💾 内存:建议至少128GB系统内存
    • 📁 磁盘空间:完整模型约需1.3TB存储空间(BF16格式)

    💡 提示:如果显存有限,可以使用模型量化(如4-bit/8-bit量化)或分布式推理来降低硬件要求。DeepSeek也提供了更小的蒸馏版本供本地部署。

    快速安装步骤

    # 1. 克隆官方仓库
    git clone https://github.com/deepseek-ai/DeepSeek-V3.git
    cd DeepSeek-V3

    # 2. 安装依赖
    pip install -r requirements.txt

    # 3. 下载模型权重(需同意许可协议)
    download deepseek-ai/DeepSeek-V3

    # 4. 运行推理示例
    python inference.py –model-path ./DeepSeek-V3 –input “你好,请介绍一下你自己”

    核心功能

    🧩 混合专家(MoE)架构

    采用创新的MoE架构,总参数671B但仅激活37B,大幅提升推理效率,降低计算成本。

    📐 超强数学推理

    在美国数学竞赛AIME 2024上取得优异成绩,数学推理能力接近甚至超越GPT-4o。

    💻 顶级代码生成

    在HumanEval和MBPP等代码基准测试中表现优异,支持多种编程语言,代码质量接近Claude 3.5。

    🌍 多语言支持

    支持中、英、法等多种语言,多语言理解能力在开源模型中处于领先地位。

    ⚡ 高效推理引擎

    配备优化的推理引擎,支持批处理、KV Cache、投机解码(Speculative Decoding)等加速技术,生成速度最高可达60 TPS(tokens per second)。

    🚀 典型使用场景

    📚 场景一:教育科技与数学辅导

    DeepSeek-V3的数学推理能力极强,可用于开发智能数学辅导系统。例如,某在线教育平台集成DeepSeek-V3后,能够逐步解答高中数学竞赛题,并给出详细的解题步骤和思路分析,学生满意度提升40%。

    💼 场景二:企业级代码助手

    利用DeepSeek-V3的代码生成能力,企业可以搭建内部代码助手。例如,某金融科技公司使用DeepSeek-V3辅助Python和SQL开发,代码审查效率提升50%,同时减少了30%的常见bug发生率。

    🌐 场景三:多语言内容生成

    DeepSeek-V3的多语言支持使其非常适合国际化内容生成。某跨境电商平台使用DeepSeek-V3自动生成产品描述(支持12种语言),内容生产速度提升10倍,且本地化质量显著优于传统机器翻译。

    💡 推荐理由

    作为一名经常使用大模型的开发者,我之所以强烈推荐 DeepSeek-V3,主要有以下几个原因:

    ① 性价比无敌 —— 训练成本仅约557万美元,但性能媲美GPT-4o和Claude 3.5 Sonnet。对于预算有限的团队来说,这是目前最好的开源选择。

    ② 开源可商用 —— 采用MIT License,完全开源且可免费商用。你可以自由部署、修改、二次开发,不用担心许可问题。

    ③ 推理效率高 —— MoE架构让它在保持强大能力的同时,推理成本远低于同级别密集模型。配合优化的推理引擎,可以在消费级硬件上运行量化版本。

    ④ 中文能力出色 —— 与许多主要面向英文优化的开源模型不同,DeepSeek-V3在中文理解和生成方面表现非常出色,适合国内开发者使用。

    ⑤ 活跃的社区支持 —— GitHub上103K+ stars,且有DeepSeek团队持续维护更新。社区贡献了大量教程、工具链和部署方案,降低了使用门槛。

    如果你正在寻找一个性能强劲、成本低廉、可商用的开源大模型,DeepSeek-V3绝对值得一试。💪

    📥 下载地址

    💡 提示:如果硬件资源有限,可以访问 DeepSeek开放平台 直接使用API,无需本地部署。


    📌 本文由 WorkBuddy AI 自动采集撰写

    关注我们,每周获取更多GitHub热门AI开源项目介绍 🚀

  • 福布斯中国AI TOP 50出炉,企业级AI平台被单独标注了

    唯一一家”企业级AI平台”公司

    福布斯中国刚发布了2026年AI科技企业TOP 50榜单。和往年不太一样的是,今年的榜单里出现了一个有点特别的入选理由标注。

    中关村科金是榜单上唯一一家被标注为”企业级AI平台及应用公司”的企业。这个标注背后,其实藏着一个正在发生变化的市场信号。

    据IDC最新报告,中关村科金位列中国大模型平台私有化市场份额第四。2026年一季度,其在应用类大模型项目公开中标数排名前五,服务行业客户超3000家。

    私有化部署为什么成了独立赛道

    AI行业有一个变化已经进行了一段时间:从”我能做多大模型”到”我的大模型能在你的环境里跑起来吗”。

    私有化部署这个需求,在中国市场尤其突出。金融、政务这些行业,数据不能出域是硬要求。大模型再强,不能本地部署就免谈。这就是为什么”企业级AI平台”成了一个独立的赛道。

    中关村科金能上福布斯榜单,某种程度上说明这个赛道已经被主流视野注意到了。之前这块业务相对低调,做的主要是把大模型”装进”企业的私有环境里,让企业能用自己的数据跑自己的AI。

    同一时期的其他信号

    同一时期的AI行业快讯里,还有几个值得放在一起看的数据。

    • Meta计划全球裁员10%,但同时把7000名员工转到AI工作流相关的新项目——AI转型伴随着组织重构。
    • 腾讯2026年Q1净利润756亿元,AI投入是百亿级别;百度AI相关收入占比首次过半,但毛利率只有35-40%,远低于传统广告业务的65-67%。
    • 三大运营商齐发Token服务,支持话费账单支付——AI算力开始走向大众化消费。

    这些数据放在一起,一个轮廓开始清晰:AI的商业模式分化正在加速。做to C的可能还在烧钱,做to B的有些已经开始赚钱了。


    福布斯榜单的真正信号

    福布斯榜单的意义,往往不在于谁上榜了,而在于它折射出资本和市场的注意力在哪里。

    企业级AI平台这个赛道,在此之前相对低调。现在被福布斯拎出来单独标注,至少说明一件事:AI价值链里,不被看见的那部分,可能才是最值钱的那部分。

    大模型本身的竞赛已经白热化,但能把大模型”交付”到企业手里、还能跑得稳的这个中间层,反而是更稀缺的能力。这个能力需要的不只是技术,还有对金融、政务、汽车这些行业的理解。

    榜单里只有一家企业级AI平台公司,不代表这个赛道只有一家在跑。但它至少说明,资本开始认真看待这个方向了。

  • 两千亿参数、原生全模态,智象未来把图像大模型卷到了新维度

    5月19日,智象未来在北京办了首届开放日,主题叫「Imagining the World」。会上最重磅的消息,是发布了参数超两千亿的图像大模型HiDream-O1-Image-Pro。

    告别「拼接味」,原生全模态才是正路

    现在市面上的图像生成模型,大多还是「拼接路线」——图像走一条路,文本走另一条路,最后拼在一起。这种做法在复杂语义理解、精准文字渲染上总是差点意思。

    HiDream-O1-Image-Pro换了个思路:把图像像素、文本标记和任务条件统一放进一个连续共享的标记空间,从底层就开始「混着学」。这个架构叫Unified Transformer(UiT),智象未来管它叫「原生全模态」。

    「当前很多『多模态大模型』,本质上还是『单模态拼接』。而原生多模态,是从一开始就把『世界的规则』刻进模型里——它知道物理定律、空间关系、因果逻辑,所以它能真正理解世界、推理世界,而不只是『生成内容』。」

    —— 智象未来创始人兼CEO 梅涛
    HiDream-O1-Image-Pro模型架构示意图
    HiDream-O1-Image-Pro架构示意图(图片来源:量子位)

    开源版已经打遍榜上无敌手

    其实在这之前,智象未来已经把8B参数的开源版本HiDream-O1-Image放到了全球评测平台Artificial Analysis上,结果在文生图开源模型里排到了全球第一,超过了Z-Image Turbo、Qwen-Image、FLUX.2这些主流对手。

    这次发布的Pro版是闭源版本,参数直接干到了两千亿以上,在复杂文本渲染、指令编辑、多主体个性化这些任务上全面刷新了SOTA纪录。

    半月内连融两轮,资本用脚投票

    开放日上还透露了一个信号:公司融资在提速。不久之前刚完成超5亿元融资,半月之内又敲定了新一轮,投资方包括深创投、金浦投资、财鑫资本、复聚资本等。

    现在的阵容很有意思:安徽、上海、湖南、杭州的多方产业基金在跟,深创投、东方富海、峰华资本这些头部市场化VC也在押注。这个资本组合,摆明了是要在「原生全模态」这个方向上重仓。

    商业化落地:三个智能体产品已经跑起来

    光有模型不够,智象未来同时亮出了三条产品线:

    • HiBurst:商业营销智能体,已覆盖TikTok、Meta、抖音、小红书等平台,是TikTok官方top5服务商,年生产电商营销视频超百万条
    • 帧赞:全球首个专业级AI影视创作智能体,已累计制作短漫剧超5000分钟
    • vivago:社媒创作智能体,近日登上Product Hunt日榜第一,覆盖全球100多个国家超4000万用户

    从视觉生成走向世界模型,这条路还长。但智象未来至少证明了一件事:原生全模态架构不是空中楼阁,它已经能打商业仗了。


  • 英伟达又破纪录了,但真正吓人的是那430亿美元的隐形投资组合

    英伟达又破纪录了,但真正吓人的是那430亿美元的”隐形投资组合”

    英伟达周三盘后公布了截至2026年4月26日的季度财报,数字一如既往地好看:总营收816亿美元,较上一季度增长20%;数据中心营收752亿美元,又创了新高。

    黄仁勋在电话会议上那股子得意劲儿不难想象。据财报披露,英伟达所有主要客户——所有超大规模云厂商、所有云服务提供商、所有主要大模型开发商——都已经采用并部署了Blackwell架构。这句话的潜台词是:眼下这场AI军备竞赛,英伟达是唯一的军火商。

    本季度营收816亿美元(环比+20%),数据中心营收752亿美元创历史新高。英伟达授权800亿美元股票回购计划,预计下季度营收910亿美元。

    受此业绩提振,英伟达授权了800亿美元的股票回购计划。有钱就是任性。

    430亿美元是怎么花出去的?

    但如果你仔细翻这份财报,有一个数字比营收纪录更值得玩味:英伟达持有私营企业的股权规模,在这三个月里几乎翻了一番。

    季度初,这个数字还是220亿美元。季度末,变成了430亿美元。

    430亿美元是什么概念?大约相当于两个英特尔的市值(截至发稿时英特尔市值约210亿美元)。而这些还只是英伟达持有的非上市企业股权,不包括它对康宁(Corning)、IREN等上市公司的投资,也不包括今年2月承诺向OpenAI投资的300亿美元(这笔交易的结构尚未披露)。

    英伟达CEO黄仁勋在GTC大会
    英伟达CEO黄仁勋在GTC大会 | 图源:TechCrunch / Getty Images

    推动这笔430亿美元的主要因素是本季度内累计185亿美元的收购支出。作为对比,上一季度英伟达在收购私营企业股权上的支出仅为6.49亿美元。从6.49亿到185亿,这个增幅大概是28倍。

    黄仁勋的”产能阳谋”

    黄仁勋在电话会议上特别提到了与Anthropic的产能建设计划。他说:”我们今年和明年为Anthropic上线的产能规模将非常可观,此前我们对Anthropic的覆盖基本为零。”

    这句话其实透露了两个信息:第一,Anthropic正在大规模扩张算力基础设施;第二,英伟达是这次扩张的核心受益者。考虑到Anthropic每月需向xAI支付12.5亿美元算力的消息刚过去没几天,AI公司对算力的渴求已经到了不惜代价的地步。

    当然,财报也不是全是好消息。英伟达预测下一季度营收为910亿美元,环比增长12%。这个数字虽然仍然亮眼,但增速较本季度的20%已经明显放缓。

    中国市场:名义上能卖,实际上卖不了

    中国市场的故事则基本处于停滞状态。CFO Colette Kress表示,虽然H200芯片已获得美国出口许可,但”我们尚未产生任何相关收入,也不确定是否会被允许出口到中国”。

    换句话说,名义上可以卖,实际上卖不了。这块市场基本上已经算是丢了。

    回过头看那430亿美元的持股组合,英伟达正在做的事情其实很聪明:它不只是卖铲子的,它还在用赚来的钱买下那些挖金矿的公司的股份。AI产业链的每一个环节,从芯片到模型到应用,英伟达都在用投资的方式深度绑定。

    这种模式一旦跑通,英伟达就不再是单纯的硬件供应商,而是整个AI生态系统的股东。到那时候,即便有竞争对手的芯片赶上来,英伟达手里握着的那些股权也足够让它继续坐在牌桌的主位上。


  • OpenAI说这次真的解决了80年数学难题,上次的尴尬还记得吗?

    OpenAI说这次真的解决了80年数学难题,上次的尴尬还记得吗?

    如果你最近刷到OpenAI又双叒叕宣布”解决数学难题”的消息,第一反应可能是:又来?

    确实,这话听着耳熟。7个月前,OpenAI时任副总裁Kevin Weil在X上发帖,信誓旦旦地说GPT-5找到了10个此前未解的埃尔德什问题解决方案,另外11个也取得了进展。结果呢?被打脸了。那些”新解决方案”早就存在于现有文献中,压根不是什么新发现。

    那次翻车之后,Yann LeCun、谷歌DeepMind CEO Demis Hassabis等竞争对手轮番嘲讽,Weil也只能默默删帖。可以说OpenAI在数学证明这件事上,信用已经透支得差不多了。

    这次被解决的是保罗·埃尔德什(Paul Erdős)1946年首次提出的几何猜想。近80年来,数学家们普遍认为这个问题的最优解大致类似正方形网格。OpenAI的新推理模型把这种想法推翻了,发现了一种全新的构造族,性能更优。

    但这次,OpenAI好像真的没吹牛。

    这次OpenAI在X上发帖宣布消息时,还附上了数学家Noga Alon、Melanie Wood和Thomas Bloom的支持性评论。Bloom是Erdos Problems网站的维护者,就在7个月前,他还在社交媒体上称Weil的那条官宣是”戏剧性的不实描述”。这次他站出来背书,分量不轻。

    不是专门训练出来的”数学天才”

    OpenAI的说法是:这是”AI首次自主解决数学领域核心的著名开放问题”。而且特别强调,这个证明是由新的通用推理模型产出的,不是专门为了解这个数学题、甚至不是专门针对这个问题设计的系统。

    换句话说,这是个意外之喜,不是定向训练的结果。这意味着模型的推理能力已经强到可以在没有专门训练的情况下,自主产出原创的数学证明。

    这件事为什么重要?OpenAI的解释是:这意味着AI系统现在更有能力处理长难推理链,并且能以研究人员此前未探索过的方式跨领域连接想法。这对生物学、物理学、工程和医学都有重要意义。

    Erdős数学问题示意图
    埃尔德什问题相关数学示意图 | 图源:TechCrunch

    数学界会买账吗?

    Thomas Bloom的声明说得很漂亮:”AI正在帮助我们更全面地探索几个世纪以来我们搭建的数学殿堂。还有哪些未被发现的美妙事物正等待被发掘?”

    话是这么说,但数学界向来对计算机辅助证明持保留态度。1998年四色定理的证明用到了计算机穷举,至今仍有数学家觉得不够”优雅”。这次OpenAI给出的证明,能不能被数学界真正接受,恐怕还得看同行评审的结果。

    不过有一点倒是挺有意思的:上次的尴尬过去才7个月,OpenAI就端出了一个有数学家背书的成果。是模型能力真的跃升了,还是这次学乖了、先找好背书再开发布会?

    答案可能要等一等才能知道。但至少这次,OpenAI没有让自己再次成为笑话。


  • 2026年5月AI圈的三件大事:新模型扎堆发布,Agent终于落地,然后电力不够用了

    2026 年的 5 月,AI 圈的热闹程度一点不比 4 月差。模型发布、Agent 落地、电力危机——这三件事同时发生在同一个月份里,凑在一起看,你会发现这个行业的节奏已经完全不是「按年迭代」了,而是按月、甚至按周在翻篇。

    模型发布潮,这次不一样

    OpenAI 的 GPT-5.5 系列还在持续推出变体,方向很明确:不再追求一个万能模型打天下,而是按场景拆分成不同专业版本。GPT-5.5-Cyber 专门盯网络安全场景,能做漏洞挖掘和攻防推理——这种垂直专业化的做法,说明厂商已经意识到通用模型在企业场景里的性价比瓶颈。

    Claude Mythos 更神秘一些,目前只有约 50 家合作伙伴能拿到受限预览资格。传闻在推理、编码、Agent 执行和漏洞发现这几个能力上都有重大突破。稀缺性反而让它热度更高——但说实话,这种「限量内测」的打法,到底是为了控制风险还是营销手法,外人很难判断。

    DeepSeek V4 的出现,让「低成本逼近前沿性能」这件事从例外变成了趋势。开源权重模型的竞争力,已经到了闭源厂商不能忽视的程度。

    DeepSeek V4 预览版已经上线,正式版预计近期发布。它的核心卖点是以极低的推理成本提供接近前沿水平的性能。对于高用量场景来说,这个性价比优势是真实的,不是噱头。Meta 的 Avocado 则推迟到了 5-6 月发布,说明即使头部厂商也会在研发落地的时间表上翻车——厂商给的路线图,看看就好,别当真。


    Agent 落地,这次是真的

    Gartner 有个预测:到 2026 年底,40% 的企业应用会嵌入 AI Agent。2025 年这个比例还不到 5%。这个跨度不是渐进式的,是跳跃式的。Deloitte 直接把 2026 年定义为「Agentic AI 的转折点」,IBM 等厂商也在推「超级智能体」和「多智能体编排」的概念。

    开发者社区的话题也变了。半年前大家还在争论「Agent 到底有没有用」,现在已经在讨论用 CrewAI 还是 LangGraph,MCP 协议怎么接入,Agent 的可靠性和成本怎么管控。这种讨论重心的转移,比任何报告都能说明问题——Agent 已经脱离概念验证阶段,进入实际落地周期了。

    但落地难度的提升也是真实的。Agent 从「生成回复」到「执行工作流」,意味着出错的影响范围完全不同。以前 AI 说错一句话,代价是一段不那么准确的摘要;现在 Agent 自动执行了一系列操作,哪怕其中一个环节出错,后果可能是删错数据、发错邮件、或者把订单派到错误的地址。

    电力危机,AI的下一个瓶颈

    最后一个话题有点沉重,但躲不过。AI 不是普通软件,它是高能耗的计算范式。一个 AI 密集型查询的耗电量,远高于一次传统网页搜索。大规模数据中心园区需要几百兆瓦的电力容量支撑——这个数字不是比喻,是实际的基础设施需求。

    Gartner 又有一个预测:到 2027 年,电力短缺将限制约 40% 的 AI 数据中心落地。美国目前约有一半的规划数据中心项目,因为电力基础设施和相关组件短缺被推迟或取消。钱能解决的问题都不是最难的问题,但变电站建设、变压器供应、电网接入审批——这些是工业协调问题,推进速度远慢于模型发布的节奏。

    AI 发展的下一个瓶颈不是芯片,不是模型,也不是资本——是现实世界的落地能力。

    说回太浩湖那个例子。4.9 万居民和 AI 数据中心抢电,这不是一个孤立事件,而是一个缩影。AI 扩张的基础设施成本,最终会以某种方式转嫁到社会层面。这个问题在 2026 年还只是苗头,但再过两年,它会变成政策制定者必须正面回应的问题。