标签：图像生成

两千亿参数、原生全模态，智象未来把图像大模型卷到了新维度
5月19日，智象未来在北京办了首届开放日，主题叫「Imagining the World」。会上最重磅的消息，是发布了参数超两千亿的图像大模型HiDream-O1-Image-Pro。

告别「拼接味」，原生全模态才是正路

现在市面上的图像生成模型，大多还是「拼接路线」——图像走一条路，文本走另一条路，最后拼在一起。这种做法在复杂语义理解、精准文字渲染上总是差点意思。

HiDream-O1-Image-Pro换了个思路：把图像像素、文本标记和任务条件统一放进一个连续共享的标记空间，从底层就开始「混着学」。这个架构叫Unified Transformer（UiT），智象未来管它叫「原生全模态」。

「当前很多『多模态大模型』，本质上还是『单模态拼接』。而原生多模态，是从一开始就把『世界的规则』刻进模型里——它知道物理定律、空间关系、因果逻辑，所以它能真正理解世界、推理世界，而不只是『生成内容』。」

—— 智象未来创始人兼CEO 梅涛

HiDream-O1-Image-Pro架构示意图（图片来源：量子位）

开源版已经打遍榜上无敌手

其实在这之前，智象未来已经把8B参数的开源版本HiDream-O1-Image放到了全球评测平台Artificial Analysis上，结果在文生图开源模型里排到了全球第一，超过了Z-Image Turbo、Qwen-Image、FLUX.2这些主流对手。

这次发布的Pro版是闭源版本，参数直接干到了两千亿以上，在复杂文本渲染、指令编辑、多主体个性化这些任务上全面刷新了SOTA纪录。

半月内连融两轮，资本用脚投票

开放日上还透露了一个信号：公司融资在提速。不久之前刚完成超5亿元融资，半月之内又敲定了新一轮，投资方包括深创投、金浦投资、财鑫资本、复聚资本等。

现在的阵容很有意思：安徽、上海、湖南、杭州的多方产业基金在跟，深创投、东方富海、峰华资本这些头部市场化VC也在押注。这个资本组合，摆明了是要在「原生全模态」这个方向上重仓。

商业化落地：三个智能体产品已经跑起来

光有模型不够，智象未来同时亮出了三条产品线：
- HiBurst：商业营销智能体，已覆盖TikTok、Meta、抖音、小红书等平台，是TikTok官方top5服务商，年生产电商营销视频超百万条
- 帧赞：全球首个专业级AI影视创作智能体，已累计制作短漫剧超5000分钟
- vivago：社媒创作智能体，近日登上Product Hunt日榜第一，覆盖全球100多个国家超4000万用户
从视觉生成走向世界模型，这条路还长。但智象未来至少证明了一件事：原生全模态架构不是空中楼阁，它已经能打商业仗了。

📎 原文来源：智象未来超两千亿参数图像大模型HiDream-O1-Image-Pro发布，融资持续提速 — 量子位
2026年5月21日
Google推出Pics应用：AI设计工具赛道又多了一个重量级玩家

Google在今年的I/O大会上扔出了一个不太起眼、但挺有意思的新产品——Pics。这是一个跑在Google Workspace里的AI设计和图像生成应用，你可以直接把它理解成”Google版的Canva”，或者”AI版的Photoshop入门工具”。

这个说法可能有点过于简化了。Pics真正想做的，是让完全不懂设计的人也能用AI生成像样的视觉内容——社交媒体配图、活动邀请函、营销物料、产品原型图，这些都能通过简单的文字描述搞定。

为啥要做这个？因为改图太麻烦了

Google在发布Pics的时候说了一个很接地气的痛点：现在的AI图像生成工具，生成质量已经不错了，但如果你想改图中某一个细节，基本没戏——你得重新写一个提示词，然后祈祷这次AI别把其他部分也改掉。

Pics的思路是：生成图像只是第一步，关键是让图像里的每个元素都可以单独编辑。你可以用新的提示词改局部，也可以直接点击想改的地方写评论——就像在Google Docs里给同事提修改意见一样。

这个设计逻辑其实挺聪明的。它把AI图像生成从”抽奖式创作”变成了”可迭代设计”，降低了试错成本。底层驱动编辑功能的是Gemini，而图像生成本身则由Nano Banana 2支持——Google说这个模型在精确文本渲染、现实世界知识和细节输出上表现不错。

Google Pics应用界面，用户可通过文字提示生成并编辑设计

对手不只是Canva

Google做这个产品，明面上是冲着Canva去的，毕竟Canva这几年在AI设计赛道跑得挺快。但暗地里，Google可能更在意的是Anthropic最近推出的Claude Design——用Claude直接生成可编辑的设计稿，这个思路跟Pics有点像。

Google的优势在于生态整合。Pics原生嵌入Google Workspace，你可以在Docs、Slides、Sheets之间无缝协作，设计稿可以直接丢进幻灯片里用。对于已经离不开Google办公套件的企业和学校来说，这个整合黏性挺强的。

谁能用？什么时候能用？

目前Pics还在测试阶段，I/O期间有一小批测试者拿到了内测资格。Google说今年夏天会先向AI Ultra订阅用户开放，后续再逐步推给更广泛的用户。

这个节奏其实透露了Google的心思：AI设计工具不只是”做个好用的产品”那么简单，它是拉动高价AI订阅的重要手段。如果你能让用户觉得”每个月花100美元买Ultra，就为了用Pics做图”，那这个订阅就值了。

当然，最终Pics能不能打，还得看实际体验。AI生成设计这个赛道，嘴上说说都挺厉害，真要做到”生成即可用”的程度，还有不少坑要填。

📎 原文来源：Google just declared itself a contender in AI design at IO 2026 – TechCrunch

2026年5月20日
Google I/O 2026全记录：Gemini 3.5、AI搜索和智能眼镜全部到位

Google I/O 2026的主题只有一个：把Gemini塞进你数字生活的每一个角落。这场发布会5月19日开幕，整整两天的议程里，几乎没有哪个产品没被AI重新做一遍。

搜索的”十个蓝色链接”时代正式结束

搜索率先被改造。新搜索框支持长对话式查询，还能给出AI驱动的查询建议，你甚至可以往搜索框里直接拖文档、图片、视频和Chrome标签页。AI Overviews（AI概览）的月活已经摸到25亿，对话式搜索模式的月活也有10亿。

信息代理（information agents）会在后台7×24小时帮你跑任务，生成式UI即时生成交互式视觉内容，背后由Gemini Flash 3.5驱动。出版商的日子估计不太好过了——referral流量还会继续掉。

Gemini Flash 3.5驱动的搜索，已经不再是”搜完给你十个链接”的逻辑，而是直接帮你把事情做完。

Gmail现在能跟你对话了

Gmail Live语音交互模式在I/O上亮相，直接说话就能查邮件、提取行程、找学校通知。不用再盯着列表一页页翻。Workspace这边还有个AI图像生成应用叫Google Pics，支持点击图片局部标注修改需求，不用把提示词全部重写一遍，背后跑的是Gemini和Nano Banana 2模型。

Gemini Spark：常驻后台的AI代理

最值得一提的是Gemini Spark。这不是你叫它才动一下的聊天机器人，而是一个常驻后台的AI代理，能自动写完邮件、生成学习指南、监控订阅费用，还能对接Workspace、Canva、OpenTable这些第三方应用。

硬件：XR眼镜合作款全部亮相

Android XR眼镜的合作款全部亮相——三星、Gentle Monster、Warby Parker的版本都出来了，计划2026年年内发布。谷歌自研的Project Aura眼镜也更新了，计算单元更强，加了指纹解锁，还有新的充电盒设计。

Wear OS 7也有更新，加入了类似iPhone的”实时更新”功能，手表上能同步快递、赛事比分等动态信息，还能查看AI代理的自动化任务进度。

定价：Ultra订阅拆分两档

谷歌把AI订阅Ultra拆成了100美元/月和200美元/月两档，200美元那档包含Project Genie世界模型的访问权限。这个定价明显在对标OpenAI Pro，谷歌这次是真的在全栈铺开，而不只是做个 benchmark 冠军。

📎 原文来源：Google I/O 2026: All the news and announcements – The Verge

2026年5月20日
OpenAI上线图片溯源功能，AI生成图终于有身份证了

前几天刷到一张真假难辨的图，第一反应是去翻评论区看有没有人说是AI做的。这种事现在越来越常见，AI生成的图像质量越来越高，肉眼基本看不出破绽，结果就是谣言、诈骗、假新闻配图越来越难甄别。

5月19日，OpenAI终于动了，宣布了两件事：一是接入C2PA开放标准，在图片元数据包里写清楚”这张图是AI生成的”；二是和谷歌合作，给图片嵌入SynthID不可见水印，截图、裁剪、加滤镜都抹不掉。

谷歌SynthID水印演示现场（图片来源：TechCrunch）

两套系统，互补短板

C2PA的好处是信息量大，谁生成的、用什么模型生成的，都能写进去。问题是元数据太容易被篡改，有人故意删掉就白搭。SynthID正好反过来，水印嵌在像素层，抗干扰能力强，但能携带的信息有限。

OpenAI的说法是：水印在截图之类的转置操作里更耐用，元数据能比单独的水印提供更多信息，两个一起上，可靠性比单用任何一层都高得多。

一个公开验证工具正在预览

光有水印不够，得让用户能用才行。OpenAI在做的验证工具，上传一张图就能检测有没有C2PA标识或SynthID水印，初期只支持自家的DALL·E等模型生成的图像，但OpenAI说希望未来能扩展到其他公司的AI工具。

这件事的意义不只是”OpenAI给自己打标记”。作为头部玩家，OpenAI同时支持C2PA和SynthID，等于在推整个行业往统一溯源标准上走。不然每家各自为战，用户要装一堆检测工具，最后还是一地鸡毛。

目前只管自家图片

有个现实的限制：这两套保护措施只覆盖OpenAI自己生成的图片。网上那些用Stable Diffusion、Midjourney或者其他野路子公司工具生成的图，暂时还不归它管。所以这套方案目前最大的作用是确保OpenAI”不当帮凶”，而不是一口气解决整个AI假图问题。

不过方向是对的。溯源这件事，不做就永远没有，做了至少有个起点。等覆盖的模型多了、用户习惯用验证工具了，AI生成内容的透明度才能真正提上来。

📎 原文来源：OpenAI is making it easier to check if an image was made by their models — TechCrunch

2026年5月20日

Stable Diffusion WebUI：162k Stars！最强大的Stable Diffusion Web界面，让AI绘画触手可及

Stable Diffusion WebUI – 最流行的AI绘画工具

📌 项目简介

Stable Diffusion WebUI（由AUTOMATIC1111开发）是最受欢迎的Stable Diffusion浏览器界面，基于Gradio构建，支持文生图、图生图、图像修复、高清放大等全套AI绘画功能，扩展插件生态极其丰富，是AI艺术创作的首选工具。

162k+

GitHub Stars

Python

主要语言

AGPL-3.0

开源协议

⚙️ 安装要求与过程

系统要求

项目	要求
操作系统	Windows 10/11、Linux、macOS
GPU	NVIDIA（推荐）或AMD GPU，至少8GB显存
内存	16GB 以上（推荐32GB）
存储	10GB+ （模型文件需额外空间）
必备软件	Python 3.10.6+、Git、CUDA 11.8+

快速安装（Windows一键脚本）

# 1. 下载一键安装包
# 访问: https://github.com/AUTOMATIC1111/stable-diffusion-webui/releases

# 2. 解压后运行
webui-user.bat

# 3. 等待自动安装依赖，首次运行会下载模型
# 4. 浏览器访问 http://localhost:7860

Linux/macOS 手动安装

# 1. 克隆项目
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui

# 2. 安装依赖
pip install -r requirements.txt

# 3. 下载模型（放至 models/Stable-diffusion/ 目录）
# 可从 HuggingFace 或 Civitai 下载 .safetensors 模型

# 4. 启动
python launch.py

# 5. 访问 http://localhost:7860

✨ 核心功能

🎨 文本生成图像（txt2img）

输入描述词，AI自动生成高质量图像；支持批量生成、尺寸调整、采样器选择。

🖼️ 图像生成图像（img2img）

基于参考图重新生成，支持风格迁移、局部重绘，保留原图构图与色彩。

🔧 图像修复（Inpaint）

智能修复图像缺损部分，支持局部重绘、物体移除、背景替换，效果自然。

📐 高清放大（Upscale）

内置 ESRGAN、R-ESRGAN 等超分辨率模型，低分辨率图像无损放大4K。

🔌 扩展插件系统

内置扩展商店，支持 LoRA、ControlNet、Embedding、超网络等，生态极其丰富。

🎛️ 精细参数控制

支持 CFG Scale、采样步数、种子控制、高分辨率修复等高级参数调节。

🚀 典型使用场景

🎮 场景一：游戏美术概念设计

游戏开发团队使用 Stable Diffusion WebUI 快速生成角色概念图、场景原画、道具设计稿；配合 LoRA 训练专属风格模型，大幅提升前期美术设计效率，从构思到出图只需几分钟。

📱 场景二：社交媒体内容创作

自媒体博主、公众号运营者使用 AI 生成配图、封面图、插画内容；通过提示词工程精准控制画面风格，无需聘请画师即可产出高质量视觉内容，降低内容创作成本。

🏢 场景三：产品设计与原型展示

UI/UX 设计师使用 img2img 功能快速将草图转换为高质量视觉稿；结合 ControlNet 插件精确控制构图与姿态，用于产品原型、广告创意、包装设计等商业场景。

💡 推荐理由

说实话，我觉得 Stable Diffusion WebUI 是AI绘画领域的”瑞士军刀”——功能全、可扩展性强、社区活跃度极高。相比Midjourney这类闭源商业产品，它最大的优势是完全本地运行，数据隐私有保障，而且免费。

我最喜欢它的扩展系统，通过安装不同插件可以实现几乎任何你能想到的AI绘画功能——从精确姿态控制（ControlNet）到风格微调（LoRA），生态丰富到令人惊叹。

162k+ Stars不是吹出来的，如果你对AI绘画感兴趣，或者工作需要大量视觉内容创作，Stable Diffusion WebUI 绝对值得深入研究。加上最近Stable Diffusion 3.0和SDXL的发布，效果已经可以媲美甚至超越商业产品。

📥 下载地址

🔗 GitHub 仓库
📚 官方文档
🎨 模型下载 (Civitai)

本文由 WorkBuddy AI 自动采集撰写 · 转载请注明出处

2026年5月19日

英伟达Lyra 2.0：一张照片生成90米3D世界，具身智能有”健身房”了

4月16日，英伟达研究团队悄悄放了个大招：Lyra 2.0，一个能从单张照片生成大规模3D场景的系统。这东西的目标很明确——给具身智能（embodied AI）提供训练场，让机器人在虚拟世界里先练熟了，再到现实中干活。

你只需要喂给它一张图片，它就能给你生成一个纵深90米的连贯3D环境。这个距离什么概念？差不多一个足球场的长度。而且相机一路走一路拍，回来的时候场景还是你刚才看到的那个，不会突然变形或者裂开。

它解决了两个老大难问题

以前的3D生成模型有两个通病，英伟达这次都给治了。

第一个叫”空间遗忘”——相机绕着场景走一圈再回到原点，发现原来的地方已经不认识了，场景扭曲得像进了哈哈镜。Lyra 2.0的做法很直白：实时把每一帧的3D几何信息存下来，相机回到老地方的时候，直接调档案，保证看到的东西跟第一次看到的一样。

第二个问题更麻烦，叫误差累积——生成的帧数越多，前面犯的错会一直往后传，到最后整个场景崩掉。Lyra 2.0在训练的时候故意把一些有缺陷的输出喂给模型，让它学会自己纠正自己。这个思路有点像让模型”打草稿→检查→修改”，而不是一条路走到黑。

在图像质量、相机控制这两项核心指标上，Lyra 2.0干掉了GEN3C、Yume-1.5等6个同类型竞品。快速版本比基础版效率提升13倍。

跟机器人仿真平台打通了

这是Lyra 2.0最实用的地方。它跟英伟达自己的Isaac Sim（机器人仿真平台）无缝集成，生成的3D场景可以直接导出为网格模型，机器人就能在这个虚拟环境里训练算法。

以前要训练一个具身智能模型，你得派人拿着激光雷达和相机去现实世界扫一大堆3D数据，费时费力还贵。现在Lyra 2.0能自动生成多样化的训练场景，机器人先在虚拟世界里把活干熟练了，再到现实里上路。

目前它只支持静态场景生成，动态物体还没搞定。但光是静态场景这个突破，已经给自动驾驶、通用机器人的物理感知训练提供了不少帮助。

为什么这事值得关注

3D世界生成这个方向，本质上是给AI建”健身房”。大模型是靠海量文本数据喂出来的，具身智能要靠海量3D交互数据，而现实世界的数据采集成本太高了。

英伟达这步棋很精明——它不跟你卷大模型，它给你造训练大模型需要的”场地”。你用不用它的GPU跑模型另说，但你要想训练具身智能，它的仿真工具链几乎是绕不开的。

目前没有看到Lyra 2.0开源的消息，但英伟达过去在研究方向上有开放的传统，后续会不会放出来让社区用，值得盯着。

对于做具身智能的团队来说，这类工具的价值在于缩短迭代周期。以前一个场景要扫好几天，现在一张图几分钟出结果，测完不行马上改，迭代速度快了不止一个量级。

📎 原文来源：英伟达发布Lyra 2.0：单张照片生成90米3D环境

2026年5月18日
ComfyUI：106k Stars！节点式AI创作引擎，让图像生成像搭积木一样可控
用Stable Diffusion画图的人，大概分两派：一派用WebUI，图个省事；另一派用ComfyUI，追求极致控制力。

我一开始也是WebUI用户，觉得节点式界面太复杂了。直到有一次我想做一个多步重绘+放大+色调调整的流水线，发现WebUI根本搞不定这种复杂工作流，才被硬推到了ComfyUI这边。

结果上手之后回不去了 —— 这种节点式的工作流编排方式，一旦理解了逻辑，创作效率简直是质的飞跃。

🚀 项目简介

ComfyUI 是目前最强大的开源节点式生成式AI引擎，拥有 106k+ GitHub Stars。它通过可视化节点画布，让用户自由组合各类AI模型和操作，实现高度可定制、可控制的内容生成。不仅支持图像生成，还能处理视频、3D、音频等多种模态。

⚙️ 安装要求和过程
📋 环境要求
- 操作系统：Windows / macOS / Linux
- Python 3.13（推荐）或 3.12
- 显卡：NVIDIA（CUDA 13.0）/ AMD / Intel Arc / Apple Silicon（M系列）
- PyTorch 2.4+
- 浏览器：Chrome 143+（推荐）
🚀 快速安装

方式一：便携版（Windows，最简单）
```
# 下载便携版压缩包，解压即用
# 内置 Python 3.13 + PyTorch CUDA 13.0
# 运行 run_nvidia_gpu.bat 即可启动
```
方式二：手动安装（全平台）
```
git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI
pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu130
pip install -r requirements.txt
python main.py
```
方式三：桌面版（Windows/macOS）
```
# 从 comfy.org 下载桌面安装包
# 支持一键安装，适合新手
```
💡 核心功能
- 🧩 节点式工作流：通过可视化节点画布自由编排AI生成流程，每个节点负责一个独立操作（加载模型、生成图像、调整尺寸等），灵活度和可控性远超传统UI
- 🎨 多模态支持：不仅支持图像生成（文生图、图生图、局部重绘、画面外扩），还能处理视频生成、3D模型创建、音频合成等多种创作场景
- 🔌 丰富的自定义节点生态：Comfy Hub 上有全球创作者分享的数千个工作流和节点插件，一键导入即可使用，持续扩展能力边界
- 🤖 AI Agent集成：支持本地ComfyUI服务器集成、Comfy Cloud API调用和MCP Server对接，可以与Claude、Cursor等AI智能体打通
- ⚡ 高性能推理：原生支持最新开源SOTA模型，API节点可接入闭源模型，推理速度快，内存占用低
📦 典型使用场景

🎨 场景1：AI绘画创作

设计师和插画师用ComfyUI构建个性化图像生成流水线 —— 从线稿上色、风格迁移到批量生成设计稿，一个工作流搞定全流程。相比传统绘图软件，效率提升数倍。

🎬 场景2：AI视频与3D制作

内容创作者利用ComfyUI的视频生成节点和3D模型节点，制作短视频素材、产品展示动画、虚拟场景等。节点式编排让复杂的多步视频处理变得可追溯、可复现。

🏭 场景3：企业级批量生产

电商团队用ComfyUI搭建商品图自动化工作流：批量换背景、批量生成不同风格的Banner、批量处理产品照片。工作流可保存复用，一次搭建持续受益。

⭐ 推荐理由

说真的，ComfyUI的门槛确实比WebUI高一些，但这个”高”是值得的。

我最喜欢的是它的可复现性 —— 每个工作流都是一个完整的生成配方，别人拿到你的工作流文件就能一模一样地复现结果。这在团队协作中太重要了，不用再”调参数调到手抽筋还说不清楚用了什么设置”。

而且ComfyUI的社区生态非常活跃，Comfy Hub上各种神仙工作流应有尽有。不会搭工作流？直接下载别人的改一改就行。这就好比从”自己写代码”进化到了”调用开源库”。

最近ComfyUI还加入了AI Agent集成能力，支持MCP协议，这意味着你可以让Claude、GPT这些AI智能体直接帮你设计和调整工作流。AI时代的生产力工具，ComfyUI算是把”可控性”做到了极致。

📧 下载地址
- 🏠 GitHub：https://github.com/comfyanonymous/ComfyUI
- 🌐 官网：https://comfy.org
- 📖 官方文档：https://docs.comfy.org/zh
- 🧩 Comfy Hub：https://comfy.org/workflows
- 💬 Discord：https://discord.gg/ComfyUI
2026年5月17日

标签： 图像生成

告别「拼接味」，原生全模态才是正路

开源版已经打遍榜上无敌手

半月内连融两轮，资本用脚投票

商业化落地：三个智能体产品已经跑起来

为啥要做这个？因为改图太麻烦了

对手不只是Canva

谁能用？什么时候能用？

搜索的”十个蓝色链接”时代正式结束

Gmail现在能跟你对话了

Gemini Spark：常驻后台的AI代理

硬件：XR眼镜合作款全部亮相

定价：Ultra订阅拆分两档

两套系统，互补短板

一个公开验证工具正在预览

目前只管自家图片

📌 项目简介

⚙️ 安装要求与过程

系统要求

快速安装（Windows一键脚本）

Linux/macOS 手动安装

✨ 核心功能

🚀 典型使用场景

💡 推荐理由

📥 下载地址

它解决了两个老大难问题

跟机器人仿真平台打通了

为什么这事值得关注

🚀 项目简介

⚙️ 安装要求和过程

💡 核心功能

📦 典型使用场景

📧 下载地址

标签：图像生成