标签: 图像生成

  • 两千亿参数、原生全模态,智象未来把图像大模型卷到了新维度

    5月19日,智象未来在北京办了首届开放日,主题叫「Imagining the World」。会上最重磅的消息,是发布了参数超两千亿的图像大模型HiDream-O1-Image-Pro。

    告别「拼接味」,原生全模态才是正路

    现在市面上的图像生成模型,大多还是「拼接路线」——图像走一条路,文本走另一条路,最后拼在一起。这种做法在复杂语义理解、精准文字渲染上总是差点意思。

    HiDream-O1-Image-Pro换了个思路:把图像像素、文本标记和任务条件统一放进一个连续共享的标记空间,从底层就开始「混着学」。这个架构叫Unified Transformer(UiT),智象未来管它叫「原生全模态」。

    「当前很多『多模态大模型』,本质上还是『单模态拼接』。而原生多模态,是从一开始就把『世界的规则』刻进模型里——它知道物理定律、空间关系、因果逻辑,所以它能真正理解世界、推理世界,而不只是『生成内容』。」

    —— 智象未来创始人兼CEO 梅涛
    HiDream-O1-Image-Pro模型架构示意图
    HiDream-O1-Image-Pro架构示意图(图片来源:量子位)

    开源版已经打遍榜上无敌手

    其实在这之前,智象未来已经把8B参数的开源版本HiDream-O1-Image放到了全球评测平台Artificial Analysis上,结果在文生图开源模型里排到了全球第一,超过了Z-Image Turbo、Qwen-Image、FLUX.2这些主流对手。

    这次发布的Pro版是闭源版本,参数直接干到了两千亿以上,在复杂文本渲染、指令编辑、多主体个性化这些任务上全面刷新了SOTA纪录。

    半月内连融两轮,资本用脚投票

    开放日上还透露了一个信号:公司融资在提速。不久之前刚完成超5亿元融资,半月之内又敲定了新一轮,投资方包括深创投、金浦投资、财鑫资本、复聚资本等。

    现在的阵容很有意思:安徽、上海、湖南、杭州的多方产业基金在跟,深创投、东方富海、峰华资本这些头部市场化VC也在押注。这个资本组合,摆明了是要在「原生全模态」这个方向上重仓。

    商业化落地:三个智能体产品已经跑起来

    光有模型不够,智象未来同时亮出了三条产品线:

    • HiBurst:商业营销智能体,已覆盖TikTok、Meta、抖音、小红书等平台,是TikTok官方top5服务商,年生产电商营销视频超百万条
    • 帧赞:全球首个专业级AI影视创作智能体,已累计制作短漫剧超5000分钟
    • vivago:社媒创作智能体,近日登上Product Hunt日榜第一,覆盖全球100多个国家超4000万用户

    从视觉生成走向世界模型,这条路还长。但智象未来至少证明了一件事:原生全模态架构不是空中楼阁,它已经能打商业仗了。


  • Google推出Pics应用:AI设计工具赛道又多了一个重量级玩家

    Google在今年的I/O大会上扔出了一个不太起眼、但挺有意思的新产品——Pics。这是一个跑在Google Workspace里的AI设计和图像生成应用,你可以直接把它理解成”Google版的Canva”,或者”AI版的Photoshop入门工具”。

    这个说法可能有点过于简化了。Pics真正想做的,是让完全不懂设计的人也能用AI生成像样的视觉内容——社交媒体配图、活动邀请函、营销物料、产品原型图,这些都能通过简单的文字描述搞定。

    为啥要做这个?因为改图太麻烦了

    Google在发布Pics的时候说了一个很接地气的痛点:现在的AI图像生成工具,生成质量已经不错了,但如果你想改图中某一个细节,基本没戏——你得重新写一个提示词,然后祈祷这次AI别把其他部分也改掉。

    Pics的思路是:生成图像只是第一步,关键是让图像里的每个元素都可以单独编辑。你可以用新的提示词改局部,也可以直接点击想改的地方写评论——就像在Google Docs里给同事提修改意见一样。

    这个设计逻辑其实挺聪明的。它把AI图像生成从”抽奖式创作”变成了”可迭代设计”,降低了试错成本。底层驱动编辑功能的是Gemini,而图像生成本身则由Nano Banana 2支持——Google说这个模型在精确文本渲染、现实世界知识和细节输出上表现不错。

    Google Pics AI设计应用界面展示
    Google Pics应用界面,用户可通过文字提示生成并编辑设计

    对手不只是Canva

    Google做这个产品,明面上是冲着Canva去的,毕竟Canva这几年在AI设计赛道跑得挺快。但暗地里,Google可能更在意的是Anthropic最近推出的Claude Design——用Claude直接生成可编辑的设计稿,这个思路跟Pics有点像。

    Google的优势在于生态整合。Pics原生嵌入Google Workspace,你可以在Docs、Slides、Sheets之间无缝协作,设计稿可以直接丢进幻灯片里用。对于已经离不开Google办公套件的企业和学校来说,这个整合黏性挺强的。


    谁能用?什么时候能用?

    目前Pics还在测试阶段,I/O期间有一小批测试者拿到了内测资格。Google说今年夏天会先向AI Ultra订阅用户开放,后续再逐步推给更广泛的用户。

    这个节奏其实透露了Google的心思:AI设计工具不只是”做个好用的产品”那么简单,它是拉动高价AI订阅的重要手段。如果你能让用户觉得”每个月花100美元买Ultra,就为了用Pics做图”,那这个订阅就值了。

    当然,最终Pics能不能打,还得看实际体验。AI生成设计这个赛道,嘴上说说都挺厉害,真要做到”生成即可用”的程度,还有不少坑要填。

  • Google I/O 2026全记录:Gemini 3.5、AI搜索和智能眼镜全部到位

    Google I/O 2026的主题只有一个:把Gemini塞进你数字生活的每一个角落。这场发布会5月19日开幕,整整两天的议程里,几乎没有哪个产品没被AI重新做一遍。

    搜索的”十个蓝色链接”时代正式结束

    搜索率先被改造。新搜索框支持长对话式查询,还能给出AI驱动的查询建议,你甚至可以往搜索框里直接拖文档、图片、视频和Chrome标签页。AI Overviews(AI概览)的月活已经摸到25亿,对话式搜索模式的月活也有10亿。

    信息代理(information agents)会在后台7×24小时帮你跑任务,生成式UI即时生成交互式视觉内容,背后由Gemini Flash 3.5驱动。出版商的日子估计不太好过了——referral流量还会继续掉。

    Gemini Flash 3.5驱动的搜索,已经不再是”搜完给你十个链接”的逻辑,而是直接帮你把事情做完。

    Gmail现在能跟你对话了

    Gmail Live语音交互模式在I/O上亮相,直接说话就能查邮件、提取行程、找学校通知。不用再盯着列表一页页翻。Workspace这边还有个AI图像生成应用叫Google Pics,支持点击图片局部标注修改需求,不用把提示词全部重写一遍,背后跑的是Gemini和Nano Banana 2模型。

    Gemini Spark:常驻后台的AI代理

    最值得一提的是Gemini Spark。这不是你叫它才动一下的聊天机器人,而是一个常驻后台的AI代理,能自动写完邮件、生成学习指南、监控订阅费用,还能对接Workspace、Canva、OpenTable这些第三方应用。

    硬件:XR眼镜合作款全部亮相

    Android XR眼镜的合作款全部亮相——三星、Gentle Monster、Warby Parker的版本都出来了,计划2026年年内发布。谷歌自研的Project Aura眼镜也更新了,计算单元更强,加了指纹解锁,还有新的充电盒设计。

    Wear OS 7也有更新,加入了类似iPhone的”实时更新”功能,手表上能同步快递、赛事比分等动态信息,还能查看AI代理的自动化任务进度。

    定价:Ultra订阅拆分两档

    谷歌把AI订阅Ultra拆成了100美元/月和200美元/月两档,200美元那档包含Project Genie世界模型的访问权限。这个定价明显在对标OpenAI Pro,谷歌这次是真的在全栈铺开,而不只是做个 benchmark 冠军。


  • OpenAI上线图片溯源功能,AI生成图终于有身份证了

    前几天刷到一张真假难辨的图,第一反应是去翻评论区看有没有人说是AI做的。这种事现在越来越常见,AI生成的图像质量越来越高,肉眼基本看不出破绽,结果就是谣言、诈骗、假新闻配图越来越难甄别。

    5月19日,OpenAI终于动了,宣布了两件事:一是接入C2PA开放标准,在图片元数据包里写清楚”这张图是AI生成的”;二是和谷歌合作,给图片嵌入SynthID不可见水印,截图、裁剪、加滤镜都抹不掉。

    Google SynthID开发者大会展示图
    谷歌SynthID水印演示现场(图片来源:TechCrunch)

    两套系统,互补短板

    C2PA的好处是信息量大,谁生成的、用什么模型生成的,都能写进去。问题是元数据太容易被篡改,有人故意删掉就白搭。SynthID正好反过来,水印嵌在像素层,抗干扰能力强,但能携带的信息有限。

    OpenAI的说法是:水印在截图之类的转置操作里更耐用,元数据能比单独的水印提供更多信息,两个一起上,可靠性比单用任何一层都高得多。

    一个公开验证工具正在预览

    光有水印不够,得让用户能用才行。OpenAI在做的验证工具,上传一张图就能检测有没有C2PA标识或SynthID水印,初期只支持自家的DALL·E等模型生成的图像,但OpenAI说希望未来能扩展到其他公司的AI工具。

    这件事的意义不只是”OpenAI给自己打标记”。作为头部玩家,OpenAI同时支持C2PA和SynthID,等于在推整个行业往统一溯源标准上走。不然每家各自为战,用户要装一堆检测工具,最后还是一地鸡毛。


    目前只管自家图片

    有个现实的限制:这两套保护措施只覆盖OpenAI自己生成的图片。网上那些用Stable Diffusion、Midjourney或者其他野路子公司工具生成的图,暂时还不归它管。所以这套方案目前最大的作用是确保OpenAI”不当帮凶”,而不是一口气解决整个AI假图问题。

    不过方向是对的。溯源这件事,不做就永远没有,做了至少有个起点。等覆盖的模型多了、用户习惯用验证工具了,AI生成内容的透明度才能真正提上来。

  • Stable Diffusion WebUI:162k Stars!最强大的Stable Diffusion Web界面,让AI绘画触手可及

    Stable Diffusion WebUI:162k Stars!最强大的Stable Diffusion Web界面,让AI绘画触手可及

    Stable Diffusion WebUI - AI绘画界面

    Stable Diffusion WebUI – 最流行的AI绘画工具

    📌 项目简介

    Stable Diffusion WebUI(由AUTOMATIC1111开发)是最受欢迎的Stable Diffusion浏览器界面,基于Gradio构建,支持文生图、图生图、图像修复、高清放大等全套AI绘画功能,扩展插件生态极其丰富,是AI艺术创作的首选工具。

    162k+
    GitHub Stars

    Python
    主要语言

    AGPL-3.0
    开源协议

    ⚙️ 安装要求与过程

    系统要求

    项目 要求
    操作系统 Windows 10/11、Linux、macOS
    GPU NVIDIA(推荐)或AMD GPU,至少8GB显存
    内存 16GB 以上(推荐32GB)
    存储 10GB+ (模型文件需额外空间)
    必备软件 Python 3.10.6+、Git、CUDA 11.8+

    快速安装(Windows一键脚本)

    # 1. 下载一键安装包
    # 访问: https://github.com/AUTOMATIC1111/stable-diffusion-webui/releases
    
    # 2. 解压后运行
    webui-user.bat
    
    # 3. 等待自动安装依赖,首次运行会下载模型
    # 4. 浏览器访问 http://localhost:7860

    Linux/macOS 手动安装

    # 1. 克隆项目
    git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
    cd stable-diffusion-webui
    
    # 2. 安装依赖
    pip install -r requirements.txt
    
    # 3. 下载模型(放至 models/Stable-diffusion/ 目录)
    # 可从 HuggingFace 或 Civitai 下载 .safetensors 模型
    
    # 4. 启动
    python launch.py
    
    # 5. 访问 http://localhost:7860

    ✨ 核心功能

    🎨 文本生成图像(txt2img)
    输入描述词,AI自动生成高质量图像;支持批量生成、尺寸调整、采样器选择。

    🖼️ 图像生成图像(img2img)
    基于参考图重新生成,支持风格迁移、局部重绘,保留原图构图与色彩。

    🔧 图像修复(Inpaint)
    智能修复图像缺损部分,支持局部重绘、物体移除、背景替换,效果自然。

    📐 高清放大(Upscale)
    内置 ESRGAN、R-ESRGAN 等超分辨率模型,低分辨率图像无损放大4K。

    🔌 扩展插件系统
    内置扩展商店,支持 LoRA、ControlNet、Embedding、超网络等,生态极其丰富。

    🎛️ 精细参数控制
    支持 CFG Scale、采样步数、种子控制、高分辨率修复等高级参数调节。

    🚀 典型使用场景

    🎮 场景一:游戏美术概念设计

    游戏开发团队使用 Stable Diffusion WebUI 快速生成角色概念图、场景原画、道具设计稿;配合 LoRA 训练专属风格模型,大幅提升前期美术设计效率,从构思到出图只需几分钟。

    📱 场景二:社交媒体内容创作

    自媒体博主、公众号运营者使用 AI 生成配图、封面图、插画内容;通过提示词工程精准控制画面风格,无需聘请画师即可产出高质量视觉内容,降低内容创作成本。

    🏢 场景三:产品设计与原型展示

    UI/UX 设计师使用 img2img 功能快速将草图转换为高质量视觉稿;结合 ControlNet 插件精确控制构图与姿态,用于产品原型、广告创意、包装设计等商业场景。

    💡 推荐理由

    说实话,我觉得 Stable Diffusion WebUI 是AI绘画领域的”瑞士军刀”——功能全、可扩展性强、社区活跃度极高。相比Midjourney这类闭源商业产品,它最大的优势是完全本地运行,数据隐私有保障,而且免费。

    我最喜欢它的扩展系统,通过安装不同插件可以实现几乎任何你能想到的AI绘画功能——从精确姿态控制(ControlNet)到风格微调(LoRA),生态丰富到令人惊叹。

    162k+ Stars不是吹出来的,如果你对AI绘画感兴趣,或者工作需要大量视觉内容创作,Stable Diffusion WebUI 绝对值得深入研究。加上最近Stable Diffusion 3.0和SDXL的发布,效果已经可以媲美甚至超越商业产品。

    📥 下载地址


    本文由 WorkBuddy AI 自动采集撰写 · 转载请注明出处

  • 英伟达Lyra 2.0:一张照片生成90米3D世界,具身智能有”健身房”了

    4月16日,英伟达研究团队悄悄放了个大招:Lyra 2.0,一个能从单张照片生成大规模3D场景的系统。这东西的目标很明确——给具身智能(embodied AI)提供训练场,让机器人在虚拟世界里先练熟了,再到现实中干活。

    你只需要喂给它一张图片,它就能给你生成一个纵深90米的连贯3D环境。这个距离什么概念?差不多一个足球场的长度。而且相机一路走一路拍,回来的时候场景还是你刚才看到的那个,不会突然变形或者裂开。

    它解决了两个老大难问题

    以前的3D生成模型有两个通病,英伟达这次都给治了。

    第一个叫”空间遗忘”——相机绕着场景走一圈再回到原点,发现原来的地方已经不认识了,场景扭曲得像进了哈哈镜。Lyra 2.0的做法很直白:实时把每一帧的3D几何信息存下来,相机回到老地方的时候,直接调档案,保证看到的东西跟第一次看到的一样。

    第二个问题更麻烦,叫误差累积——生成的帧数越多,前面犯的错会一直往后传,到最后整个场景崩掉。Lyra 2.0在训练的时候故意把一些有缺陷的输出喂给模型,让它学会自己纠正自己。这个思路有点像让模型”打草稿→检查→修改”,而不是一条路走到黑。

    在图像质量、相机控制这两项核心指标上,Lyra 2.0干掉了GEN3C、Yume-1.5等6个同类型竞品。快速版本比基础版效率提升13倍。

    跟机器人仿真平台打通了

    这是Lyra 2.0最实用的地方。它跟英伟达自己的Isaac Sim(机器人仿真平台)无缝集成,生成的3D场景可以直接导出为网格模型,机器人就能在这个虚拟环境里训练算法。

    以前要训练一个具身智能模型,你得派人拿着激光雷达和相机去现实世界扫一大堆3D数据,费时费力还贵。现在Lyra 2.0能自动生成多样化的训练场景,机器人先在虚拟世界里把活干熟练了,再到现实里上路。

    目前它只支持静态场景生成,动态物体还没搞定。但光是静态场景这个突破,已经给自动驾驶、通用机器人的物理感知训练提供了不少帮助。

    为什么这事值得关注

    3D世界生成这个方向,本质上是给AI建”健身房”。大模型是靠海量文本数据喂出来的,具身智能要靠海量3D交互数据,而现实世界的数据采集成本太高了。

    英伟达这步棋很精明——它不跟你卷大模型,它给你造训练大模型需要的”场地”。你用不用它的GPU跑模型另说,但你要想训练具身智能,它的仿真工具链几乎是绕不开的。

    目前没有看到Lyra 2.0开源的消息,但英伟达过去在研究方向上有开放的传统,后续会不会放出来让社区用,值得盯着。


    对于做具身智能的团队来说,这类工具的价值在于缩短迭代周期。以前一个场景要扫好几天,现在一张图几分钟出结果,测完不行马上改,迭代速度快了不止一个量级。

  • ComfyUI:106k Stars!节点式AI创作引擎,让图像生成像搭积木一样可控

    ComfyUI - 最强大的开源节点式生成式AI引擎

    用Stable Diffusion画图的人,大概分两派:一派用WebUI,图个省事;另一派用ComfyUI,追求极致控制力。

    我一开始也是WebUI用户,觉得节点式界面太复杂了。直到有一次我想做一个多步重绘+放大+色调调整的流水线,发现WebUI根本搞不定这种复杂工作流,才被硬推到了ComfyUI这边。

    结果上手之后回不去了 —— 这种节点式的工作流编排方式,一旦理解了逻辑,创作效率简直是质的飞跃。


    🚀 项目简介

    ComfyUI 是目前最强大的开源节点式生成式AI引擎,拥有 106k+ GitHub Stars。它通过可视化节点画布,让用户自由组合各类AI模型和操作,实现高度可定制、可控制的内容生成。不仅支持图像生成,还能处理视频、3D、音频等多种模态。


    ⚙️ 安装要求和过程

    📋 环境要求

    • 操作系统:Windows / macOS / Linux
    • Python 3.13(推荐)或 3.12
    • 显卡:NVIDIA(CUDA 13.0)/ AMD / Intel Arc / Apple Silicon(M系列)
    • PyTorch 2.4+
    • 浏览器:Chrome 143+(推荐)

    🚀 快速安装

    方式一:便携版(Windows,最简单)

    # 下载便携版压缩包,解压即用
    # 内置 Python 3.13 + PyTorch CUDA 13.0
    # 运行 run_nvidia_gpu.bat 即可启动

    方式二:手动安装(全平台)

    git clone https://github.com/comfyanonymous/ComfyUI.git
    cd ComfyUI
    pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu130
    pip install -r requirements.txt
    python main.py

    方式三:桌面版(Windows/macOS)

    # 从 comfy.org 下载桌面安装包
    # 支持一键安装,适合新手

    💡 核心功能

    • 🧩 节点式工作流:通过可视化节点画布自由编排AI生成流程,每个节点负责一个独立操作(加载模型、生成图像、调整尺寸等),灵活度和可控性远超传统UI
    • 🎨 多模态支持:不仅支持图像生成(文生图、图生图、局部重绘、画面外扩),还能处理视频生成、3D模型创建、音频合成等多种创作场景
    • 🔌 丰富的自定义节点生态:Comfy Hub 上有全球创作者分享的数千个工作流和节点插件,一键导入即可使用,持续扩展能力边界
    • 🤖 AI Agent集成:支持本地ComfyUI服务器集成、Comfy Cloud API调用和MCP Server对接,可以与Claude、Cursor等AI智能体打通
    • ⚡ 高性能推理:原生支持最新开源SOTA模型,API节点可接入闭源模型,推理速度快,内存占用低

    ComfyUI 节点工作流界面


    📦 典型使用场景

    🎨 场景1:AI绘画创作

    设计师和插画师用ComfyUI构建个性化图像生成流水线 —— 从线稿上色、风格迁移到批量生成设计稿,一个工作流搞定全流程。相比传统绘图软件,效率提升数倍。

    🎬 场景2:AI视频与3D制作

    内容创作者利用ComfyUI的视频生成节点和3D模型节点,制作短视频素材、产品展示动画、虚拟场景等。节点式编排让复杂的多步视频处理变得可追溯、可复现。

    🏭 场景3:企业级批量生产

    电商团队用ComfyUI搭建商品图自动化工作流:批量换背景、批量生成不同风格的Banner、批量处理产品照片。工作流可保存复用,一次搭建持续受益。


    ⭐ 推荐理由

    说真的,ComfyUI的门槛确实比WebUI高一些,但这个”高”是值得的。

    我最喜欢的是它的可复现性 —— 每个工作流都是一个完整的生成配方,别人拿到你的工作流文件就能一模一样地复现结果。这在团队协作中太重要了,不用再”调参数调到手抽筋还说不清楚用了什么设置”。

    而且ComfyUI的社区生态非常活跃,Comfy Hub上各种神仙工作流应有尽有。不会搭工作流?直接下载别人的改一改就行。这就好比从”自己写代码”进化到了”调用开源库”。

    最近ComfyUI还加入了AI Agent集成能力,支持MCP协议,这意味着你可以让Claude、GPT这些AI智能体直接帮你设计和调整工作流。AI时代的生产力工具,ComfyUI算是把”可控性”做到了极致。


    📧 下载地址