博客

  • 【开源推荐】Dify:145K+ Stars!开源LLM应用开发平台,可视化构建AI工作流与RAG管道

    【开源推荐】Dify:145K+ Stars!开源LLM应用开发平台,可视化构建AI工作流与RAG管道

    Dify:145K+ Stars!开源LLM应用开发平台,可视化构建AI工作流

    TypeScript + Python 全栈 · Docker 一键部署 · 集成数百款LLM模型

    📌 项目简介

    Dify 是一款开源的大语言模型(LLM)应用开发平台,由 LangGenius 团队开发,已加入 Linux 基金会。它具备直观的可视化界面,整合了 AI 工作流、RAG 管道、智能体能力、模型管理和可观测性功能,帮助开发者快速完成从原型到生产环境的落地。截至 2026 年 6 月,Dify 在 GitHub 已获得 145,000+ Stars,是全球最受欢迎的 LLM 应用开发框架之一。

    145K+
    GitHub Stars

    50+
    内置工具集成

    300+
    LLM模型支持

    Apache-2.0
    开源协议

    🔧 安装要求和过程

    方式一:Docker Compose 部署(推荐,最快5分钟上线)

    环境要求:CPU ≥ 2核,内存 ≥ 4GiB,已安装 Docker 和 Docker Compose

    # 克隆仓库
    git clone https://github.com/langgenius/dify.git
    cd dify/docker
    
    # 复制环境配置
    cp .env.example .env
    
    # 启动服务(后台运行)
    docker compose up -d
    
    # 访问安装页面
    # 浏览器打开 http://localhost/install

    启动后访问 http://localhost/install 完成管理员账号初始化,即可开始使用。

    方式二:从源码部署(适合开发者定制)

    # 后端启动(Python 3.11+)
    cd api
    poetry install
    poetry run flask db upgrade
    poetry run flask run --host 0.0.0.0 --port 5001
    
    # 前端启动(Node.js 18+)
    cd web
    npm install
    npm run dev

    方式三:云服务版(无需部署,立即使用)

    直接访问 https://cloud.dify.ai 注册即用,免费版包含 200 次 OpenAI 调用额度。

    ⚡ 核心功能

    🎨 可视化工作流编排

    在画布上通过拖拽节点即可构建复杂的 AI 工作流,支持条件分支、循环、变量传递和并行执行。无需编写代码,产品、运营同学也能搭建生产级 AI 应用。

    🤖 全模型支持 & RAG 管道

    无缝集成 GPT、Claude、Llama3、Mistral、Gemini 等 300+ 专有/开源 LLM,兼容所有 OpenAI API 规范的模型。内置完整的 RAG 管道,支持从 PDF、PPT、Word 等常见文档格式中提取文本并建立知识库。

    🛠️ 智能体 + 50+ 内置工具

    基于 LLM Function Calling 或 ReAct 模式定义智能体,内置 Google 搜索、DALL·E、Stable Diffusion、WolframAlpha 等 50+ 工具,同时支持自定义工具接入,真正让 AI 能”做事”而不仅仅是”说话”。

    📊 Prompt IDE + 可观测性

    提供直观的 Prompt 编写和调试界面,支持对比不同模型性能表现。集成 Opik、Langfuse、Arize Phoenix 等可观测性工具,实时追踪 LLM 推理成本、延迟和准确率,让 AI 应用可监控、可优化。

    🔌 丰富 API & 生态集成

    提供完整的 REST API 和 SDK,支持将 Dify 应用嵌入到自有产品中。同时支持与 LangChain、Semantic Kernel 等框架集成,也可通过 AWS CDK、Terraform、Kubernetes 等方式部署到云端。

    💡 典型使用场景

    🏢

    企业知识库问答

    上传公司文档、产品手册、FAQ 建立知识库,构建基于 RAG 的智能客服或内部知识助手,准确回答员工和客户的提问,减少人工客服压力。

    🤖

    AI 工作流自动化

    用可视化画布编排多步骤 AI 任务:自动抓取网页内容 → 提取关键信息 → 调用 LLM 总结 → 发送邮件通知,全程无需写代码,像搭积木一样构建自动化流程。

    🚀

    快速 AI 产品原型验证

    产品团队在几小时内完成 AI 功能原型设计,通过 Dify 的 Playground 实时测试不同模型效果,快速验证产品想法,大幅缩短从创意到落地的周期。

    🌟 推荐理由

    作为一名开发者,我推荐 Dify 的最大理由是“它把 AI 应用开发从『写代码』变成了『搭积木』”。以前要集成 LLM、做 RAG、写 Agent 逻辑,需要深厚的 Full Stack 和 AI 工程经验;现在用 Dify 的可视化画布,产品、运营甚至非技术同学都能搭建出生产级的 AI 应用。

    另一个亮点是私有化部署能力。对于数据敏感的企业用户,Dify 可以完全部署在内部服务器,数据不出企业内网,同时享受和云服务版一样的功能体验。加上它对国产大模型(如通义千问、文心一言、智谱 GLM)的良好支持,在国内落地场景非常有优势。

    145K+ Stars 不是偶然。Dify 正在成为 AI 应用时代的”WordPress”——让每个人都能轻松拥有自己的 AI 应用。无论你是个人开发者、创业团队还是大型企业,Dify 都值得一试。

    📦 下载地址

    开源协议:Apache-2.0(附加 Dify 开源条款) · 主要语言:TypeScript 51.5% / Python 44.1%

  • SK海力士市值破万亿,AI内存生意比卖显卡还赚钱





    SK海力士市值破万亿,AI内存生意比卖显卡还赚钱

    SK海力士市值破万亿,AI内存生意比卖显卡还赚钱

    2026年5月27日 · The AI Track

    2026年5月27日,韩国芯片制造商SK海力士股价收盘上涨约9.3%,盘中最高涨幅达14.9%,市值首次突破1万亿美元大关。这不是一家公司的胜利,而是整个AI内存供应链价值重估的缩影。

    就在前一天,美光科技刚突破1万亿美元市值;5月6日,三星电子也达到了这一里程碑。三家内存巨头在短短三周内接连破万亿,AI基础设施的投资热潮从”算力”烧到了”内存”。

    高带宽内存(HBM)已经成为AI供应链的瓶颈环节。英伟达的AI加速器需要高速内存堆栈来高效训练和运行大语言模型,而SK海力士正是这个环节的主要供应商。

    为什么是现在?

    AI训练对内存的需求跟传统计算不一样。大语言模型训练时需要在GPU之间高速传输海量参数,这时候传统DDR内存的带宽就不够用了,必须用HBM(高带宽内存)。

    问题在于HBM的生产难度远高于普通内存芯片。它需要先进封装、专用制造产能,还要跟英伟达这样的核心客户做长周期认证。产能不是想扩就能快速扩的。

    根据Counterpoint Research的数据,2025年第四季度SK海力士占全球HBM收入的57%,三星占22%,美光占21%。三家把HBM市场吃干抹净,定价权牢牢攥在手里。

    数字会说话

    • 股价涨幅:今年以来SK海力士累计上涨超过200%,部分估算接近250%;同期美光涨约245%,三星涨约149%
    • 业绩表现:SK海力士4月公布的季度利润同比翻了五倍,同时公司预计未来三年HBM需求将超过现有供应
    • 市场份额:SK海力士在HBM市场占比57%,是英伟达AI加速器的核心供应商
    • 后续计划:SK海力士正计划通过美国存托凭证(ADR)赴美上市,拓宽国际投资者准入渠道

    韩国股市的新引擎

    SK海力士的上涨带动了整个韩国大盘。5月27日当天,韩国综合股价指数(KOSPI)盘中最高上涨5.1%,收盘上涨2.3%。

    目前三星和SK海力士合计占KOSPI指数市值的40%以上。韩国股市跟全球AI基础设施需求的关联度越来越高。今年以来KOSPI指数接近翻倍,韩国成为这轮AI基础设施周期中公开股票市场的最大受益者之一。

    同日,韩国交易所还上市了挂钩三星和SK海力士的单股票杠杆ETF。跟踪SK海力士股价每日两倍收益的杠杆ETF首日上市即上涨18%。

    内存行业的逻辑变了

    过去几十年,内存芯片一直被当成周期性大宗商品。短缺时价格飙升,厂商疯狂扩产,然后供应过剩、价格暴跌,周而复始。

    AI需求正在改变这个规律。现在内存需求不再主要来自智能手机、笔记本电脑等消费电子产品,而是越来越多来自AI数据中心。数据中心的内存采购是长期合同、大规模、持续性的,不像消费电子那样季节波动剧烈。

    分析师目前预计内存需求将持续超过供应直到2028年。这也支撑了投资者对HBM业务占比较高的厂商给出更高的估值。

    风险也不能忽视

    股价涨得快,风险也在积累。KOSPI指数对少数AI相关芯片股的依赖度越来越高,这可能会加剧市场波动。供应链中断、客户集中度高、全球数据中心投资放缓等因素,都会对韩国整体股市产生更大影响。

    另外,杠杆ETF的流行也带来了额外风险。这类产品会放大单日波动,增加期货和现货市场的短期压力。5月27日SK海力士盘中涨幅达14.9%,收盘回落到9.3%,这种剧烈波动在杠杆产品普及后会更常见。

    还有一点,AI数据中心的建设节奏如果放缓(比如因电力、冷却、监管等因素),内存需求的增长也会受影响。这轮上涨的底层逻辑是”AI基础设施持续扩张”,如果这个逻辑被打破,估值回调不会客气。


  • 微软搞出自家推理模型,不再只靠OpenAI了





    微软搞出自家推理模型,不再只靠OpenAI了

    微软搞出自家推理模型,不再只靠OpenAI了

    2026年6月3日 · IT之家

    微软在Build 2026开发者大会上扔出一个信号:他们不再只做OpenAI的”包装工”了。七款自研AI模型一同亮相,其中最引人注目的是MAI-Thinking-1——微软第一款高级推理模型。

    这款模型有350亿活跃参数,规模不算大,但微软强调它是从零开始用干净数据训练的,没有走捷径去蒸馏第三方模型(这话里带着对谁的不满,大家心里有数)。在软件工程相关的基准测试里,它的成绩能跟业界顶尖模型掰手腕。

    微软AI CEO穆斯塔法·苏莱曼在台上重申了他们的理念——”人文主义超级智能”。这话听着有点虚,但配合这一波模型发布,意思很明确:微软要在AI底层能力上自己掌舵,而不是永远跟在别人后面。

    一口气发了七款模型,覆盖全场景

    除了MAI-Thinking-1,微软这次还端出了覆盖图像、语音、编程的完整的自研模型矩阵:

    • MAI-Image 2.5 和 MAI-Image 2.5 Flash —— 支持文生图和图像编辑,Flash版本主打速度
    • MAI-Transcribe-1.5 —— 语音转写,速度是竞争对手模型的五倍,开会录音整理终于不用等半天
    • MAI-Voice-2 —— 语音合成,新增15种语言支持,Flash版本即将推出
    • MAI-Code-1 —— 编程辅助,推理效率做了优化,已经集成进GitHub Copilot和Visual Studio Code

    这套组合拳打出来,微软在AI模型层的能力版图像是补齐了。过去大家提起微软的AI能力,第一反应是”他们用OpenAI的技术”,现在这个故事要改写了。

    为什么要自己搞模型?

    这个问题其实不难回答。微软跟OpenAI的关系一直以来都有点微妙——既是最大的金主(投了上百亿美元),又是 deepest 的商业合作伙伴,但核心技术却攥在别人手里。

    OpenAI有自己的商业化节奏,有自己的产品规划,微软想做的一些事情不一定跟OpenAI的利益完全对齐。比如微软希望把AI能力深度集成到Windows、Office、Azure里,这种底层整合如果完全依赖外部技术,长期来看是有风险的。

    还有一个更现实的原因:成本。每次调用OpenAI的API都是有成本的,如果微软能把一部分推理 workload 迁移到自家模型上,这笔账长期来看是划算的。


    MAI-Thinking-1到底强在哪?

    微软对这款模型的技术细节还守得比较紧,目前公开的信息有限。可以确定的是:

    • 中等规模(350亿参数),不是那种动辄万亿参数的”暴力美学”路线
    • 专门优化了推理能力,适合需要多步逻辑推导的任务
    • 软件工程基准测试成绩突出,这对微软的基本盘(开发者工具)来说很有意义
    • 干净数据训练,不依赖第三方模型蒸馏——这一点微软特意提了,态度很明确

    这套说辞听起来是不是有点耳熟?Anthropic也说自己”更安全、更负责”,谷歌也说自己”最开放”。各家都在讲自己的故事,最终还是得看实际用起来怎么样。

    对行业意味着什么

    微软这一步,本质上是把”模型层”的主动权往自己手里挪。过去几年AI圈的故事线是”OpenAI发明未来,微软帮忙卖出去”,现在微软想说的是”我们也能发明未来”。

    这对OpenAI来说未必是坏事。微软有了自研模型,反而可能在跟监管、跟合作伙伴谈判的时候有更多筹码,最终对OpenAI也是加分项。但如果哪天微软觉得自研模型够用了,OpenAI失去微软这个最大金主的风险也不是零。

    这场AI大戏,越来越有意思了。


  • 好莱坞AI电影不再是喂提示词那么简单:翠贝卡电影节上的一场实验

    尽管生成式AI即将革命化电影制作行业的呼声很高,但目前还没有真正能让观众愿意付费观看的AI生成影视项目。大多数AI公司的视频模型只能生成视觉不一致的短视频片段,好莱坞一些大型AI合作项目也突然破裂。但今年翠贝卡电影节上亮相的几部实验性影片,展示了一个不同的可能性。

    不是提示词进、电影出

    生成式AI不太可能独立制作出有吸引力的完整电影,这点行业里很多人都清楚。但翠贝卡电影节上的多部影片展示了人类创作者如何巧妙利用这项技术——不是被它替代,而是把它当工具用。

    由Illuminai Studios制作的动画短片《Roar》更像是AI生成片段的蒙太奇,缺乏连贯性;Asteria Film Co.的《ChikaBOOM!》也缺乏魔法学徒题材作品应有的质感。这两部作品的粗糙感反映了以AI为核心的制作流程中固有的技术局限。

    翠贝卡电影节上的实验表明,AI在电影制作中的角色更可能是”定制化辅助工具”,而非”自动导演”。这个区别很关键。

    DeepMind的《Dear Upstairs Neighbors》是怎么做的

    Dear Upstairs Neighbors 概念图
    《Dear Upstairs Neighbors》概念图,用于训练谷歌Veo和Imagen模型定制版本(图源:Google DeepMind)

    谷歌DeepMind的《Dear Upstairs Neighbors》是这次翠贝卡最值得关注的案例。这部短片由皮克斯资深员工Connie Qin He编剧并执导,与谷歌DeepMind的研究人员合作完成。

    为了给影片赋予独特风格,He邀请了皮克斯美术设计Yingzong Xin,用Photoshop和丙烯颜料在纸上绘制概念图。这些插画的表现主义美学是让影片奇幻故事鲜活起来的关键,但也给DeepMind的工程师带来了独特挑战。

    • DeepMind开发了定制版的Veo和Imagen模型,专门用Xin的概念图训练,确保视觉风格一致
    • 创作团队用Autodesk Maya制作粗动画,再把粗动画输入Veo生成精良场景
    • 整个流程依赖人类创作的艺术,AI只是执行工具,不是创意来源

    OpenAI的Sora关停了,然后呢?

    OpenAI出现在翠贝卡电影节有些出乎意料,因为该公司最近已经决定完全关停Sora。Sora的突然关停导致OpenAI的长篇动画电影《Critterz》无法在今年戛纳电影节亮相。

    看起来OpenAI可能会转向,不再专注于技术的视频应用场景。但生成式AI领域还有其他参与者在开发工具,供创作者用于实现自己的项目。翠贝卡上的其他影片,比如Alice Gu用Sora还原帕利塞德大火场景的《Smoked》,以及Youssef Michraf用OpenAI工具生成写实场景的《Mauvais Soleil》,都展示了创作者在现有工具限制下能做什么。


    看完所有这些影片,一个感觉很清楚:未来不可能出现制片厂靠给生成式AI模型输入提示词就批量产出商业可行项目的情况。这类内容可能不会消失,但不是好莱坞巨头愿意署名的内容。

    更有可能出现的情况是,谷歌这样的大型AI公司和制片厂合作,开发适配特定制作流程的定制模型。而这些工作流程,只有在拥有清晰创意愿景的人类创作者指导下,才能良好运转。

  • Anthropic的Fable模型把安全护栏搞太严了,安全研究员率先开炮

    Anthropic上周发布了Fable,这是他们那款备受关注的安全研究模型Mythos的公开有限版本。本来这是件好事——Anthropic一直说要把AI安全研究做好,Fable就是给普通研究者和开发者用的”轻量版”Mythos。但发布没多久,抱怨声就来了,而且来自一群你可能最不想得罪的人:网络安全研究员。

    连读博客都被拦

    IBM X-Force的安全研究员Valentina “Chompie” Palmiotti在社交媒体上直接开炮:”Fable会拒绝任何和网络有一点关联的请求,哪怕是像阅读一篇博客这样无害的任务。”

    安全研究员Valentina Palmiotti的吐槽在X上获得了不少同行点赞。她说自己只是想用Fable分析一篇安全博客,结果模型直接触发护栏,提示”涉及网络安全或生物相关主题”后拒绝响应。

    问题出在Anthropic给Fable加的安全机制上。一旦提示词触发了某个关键词,Fable就会停下来说:”安全机制标记了这条消息,涉及网络安全或生物相关主题。”然后要么拒绝回答,要么把对话转去一个能力更弱的版本(Claude Opus 4.8)。

    Claude Fable AI安全模型
    智能手机屏幕上显示Claude Fable的logo(图源:Samuel Boivin/NurPhoto / Getty Images)

    触发词变成了”地雷”

    Anthropic的想法可以理解——他们不想让Fable被用来写恶意软件或者搞入侵。对生物相关内容的限制也是同样的逻辑,怕被人用来设计生物武器。出发点没问题,但执行起来就变味了。

    资深安全人士Matt Suiche说得更直白:”如果你让Fable写安全代码,它会觉得这是网络安全相关工作,不是软件工程最佳实践,然后就会降低响应权限。”他的意思是,Fable看起来是用关键词触发的,所以只要提示词里出现了”网络安全”相关的词,护栏就会启动。

    • 有人在X上抱怨,连”申请代码审查”都能触发Fable的护栏
    • 一旦触发护栏,Fable会回退到Claude Opus 4.8版本,能力明显下降
    • 安全研究员认为这套机制是基于关键词的,缺乏上下文理解

    Anthropic的”解套”方案:申请审核

    除了模型内部的护栏,Anthropic还给安全研究者准备了一个”网络验证计划”(Cyber Verification Program)。申请通过这个计划的人,在使用Claude做网络安全工作的时候会受到更少的限制。

    这个思路跟OpenAI的”Trusted Access for Cyber”差不多。你得先证明自己是”好人”,然后才能拿到更少的限制。问题在于,这就把门槛架在那了。你要么接受Fable的过度限制,要么去走申请流程等审核。


    截至发稿,Anthropic还没有回应置评请求。但考虑到安全社区的不满情绪已经在社交媒体上发酵了好几天,他们可能得出来解释一下了。

    这其实反映了一个更大的难题:AI公司怎么在”防止滥用”和”不妨碍正常使用”之间找平衡。Anthropic一直是这方面最激进的玩家之一,他们愿意为了安全牺牲一些易用性,这个选择本身没问题。但当护栏严到连安全研究员都受不了的时候,可能就得重新调一下刻度了。

  • 【开源推荐】Open Notebook:29.9K+ Stars!Notebook LM 开源替代品,隐私优先+18家AI模型随意切换

    【开源推荐】Open Notebook:29.9K+ Stars!Notebook LM 开源替代品,隐私优先+18家AI模型随意切换

    📌 项目简介

    Open Notebook 是 Google Notebook LM 的开源替代品,隐私优先、支持自托管,兼容 18+ AI 服务商(OpenAI、Anthropic、Ollama 等),让你完全掌控研究数据,不再受大厂绑定。

    29.9K+
    GitHub Stars

    18+
    AI 服务商

    100%
    数据自主

    MIT
    开源协议

    ⚙️ 安装要求和过程

    环境要求

    • 仅需安装 Docker Desktop(所有平台通用)
    • 支持 Windows / macOS / Linux
    • 需要约 2GB 磁盘空间

    快速安装(3 步搞定)

    # 第1步:下载 docker-compose.yml
    curl -o docker-compose.yml https://raw.githubusercontent.com/lfnovo/open-notebook/main/docker-compose.yml

    # 第2步:修改加密密钥(可选但推荐)
    # 编辑 docker-compose.yml,修改 OPEN_NOTEBOOK_ENCRYPTION_KEY

    # 第3步:启动服务
    docker compose up -d

    # 等待 15-20 秒后访问
    浏览器打开 http://localhost:8502

    安装完成后在浏览器打开 http://localhost:8502 即可使用,AI 密钥可在 Web UI 中配置,无需提前写入配置文件。

    ✨ 核心功能

    🔒
    隐私优先,数据自主

    自托管部署,所有研究数据存储在本地,完全不受 Google 服务器约束。支持 Docker / 云端 / 本地多种部署方式。

    🤖
    18+ AI 服务商兼容

    原生支持 OpenAI、Anthropic、Google、Groq、Ollama、DeepSeek、Mistral、xAI 等 18+ 家,也支持任意 OpenAI 兼容接口(LM Studio 等)。

    🎙️
    专业多角色播客生成

    支持 1-4 个可自定义角色的播客生成,比 Notebook LM 的 2 角色更灵活,可打造个性化内容输出。

    🔍
    全文 + 向量语义双搜索

    所有上传内容同时支持关键词全文检索和向量语义搜索,快速定位研究资料中的关键信息。

    完整 REST API

    提供完整的 REST API 接口,支持全流程程序化调用,可集成到现有工作流或自动化系统中。

    💡 典型使用场景

    场景一:学术研究资料管理

    上传论文 PDF、会议视频、网页资料,让 AI 基于你的资料库进行问答和总结。数据完全本地存储,敏感研究内容不外泄。

    场景二:多模型对比研究

    同时配置 OpenAI、Anthropic、DeepSeek 等多个模型,在同一套资料上对比不同模型的分析能力,选出最适合的模型。

    场景三:团队知识库 + 播客输出

    将团队文档、会议记录导入 Open Notebook,用 AI 生成洞察;还可将研究成果一键转换为多角色播客,方便团队内部分享。

    ⚡ Open Notebook vs Notebook LM

    对比维度 Open Notebook Notebook LM
    数据隐私 ✅ 自托管,完全自主 ❌ 仅 Google 云端
    AI 模型选择 ✅ 18+ 家,含本地模型 ❌ 仅 Google 模型
    播客角色数 ✅ 1-4 个可自定义 ⚠️ 仅 2 个
    API 访问 ✅ 完整 REST API ❌ 无
    成本 ✅ 只需支付 AI 调用费 ⚠️ 免费层 + 月费订阅
    开源定制 ✅ MIT 协议,完全可改 ❌ 封闭系统

    💬 推荐理由

    Google Notebook LM 确实好用,但它有两个痛点:数据在 Google 服务器上,以及只能用 Google 的模型。如果你研究的内容比较敏感,或者想用 DeepSeek / 本地 Ollama 来节省成本,Notebook LM 就没法满足你了。

    Open Notebook 最大的价值就是把控制权还给你:数据存在自己服务器上,想用哪个 AI 就用哪个,甚至可以在完全没有外网的环境里跑本地模型。而且它还有完整 REST API,可以接入自己的自动化流程。

    部署也超级简单,会 Docker 就能跑,三行命令搞定。如果你一直在找 Notebook LM 的平替,这个项目值得一试。开源、免费、不绑架数据,还要什么自行车?

    🤖 已支持 AI 服务商(部分)

    OpenAI
    Anthropic
    Google GenAI
    Groq
    Ollama
    DeepSeek
    Mistral
    xAI (Grok)
    OpenRouter
    Azure OpenAI
    Vertex AI
    MiniMax
    DashScope (Qwen)
    LM Studio

  • Oculus 创始人做了一款对话 AI,说话像人一样自然,iOS 版上线了

    Oculus 创始人做了一款对话 AI,说话像人一样自然,iOS 版上线了

    你用 ChatGPT 语音模式的时候,有没有过这种感觉:它回答太快了,快到不自然;或者它开始”思考”的时候,对话就卡住了,像打电话突然没了声音。

    Oculus 的联合创始人早就注意到了这个问题。他们离开 VR 赛道,做了一个叫 Sesame 的对话 AI,5月28日刚在 iOS 上线了公开预览版。

    Sesame AI 对话界面
    Sesame iOS app 对话界面(图片来源:TechCrunch)

    说话的时候也能”思考”

    Sesame 解决的核心问题其实很朴素:快速回复和周全思考之间,向来有个矛盾。慢一点通常更准确,但等太久又让人觉得不自然。

    他们的做法是:一边说话,一边在后台跑多个并行搜索,把结果融进回复里。所以对话不会卡住,AI 甚至可以在句子中间调整内容——就像人突然想起一件要补充的事,顺口就带出来了。

    四个 AI 角色,各有各的性格

    目前 app 里有四个 AI 代理:Maya、Miles、Simone 和 Charlie,每个都有自己的声音、性格和记忆。Maya 和 Miles 在之前的技术预览版里已经上线过,红杉资本说前几周就有超过 100 万人体验了这两个代理。

    Beta 测试期间,团队根据反馈加了不少功能:带图片结果的搜索卡片、记录要点的笔记功能、不方便说话时用的文本模式,以及一个”隐身模式”——对话内容不会被记入记忆。

    Sesame 在发布声明里写了一段话,很能代表他们的产品思路:”快速回复和花时间构思周全的回复之间存在着固有的矛盾。更慢的回复通常更准确,但如果耗时太久,也会让人感觉不自然。”

    下一步是智能眼镜,再下一步是”替你行动”

    这款 iOS app 只是 Sesame 更大计划的第一步。团队透露,他们预计在 2027 年推出智能眼镜产品。更远一点的规划是:这些 AI 代理不只是陪你聊天,还能代表你采取行动——这也是它们被称为”代理”而不是”聊天机器人”的原因。

    这个方向其实比聊天更有想象力。现在的 AI 工具,不管是对话型的还是代理型的,都需要你先把需求想清楚、表达清楚,有时候甚至还得知道”应该怎么实现”。但一个能自然对话的代理,可以帮你把这一步也给省了。

    目前这个 iOS app 已经在 39 个国家上线,完整功能完全免费,不过新注册用户可能还是会遇到一个短暂的等待名单。Android 版本也计划在未来推出。

    Sesame 去年刚从红杉资本等机构拿到 2.5 亿美元的 B 轮融资。Oculus 联合创始人的背景,加上红杉的押注,让这家公司在对话 AI 赛道里显得挺特别。


  • Supabase 8个月估值翻倍至100亿美元,vibe-coding 浪潮里跑出一只十角兽

    Supabase 8个月估值翻倍至100亿美元,vibe-coding 浪潮里跑出一只十角兽

    做AI应用开发的人,最近大概率都跟Supabase打过交道。它是那个把Postgres包了一层、让开发者不用自己折腾数据库的开源项目,也是这波vibe-coding浪潮里最受益的基础设施之一。

    8个月,估值从50亿涨到100亿

    6月5日,Supabase宣布完成5亿美元F轮融资,投前估值100亿美元,融资后估值约105亿美元。这个数字是8个月前的两倍——去年10月,他们刚以50亿美元估值融了1亿美元。

    Supabase CEO Paul Copplestone
    Supabase联合创始人兼CEO Paul Copplestone(图片来源:TechCrunch)

    再往前推几个月,Supabase的估值才20亿美元。也就是说,不到一年时间,这家公司的估值翻了5倍。

    增长来自哪里?CEO Paul Copplestone说,过去一年Supabase上的数据库启动量增长了600%以上,其中超过60%是通过某种AI工具启动的。目前Supabase拥有近1000万开发者用户,8个月内翻了一番。

    Copplestone特别提到,增长要归功于Claude Code和Codex,因为这两个AI模型”扩大了能够开发的人群范围”。

    Multigres:给Postgres做一个”操作系统”

    Supabase这周还发布了一个叫Multigres的工具,定位是Postgres的”操作系统”。简单说,它就是帮开发者把运行Postgres时的那些麻烦事——只读副本、故障转移、连接限制、备份——集中管理起来。

    这件事背后的逻辑是:vibe-coding降低了写代码的门槛,更多人能做出产品原型了,但数据库运维这关还是很难跨过去。Supabase想做的,就是把这个坑也填平。

    不迎合大客户,反而跑得更快

    Copplestone去年11月在TechCrunch的《Equity》播客里说过一段话,挺有意思。他说自己拒绝参与开发者工具的”劣质化”竞赛——不会为了拿到大企业客户的上百万美元合同,就按他们的要求改产品方向。他坚持自己的产品愿景。

    这跟大多数初创公司的策略是反着的。但通常情况下,走自己的路反而能跑出意外的结果。Supabase这波增长,某种程度上验证了这条路。

    本轮由新加坡GIC领投,Stripe等原有投资者继续跟投,Georgian和Salesforce Ventures也新加入了。Supabase现在是Bolt、Figma、Lovable、Replit等平台的优选数据库。


  • 全自主无人机第一次杀了人,这次没有人类按下开火键

    全自主无人机第一次杀了人,这次没有人类按下开火键

    2026年6月10日,《新科学家》杂志披露了一件事,看完之后你可能睡不着觉。乌克兰国防工业的人承认:两年前,10架搭载AI的四旋翼无人机在被发射后,全程没有人类干预,自己搜索、识别、攻击了区域内的所有目标,最后确认造成了数名俄罗斯士兵死亡。

    AI自主无人机
    AI自主武器概念图(AI生成)

    这是有记录以来,全自主武器系统第一次在实战中造成人类死亡。

    那10架无人机做了什么

    事情发生在2024年,地点在顿巴斯前线,巴赫穆特和恰西夫亚尔附近。乌克兰无人机制造商Alexander Kokhanovskyy提供的技术,测试只做了一次,之后没有扩大应用。

    流程是这样的:10架无人机被发射,飞往预定区域,大概飞10分钟,覆盖3到5公里的前线范围。到达之后,AI系统激活”终结者模式”——无人机不再接受地面指令,不回传视频画面,操作人员完全失去连接,无人机自己决定打什么、怎么打。

    Kokhanovskyy后来回忆说:”我们只要发射无人机,就知道那个区域里的所有东西都会死。无人机完全没有被连接,你看不到视频,什么都没有……它看到的一切都会被杀死。”

    测试结束后,乌方派了人工操控的无人机去核实,确认数名俄军士兵死亡,还有一辆卡车被摧毁。整个攻击过程没有录像,但现场的死亡结果被确认是这批自主无人机造成的。

    为什么这件事很严重

    自主武器不是新鲜概念。美军有自动拦截系统,以色列有铁穹,土耳其的Kargu-2无人机在2020年利比亚冲突中可能已经自主攻击过目标。但这次的不同在于:明确的死亡结果、来自乌克兰国防工业高级人士的公开确认、以及这件事被故意做成了”测试”。

    牛津大学互联网研究所的Mariarosaria Taddeo说得很直接:”这不仅有问题,而且非常可怕。我们想成为一个允许政府不经人类参与就杀死其他人的社会吗?”

    核心争议有两个。一个是责任归属:如果自主武器造成平民伤亡,你找谁?算法开发者?手机制造商?下达作战指令的指挥官?目前国际上没有明确的规则。另一个是准确性:AI在战场上识别目标的能力,还没有好到可以完全去掉人类决策的程度。

    乌克兰自己的矛盾

    有意思的是,乌克兰政府目前明令禁止在攻击最终阶段使用AI自主决策。乌军指挥官公开表示,他们只用半自主系统——无人机可以自动捕获和跟踪目标,但最后打不打,必须由人类决定。

    但Kokhanovskyy的测试说明,技术已经走在了政策前面。他的公司正在研发一种叫ALITA的反无人机系统,如果允许全自主运行,只需要2名操作员就能控制64架无人机。从效率角度看,国防企业有动力推动规则放宽。

    乌克兰政府目前没有回应这次测试的法律性质问题,但据了解,政府和国防企业正在讨论是否调整相关规则。

    联合国的立场

    联合国秘书长古特雷斯2025年曾公开呼吁禁止致命自主武器系统,原话是:”我们的世界不应该有致命自主武器系统的立足之地。”

    联合国报告指出,这类武器因为移除了战争中的人类判断,可能违反国际人道法和人权法,还存在误击己方、误伤平民的风险。但到目前为止,没有国际条约明文禁止这类武器的研发和使用。

    这次乌克兰的事件,大概率会重新点燃关于自主武器国际管制的讨论。只是,当技术已经证明可行、战场上又有人真的用了,讨论的窗口还有多大,这是个问题。


  • 豆包上线’任务模式’,字节这个动作信号很明确

    豆包上线’任务模式’,字节这个动作信号很明确

    6月12日,字节旗下的豆包AI大范围上线了一个新功能,叫”任务模式”。这事儿看起来只是产品迭代,但放在整个国产大模型赛道里看,动作背后的信号挺值得聊。

    过去一年多,豆包给人的印象一直是”好用的对话AI”——你问它问题,它答;你让它写东西,它写。这种模式下,AI是个高级搜索引擎+写作助手的合体,核心价值是”答得准、写得快”。

    任务模式到底变了什么

    任务模式的出现,把豆包从”问答机器”变成了”能干活的AI员工”。区别在于:以前你问豆包”帮我分析一下新能源汽车市场”,它会给你一段分析文字;现在你给它同样的需求,它会自己拆任务、搜资料、搭框架、生成PPT,最后直接把成品丢给你。

    整个流程是:任务拆解 → 步骤规划 → 工具调用 → 结果交付。用户不需要在多轮对话里反复引导,也不需要自己把大任务切成小问题,豆包自己把这件事干完了。

    豆包任务模式上线
    豆包App模式切换已更新为”快速、专家、任务”三档(图片来源:IT之家)

    具体能干什么?官方列出来的能力包括:自主联网搜索资料、一键生成PPT、零代码生成网页、上传Excel后自动出可视化图表、支持定时执行后台任务。基本上,一个普通白领日常用AI干的那些活,现在可以打包成一个”任务”,让豆包自己跑完。

    三家模式各管一摊

    和任务模式一起调整的,还有豆包的整体产品架构。现在打开App,顶部有个模式切换,变成了三档:快速、专家、任务。

    快速模式就是原来的基础对话,简单问答、即时信息获取,响应速度最快。专家模式是原来的”思考模式”升级来的,调用豆包大模型2.0 Pro版本,侧重深度推理,适合数学、法律文书、行业分析这类需要”想得深”的场景。任务模式则是新东西,侧重”干得成”,适合有明确目标、希望AI独立完成全流程的任务。

    这三种模式的划分,本质上是把”聊天、思考、执行”三个能力拆开了。用户根据自己的需求选模式,不用在一个对话框里反复切换语境。这个设计思路,比把什么都堆在一个模型里要清晰。

    收费逻辑跟着变

    基础功能继续免费,这点字节表态挺明确。付费只覆盖”高强度、高算力”的专业场景:PPT生成、数据分析、软件开发、金融分析这些。具体定价分三档:标准版68元/月、加强版200元/月、专业版500元/月。

    这个定价放在国内AI产品里算高的,但也反映出字节的判断:豆包不想靠”免费”换用户,而是想靠”能干重活”收钱。任务模式就是这个判断的核心支撑——如果AI只能聊天,免费就够用了;如果AI能替你干一整天的活,有人愿意为之付费。

    放在行业里看

    豆包这个动作,其实是国产大模型集体转向的一个缩影。过去一年,各家都在卷”对话质量”——谁答得准、谁写得像人、谁的搜索结果新。但现在这个维度上的差距在缩小,用户也开始审美疲劳。

    下一阶段的竞争,大概率会转向”谁能真正替用户干活”。Agent(智能体)就是这个方向的核心概念。豆包的任务模式,就是把这个概念做成了一个普通用户点一下就能用的功能,而不是只有开发者才能玩的东西。

    从这个角度看,6月12日这个时间点挺有意思的。豆包大范围上线任务模式,国内其他大模型产品估计很快会跟上。Agent能力的普及化,可能会是2026年下半年国产AI的主旋律。