标签：开源

不用改提示词，直接调模型“大脑”：DeepSeek-V4-Flash让LLM Steering回归实用
跟AI打交道的人大概都有这种体验：你在系统提示词里写了800字约束模型的语气、风格和立场，结果对话进行到第三轮，模型就开始放飞自我了。提示词能影响的只是模型的输入端，模型内部怎么处理、怎么生成，你管不着。

但现在有一种替代方案正在重新回到聚光灯下——LLM Steering（大语言模型引导）。这不是什么新概念，早在Anthropic做Golden Gate Claude的时候就引发过关注。只是以前它太重了，需要A100级别的GPU和PyTorch加TransformerLens，普通开发者根本玩不起。而DeepSeek-V4-Flash加上一个叫DwarfStar 4的工具，把这个门槛降到了单张RTX 4090就能跑。

Steering到底是什么，跟提示词有什么区别

打个比方。提示词就像你给一个人写了张纸条：”请你用简洁的语气回答”，这个人看了纸条，可能前两句照做了，聊着聊着又回到啰嗦的老样子。Steering则像你直接拧了这个人脑子里一个名为”简洁度”的旋钮，每一句话都说出来之前，这个旋钮都在生效。

技术上的实现也不复杂。Steering的核心是对比对（Contrast Pair）——让模型分别处理两个条件，比如”简洁回答”和”详细回答”，记录某一层激活值的差异，算出平均差值作为”简洁方向向量”。之后在正常的推理过程中，把这个向量加到对应层的激活值上，模型的输出就会不自觉地偏向简洁。

提示词管的是输入，Steering管的是过程。前者是”请你这样做”，后者是”我帮你这样做”。每个token生成时都在施加影响，所以效果在整个输出中保持一致。

为什么以前没流行起来

Steering概念好是好，但有三个硬伤一直挡在前面。第一，它只适用于开源模型——你需要访问模型内部每一层的激活值，而OpenAI和Anthropic的API不可能给你这个权限。第二，以前做激活值分析需要搭建PyTorch + TransformerLens的完整环境，硬件起步就是A100。第三，大多数Steering能实现的效果，其实用提示词也能凑合达到，多花几行字就完事了。

所以之前Steering基本是大厂实验室的自留地，Anthropic拿它做可解释性研究，学术界拿它写论文，一线开发者完全用不上。

DeepSeek-V4-Flash + DwarfStar 4改变了什么

两个关键因素。DeepSeek-V4-Flash本身就是一个针对推理效率优化过的模型，能在相对有限的显存上运行，同时保持了不错的推理质量。而DwarfStar 4是llama.cpp的一个分支，专门为特定模型系列加了激活值钩子，把”提取和注入激活值”这个操作简化到了几乎一条命令就能完成。

这意味着什么？以前你需要一个有A100的实验室和一整套PyTorch环境，现在你只需要一张4090和几行命令就能跑完整个Steering实验的流程。门槛的降低是数量级的。

能拿它干什么
- 语气一致性：让模型在长对话中始终维持特定的语气和风格，不会漂移
- 领域偏移：不用微调，就让模型的输出偏向金融、医疗或法律风格（但只影响表达框架，不影响事实准确性）
- 安全防护：构建安全拒绝向量，在推理时注入作为轻量级护栏
- 上下文压缩：把原本需要大量token描述的约束条件压缩成一个向量，省出上下文窗口
不过也别太乐观。Sean Goedecke在他那篇广为流传的文章里提到，Steering目前还有明显的局限性：你很难精确理解一个激活值差异到底编码了什么信息，副效应可能出现在不相关的任务上，而且在一个领域构建的向量未必能迁移到另一个领域。

从黑盒喊话到白盒调参

Bagua AI的文章里有一个观点我觉得很到位：过去几年，行业一直在把LLM当黑盒，用提示词从外面”喊”它。Steering的复兴代表了一个转变——我们从外部喊话，变成从内部调参。这不仅仅是效率优化，而是机械可解释性（Mechanistic Interpretability）走向工业化应用的第一步。

对实际做开发的团队来说，Steering目前最直接的价值在于替代那些越来越臃肿的系统提示词。与其花500个token约束模型行为，不如提取一个向量注入进去，既省上下文窗口又稳定。这个账，但凡做过复杂Agent系统的人都会算。

竞争壁垒正在从”提示词工程”转向”理解内部表征”。谁能读懂模型的激活空间，谁就能更好地控制模型。这项技能在未来可能比写prompt值钱得多。

📎 原文来源：DeepSeek-V4-Flash means LLM steering is interesting again – Sean Goedecke ｜ LLM Steering Vectors 2026 – braindetox ｜ DeepSeek-V4-Flash Revitalizes LLM Steering – Bagua AI
2026年5月17日
英伟达2.6B小模型跑赢行业巨兽：单卡生成1分钟720p视频的世界模型来了
前两天NVIDIA的NVLabs悄悄丢了个炸弹——SANA-WM，一个只有2.6B参数的开源世界模型，能在一块H100上生成720p、1分钟长的可控视频。你没有看错，一块卡，一分钟。

SANA-WM吞吐量比开源基线高36倍，动作跟随准确率超过所有现有开源方案，视觉质量却跟大规模工业模型差不多。

混合线性注意力：让长视频不再OOM

做长视频生成最头疼的问题就是显存爆炸。标准DiT用的Softmax Attention是O(n²)复杂度，生成60秒视频（约1800帧）时，纯Softmax方案大概跑到15秒就OOM了。

SANA-WM的解法很巧妙——混合线性注意力。帧与帧之间用Gated DeltaNet做线性依赖（O(n)复杂度），每隔几帧再插一次Softmax Attention保长程一致性。这样既控制了显存，又没丢掉全局关联。效果就是：别人OOM的时候，它还在稳稳生成。

双分支相机控制：6自由度精确驾驭

世界模型跟普通文生视频最大的区别在于可控性。SANA-WM支持6自由度（6-DoF）相机轨迹控制，输入一张静态图+相机运动路径，就能生成对应的漫游视频。它用双分支架构：粗粒度全局位姿分支理解相机大致走向，细粒度像素对齐几何分支精确到像素级的几何变化。这让生成的视频不只是像，而是准。

两阶段生成 + 极致训练效率

生成流程分两步：2.6B基础模型先出60秒原始视频，再由17B精炼网络提升纹理和运动质量。有意思的是训练效率——只用了21.3万条公开视频片段（带6-DoF标注），64张H100跑15天就完事。对比同行动辄256+卡跑几个月，这个数据效率相当亮眼。
- 蒸馏版 + RTX 5090：60秒720p视频34秒出片
- 吞吐量：开源基线的36倍
- 动作跟随准确率：超越所有开源方案
- 视觉质量：对标LingBot-World等工业基线
世界模型 vs 文生视频：两条路的分歧

Sora、Kling这些文生视频模型走的是文字驱动路线，控制力偏弱；SANA-WM这类世界模型走的是图像+轨迹驱动路线，控制力强、物理合理性高。说白了，文生视频像是给AI一段描述让它自由发挥，世界模型像是给AI一张照片和运动指令让它精确执行。

应用场景也很明确：自动驾驶仿真、机器人训练、游戏内容生成、影视预可视化、建筑漫游……任何需要如果相机这样动，世界会怎样的场景，都是世界模型的主场。

2.6B参数就能做到这个程度，开源社区该兴奋了。代码已在GitHub放出（NVlabs/Sana-WM），权重按CC BY-NC-SA 4.0许可即将发布。

📎 原文来源：SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformers / 项目主页
2026年5月17日
不依赖云端就能跑DeepSeek？这个Mac工具让AI回归本地
跑AI模型基本等于把数据扔给云端服务器处理，你的文档、代码、聊天记录全在别人机器上过一遍。有个叫Osaurus的开源项目想换个玩法——把AI塞进你的Mac里，本地跑模型，数据不离开你的硬盘。

Osaurus在Mac上的运行界面

一个前特斯拉工程师的执念

Osaurus的创始人Terence Pae之前在特斯拉和Netflix做软件工程师。他的想法很直接：既然Mac有越来越强的芯片，为什么不能让AI直接在本地跑？这个项目从一个叫Dinoki的桌面AI伴侣进化而来，现在已经是一个完整的LLM服务器，支持本地和云端模型无缝切换。上线不到一年，下载量已经超过11万次。

“去年本地AI连句子都写不完，但今天它能跑工具、写代码、访问浏览器、从亚马逊买东西。进步速度太快了。”——Terence Pae

本地+云端，两不耽误

Osaurus最实用的地方在于它不是非此即彼。你想跑DeepSeek V4、Gemma 4、Llama这些开源模型？本地来。你想用GPT、Claude、Gemini？连上云端API就行。所有记忆、文件、工具都留在你自己的硬件上。通过硬件隔离的虚拟沙箱来保证安全，数据不会被随便传走。

它还有20多个原生插件——邮件、日历、浏览器、音乐、Git、文件系统、Excel、PPT这些都能直接操作。最近还加了语音功能。本质上它把自己定位成一个”AI控制层”，不管底层用什么模型，上层体验统一。

硬件门槛和商业化方向

门槛不算低——最低64GB内存，想跑大模型推荐128GB。不过Pae认为这个门槛会越来越低，因为”每瓦特能输出的智能”在快速提升，这条曲线的斜率甚至比GPU的摩尔定律还陡。

竞争对手不少——Ollama、LM Studio、Msty都是这条赛道上的玩家。但Osaurus的差异在于它面向普通用户而非开发者，界面更友好。目前项目完全开源免费，团队在纽约的Alliance加速器里打磨产品，未来考虑切入法律和医疗这些对隐私要求极高的B2B场景。
- Osaurus是Mac专属的开源LLM服务器，支持本地+云端模型切换
- 创始人Terence Pae，前特斯拉和Netflix工程师
- 上线近一年下载量超11万，20+原生插件
- 最低硬件要求64GB内存，推荐128GB
- 面向非开发者群体，计划切入法律/医疗等隐私敏感领域
📎 原文来源：Osaurus brings both local and cloud AI models to your Mac (TechCrunch, Sarah Perez, 2026-05-15)
2026年5月17日
ComfyUI：106k Stars！节点式AI创作引擎，让图像生成像搭积木一样可控
用Stable Diffusion画图的人，大概分两派：一派用WebUI，图个省事；另一派用ComfyUI，追求极致控制力。

我一开始也是WebUI用户，觉得节点式界面太复杂了。直到有一次我想做一个多步重绘+放大+色调调整的流水线，发现WebUI根本搞不定这种复杂工作流，才被硬推到了ComfyUI这边。

结果上手之后回不去了 —— 这种节点式的工作流编排方式，一旦理解了逻辑，创作效率简直是质的飞跃。

🚀 项目简介

ComfyUI 是目前最强大的开源节点式生成式AI引擎，拥有 106k+ GitHub Stars。它通过可视化节点画布，让用户自由组合各类AI模型和操作，实现高度可定制、可控制的内容生成。不仅支持图像生成，还能处理视频、3D、音频等多种模态。

⚙️ 安装要求和过程
📋 环境要求
- 操作系统：Windows / macOS / Linux
- Python 3.13（推荐）或 3.12
- 显卡：NVIDIA（CUDA 13.0）/ AMD / Intel Arc / Apple Silicon（M系列）
- PyTorch 2.4+
- 浏览器：Chrome 143+（推荐）
🚀 快速安装

方式一：便携版（Windows，最简单）
```
# 下载便携版压缩包，解压即用
# 内置 Python 3.13 + PyTorch CUDA 13.0
# 运行 run_nvidia_gpu.bat 即可启动
```
方式二：手动安装（全平台）
```
git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI
pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu130
pip install -r requirements.txt
python main.py
```
方式三：桌面版（Windows/macOS）
```
# 从 comfy.org 下载桌面安装包
# 支持一键安装，适合新手
```
💡 核心功能
- 🧩 节点式工作流：通过可视化节点画布自由编排AI生成流程，每个节点负责一个独立操作（加载模型、生成图像、调整尺寸等），灵活度和可控性远超传统UI
- 🎨 多模态支持：不仅支持图像生成（文生图、图生图、局部重绘、画面外扩），还能处理视频生成、3D模型创建、音频合成等多种创作场景
- 🔌 丰富的自定义节点生态：Comfy Hub 上有全球创作者分享的数千个工作流和节点插件，一键导入即可使用，持续扩展能力边界
- 🤖 AI Agent集成：支持本地ComfyUI服务器集成、Comfy Cloud API调用和MCP Server对接，可以与Claude、Cursor等AI智能体打通
- ⚡ 高性能推理：原生支持最新开源SOTA模型，API节点可接入闭源模型，推理速度快，内存占用低
📦 典型使用场景

🎨 场景1：AI绘画创作

设计师和插画师用ComfyUI构建个性化图像生成流水线 —— 从线稿上色、风格迁移到批量生成设计稿，一个工作流搞定全流程。相比传统绘图软件，效率提升数倍。

🎬 场景2：AI视频与3D制作

内容创作者利用ComfyUI的视频生成节点和3D模型节点，制作短视频素材、产品展示动画、虚拟场景等。节点式编排让复杂的多步视频处理变得可追溯、可复现。

🏭 场景3：企业级批量生产

电商团队用ComfyUI搭建商品图自动化工作流：批量换背景、批量生成不同风格的Banner、批量处理产品照片。工作流可保存复用，一次搭建持续受益。

⭐ 推荐理由

说真的，ComfyUI的门槛确实比WebUI高一些，但这个”高”是值得的。

我最喜欢的是它的可复现性 —— 每个工作流都是一个完整的生成配方，别人拿到你的工作流文件就能一模一样地复现结果。这在团队协作中太重要了，不用再”调参数调到手抽筋还说不清楚用了什么设置”。

而且ComfyUI的社区生态非常活跃，Comfy Hub上各种神仙工作流应有尽有。不会搭工作流？直接下载别人的改一改就行。这就好比从”自己写代码”进化到了”调用开源库”。

最近ComfyUI还加入了AI Agent集成能力，支持MCP协议，这意味着你可以让Claude、GPT这些AI智能体直接帮你设计和调整工作流。AI时代的生产力工具，ComfyUI算是把”可控性”做到了极致。

📧 下载地址
- 🏠 GitHub：https://github.com/comfyanonymous/ComfyUI
- 🌐 官网：https://comfy.org
- 📖 官方文档：https://docs.comfy.org/zh
- 🧩 Comfy Hub：https://comfy.org/workflows
- 💬 Discord：https://discord.gg/ComfyUI
2026年5月17日
Firecrawl：120k Stars！让AI轻松抓取任意网页的利器
你有没有遇到过这种情况：想用AI分析某个网站的内容，结果发现爬虫根本抓不到数据，要么是JavaScript渲染的SPA页面，要么就是被反爬虫拦住了？

我之前做竞品调研的时候，就经常被这个问题困扰。传统爬虫要么需要配置代理，要么需要手动处理各种反爬机制，光是数据清洗就占了大半天时间。

直到我发现了 Firecrawl —— 这是一个专门为AI时代打造的网页数据抓取工具，它可以轻松把任何网站转换成LLM-ready的格式。

🚀 项目简介

Firecrawl 是一款开源的 Web 数据抓取 API，能够将任何网站转换为干净的 Markdown 或结构化数据，特别适合 AI Agent 和 LLM 应用使用。项目已获得 120k+ GitHub Stars，被 Apple、Shopify、Canva、Replit 等知名企业信赖使用。

⚙️ 安装要求和过程
📋 环境要求
- Python 3.8+ / Node.js 18+ / Go / Rust / Java
- Docker（可选，用于本地部署）
- API Key（可从 firecrawl.dev 免费获取）
🚀 快速安装

通过 pip 安装 Python SDK：
```
pip install firecrawl-py
```
或者使用 npm：
```
npm install firecrawl-py
```
Docker 本地部署：
```
docker pull mendableai/firecrawl
docker run -p 3002:3002 mendableai/firecrawl
```
💡 核心功能
- 🔍 智能搜索：输入关键词，直接返回包含完整内容的搜索结果，无需二次抓取
- 📄 专业抓取：将任意网页转换为干净的 Markdown、JSON 或 HTML，自动处理 JavaScript 渲染
- 🗺️ 站点映射：生成网站结构地图，快速了解站点架构
- 🔗 智能爬取：从起始 URL 自动追踪链接，爬取整个站点，支持深度限制
- 💬 页面交互：支持点击、滚动、输入、截图等操作，可与页面动态交互
📦 典型使用场景

🔬 场景1：AI 研究助手

让 AI 代理自动搜索和抓取最新论文、新闻、行业报告，汇总成结构化的研究报告。

📊 场景2：竞品情报监控

自动监控竞品官网、定价页面、产品更新，抓取关键信息用于市场分析和决策支持。

🤖 场景3：RAG 应用数据源

为 RAG（检索增强生成）应用提供实时、准确的网页数据源，提升 AI 回答的质量。

⭐ 推荐理由

说实话，用了 Firecrawl 之后，我做竞品调研的效率至少提升了三倍。以前需要花半天时间手动抓取和清洗的数据，现在几行代码就能搞定。

最让我惊喜的是它的 JavaScript 渲染能力 —— 以前那些用 React/Vue 写的 SPA 页面，传统爬虫根本拿它没办法，现在只要一个 API 调用就能搞定。而且输出格式非常干净，几乎不需要额外清洗。

配合 MCP 服务器使用效果更佳，可以直接在 Cursor、Claude 这些 AI 工具里调用 Firecrawl，真正实现”让 AI 替你上网搜资料”。

📧 下载地址
- 🏠 GitHub：https://github.com/mendableai/firecrawl
- 🌐 官网：https://www.firecrawl.dev
- 📖 文档：https://docs.firecrawl.dev
- 🐦 Twitter：@mendableai
2026年5月16日
DeepSeek V4 发布：1.6万亿参数开源，百万上下文成标配，价格比 GPT-4 便宜70倍

DeepSeek 这次真的把天花板给顶破了。4月24日，他们正式发布 DeepSeek-V4 预览版，同步全量开源，上线 Hugging Face 和 ModelScope，附带580G 开源权重。消息一出，资本市场立刻有了反应——SMIC 和华虹半导体在香港双双大涨。

1M 上下文，标配了

V4 系列最直观的升级是上下文窗口直接拉到100万 token，所有官方服务默认配置。用大白话讲，就是你扔给它一部长篇小说让它分析，它一口气全吞下去，中间不需要你翻页或者重新喂。

但这还不是最厉害的。他们搞了一套 Token-wise 压缩加上 DSA 稀疏注意力机制，推理时的 FLOPs 直接降低了73%，KV 缓存大小减少了90%。说白了，不是粗暴地堆算力，而是在工程层面做了精细优化。

DeepSeek-V4 发布，百万上下文成标配

两个版本怎么选？

V4-Pro 总参数1.6万亿，激活参数490亿，性能定位是”开源最强、接近顶级闭源”。内部员工体验说比 Sonnet 4.5 强，交付质量接近 Opus 4.6 的非思考模式。API 价格做到了 GPT-4 的七十分之一，每百万 token 输入0.14美元、输出3.48美元。

V4-Flash 走的是经济路线，2840亿总参数、130亿激活参数，API 价格低到离谱——输入每百万 token 只要3美分，比 Claude Opus 4.7 便宜99%以上。简单任务用它完全够用，高难度任务建议开思考模式、强度拉满。

国产算力这波秀肌肉

更值得关注的是 DeepSeek V4 对国产算力的适配程度。官方数据显示，在华为昇腾 950PR 上推理速度比 V3 版本快了整整35倍，能耗还降低了40%。他们还适配了寒武纪芯片，MXFP4 低精度格式降低了对 NVIDIA CUDA 生态的依赖。

这意味着什么？DeepSeek 不再只是”开源模型里很强”，而是真正在国产硬件上跑出了能打的体验。对国内企业来说，部署成本和使用门槛都在大幅下降。开源协议用的是 MIT，完全开放商用。

DeepSeek V4 把百万上下文、开源和低成本三个事情同时做到位了。开源社区等了这么久的东西，终于来了。

📎 原文来源：DeepSeek V4 炸场发布：1.6T 参数开源 + 百万上下文标配
📎 详细报道：DeepSeek-V4 预览版：迈入百万上下文普惠时代

2026年5月15日
Open WebUI：127k Stars！为Ollama打造的终极Web界面
如果你在用 Ollama 运行本地大模型，肯定知道自带的命令行事先张扬地”反人类”。每次想切换模型、调参数、看历史记录，都要折腾一堆命令行操作。Open WebUI 就是来解决这个问题的——给你一个漂漂亮亮的 Web 界面，把 Ollama 的能力全部释放出来。

🚀 项目简介

Open WebUI 是一个功能强大、可高度自定义的自托管 AI 交互界面，GitHub 已获得 127k+ Stars。它最初是 Ollama 的 Web UI，现在已经发展成支持 Ollama、OpenAI API、Claude 等多种后端的通用 AI 界面平台。核心理念是让每个人都能轻松地与本地或云端大模型交互，完全离线运行，数据自主可控。

⚙️ 安装要求
硬件要求
- CPU：支持 AVX 指令集的现代处理器
- 内存：取决于使用的模型（建议 8GB+）
- 磁盘：10GB+（用于存储应用和数据）
软件依赖
- Docker（推荐）
- 或 Python 3.11+
- 浏览器（Chrome / Edge / Firefox）
快速安装（Docker 方式，最简单）
```
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
```
启动后访问 http://localhost:3000

快速安装（pip 方式）
```
pip install open-webui
open-webui serve
```
启动后访问 http://localhost:8080
💡 核心功能
- 🤖 多后端支持：支持 Ollama、OpenAI API、Claude、vLLM 等多种模型后端，一个界面管理所有模型
- 📚 RAG 知识库：内置 RAG 功能，可以上传文档构建私有知识库，让 AI 基于自有资料回答问题
- 🧩 插件系统：支持插件扩展，可按需安装功能插件，满足个性化需求
- 🔧 工具调用：支持 Tool Calling，可以调用外部工具完成复杂任务
- 📝 上下文管理：智能管理对话上下文，优化长对话体验，支持对话历史管理和标签分类
📦 典型使用场景

🎯 场景一：本地 Ollama 模型可视化交互

安装 Ollama 后拉取任意模型（Llama 3、Qwen、Mistral 等），通过 Open WebUI 的友好界面进行对话、切换模型、调整参数。完全本地运行，隐私无忧。

🎯 场景二：企业私有知识库问答

上传公司内部文档到 RAG 系统，构建专属知识库。员工通过对话形式查询制度、文档、数据，AI 精准基于自有资料回答，无需接触外部服务。

🎯 场景三：团队共享 AI 助手

部署在内网服务器上，团队成员通过浏览器访问同一个 AI 界面。可以连接多个模型后端，按需切换，适合开发和测试场景。

⭐ 推荐理由

我之前一直用命令行跑 Ollama，每次调模型都要记一堆参数。用上 Open WebUI 之后，体验直接提升了好几个档次。界面简洁好看，功能也很全面，RAG、插件、多后端支持这些都用得上。

最关键的是完全开源、可以自托管，数据不离开自己的服务器。对于企业用户来说，这个优势很明显——既能用上 AI 能力，又不用担心数据泄露问题。

如果你在用 Ollama 或者想搭建本地 AI 界面，Open WebUI 绝对值得一试。

📧 下载地址
- 🏠 GitHub：https://github.com/open-webui/open-webui
- 🌐 官网：https://openwebui.com
- 📖 官方文档：https://docs.openwebui.com
- 💬 Discord 社区：https://discord.gg/openwebui
2026年5月15日
agentmemory：让AI编程代理拥有持久记忆的神器
说实话，用Claude Code或Cursor写代码时，最头疼的就是每次开新会话都要重新解释项目结构、代码规范和之前的决策。CLAUDE.md写满了又容易过时，这个痛点真的太普遍了。

直到我发现了agentmemory——这是一个专门为AI编程代理打造的持久记忆系统，能自动记住一切，彻底告别重复解释。

🎯 项目简介

agentmemory是GitHub上排名第一的AI编程代理持久记忆工具，基于真实基准测试构建。它能 silently 捕获编程代理的所有操作，将其压缩成可搜索的记忆，在下次会话时自动注入正确的上下文。

目前狂揽 5.9k+ Stars，今日增长超过1000 Stars，堪称年度黑马项目！

⚙️ 安装要求和过程
快速开始（30秒上手）：
1. 终端1：启动记忆服务器
  npx @agentmemory/agentmemory
2. 终端2：体验演示
  npx @agentmemory/agentmemory demo
3. 打开 http://localhost:3113 查看实时记忆构建过程
👍 Claude Code 用户

一行命令搞定：

/plugin marketplace add rohitg00/agentmemory

/plugin install agentmemory
👨‍💻 其他代理（Cursor/Cline/Windsurf等）

在MCP配置中添加：
```
{
  "mcpServers": {
    "agentmemory": {
      "command": "npx",
      "args": ["-y", "@agentmemory/mcp"]
    }
  }
}
```
💡 核心功能
- 🔍 智能检索：BM25 + 向量 + 知识图谱三路混合搜索，R@5准确率达95.2%
- 💾 4层记忆架构：Working → Episodic → Semantic → Procedural，类比人类记忆的运作方式
- 📌 自动捕获：12个hooks自动记录所有操作，零手动操作
- 🔒 隐私优先：API密钥、私有标签在存储前自动剥离
- 📈 极低成本：年省约170K tokens，年成本仅$10（用本地embeddings可降到$0）
🖥️ 典型使用场景
📈 场景1：长期项目维护

当你要维护一个半年前的项目时，agentmemory能自动回忆：
- 之前为什么选择这个技术方案
- 哪些文件被频繁修改及原因
- 代码规范和架构决策
👥 场景2：团队协作

多个开发者使用同一项目，agentmemory支持命名空间隔离的团队记忆，共享知识同时保留个人偏好。

🔋 场景3：复杂调试

遇到之前解决过的类似bug？记忆系统能追溯到原始观察，帮你快速定位。

⭐ 推荐理由

用了快一个月了，最直观的感受是：每次开新会话，Claude真的能“想起来”上次在做什么。调试效率提升明显，因为不再需要反复解释项目背景。

最让我惊喜的是隐私保护——它会自动过滤敏感信息，这点对于企业项目非常重要。

另外，完全零外部依赖（仅需SQLite），安装和迁移都很轻量。

📥 下载地址
- 🏠 GitHub：https://github.com/rohitg00/agentmemory
- 🌐 官网：https://agent-memory.dev
- 📖 iii引擎文档：https://iii.dev/docs
2026年5月13日
中国AI编码模型打破”落后6-9个月”框架：开源权重+低成本改写全球格局
说实话，当我看到2026年4月这波中国AI编码模型的密集发布时，第一反应是：那个”中国AI落后6-9个月”的老框架，真的该扔进历史垃圾桶了。

12天，4家实验室，一场静悄悄的能力赶超

从4月底到5月初，短短12天里，4家中国AI实验室接连发布了各自的最新编码模型，而且全部是开源权重。这可不是小打小闹的demo，而是实打实能打的工程级模型：
- Z.ai的GLM-5.1
- MiniMax的M2.7
- Moonshot的Kimi K2.6
- DeepSeek的V4
最关键的是，它们在SWE-Bench Pro这个权威编码基准上的得分全部落在56-59分区间——什么概念？这个得分已经和西方前沿模型持平了。

价格才是真正的杀手锏

如果能力持平还不够震撼，那成本数据绝对让你倒吸一口凉气：这4款模型的推理成本，最高不超过Claude Opus 4.7的三分之一。

我觉得这里有个被很多人忽略的逻辑：AI能力如果可以低价获取，那么”前沿模型的护城河”到底在哪里？如果Kimi K2.6或者DeepSeek V4能以1/3的价格做到Opus 4.7差不多的事情，那企业采购决策会不会悄然生变？

这不是简单的性价比问题，而是整个AI供应链的话语权在转移。

“落后6-9个月”为什么不成立？

State of AI报告里有一句话我很认同：”中国落后6-9个月”的旧框架在智能体编码领域已不成立。

NIST的CAISI评估显示，DeepSeek V4的跨域基准综合表现落后美国前沿约8个月，但DeepSeek自己的模型卡显示V4-Pro与Opus 4.6、GPT-5.4持平。两个结论都是对的——只不过评估的维度和基准不同而已。

这其实揭示了一个更深的真相：AI能力的比较，已经不再是单一时间轴上的先后问题，而是评估者、支架工程、基准设计的综合博弈。当多个最优模型来自中国且为开源权重时，”追赶者”这个标签就已经失效了。

开源权重：中国AI的”农村包围城市”？

还有一个细节值得琢磨：这4款模型全部开源权重。我觉得这不是巧合，而是一种极其聪明的战略选择。

开源意味着什么？意味着全球开发者可以本地部署、可以微调、可以嵌入自己的产品而不用看任何人的脸色。当西方实验室还在纠结”该不该开源”的时候，中国实验室已经用开源完成了全球开发者生态的布局。

Kimi K2.6发布时展示了一个12小时连续工具使用轨迹，演示了将推理引擎移植到Zig的完整过程——这种”晒能力”的方式本身就很有说服力，比发一篇论文直观多了。

这件事的真正影响可能还没显现

我觉得现在讨论”中国AI是否赶超”还为时尚早，但有一个趋势已经很清晰了：在整个AI领域最具经济影响力的能力（编码和智能体工程）上，多个最优模型来自中国且为开源权重，这件事的长期影响可能被严重低估了。

企业采购、开发者工具链、云服务定价、甚至AI安全的研究议程——所有这些都将因为这个变化而重新调整。我不是在说”中国AI已经全面领先”，而是说”全面落后”这个叙事已经失去了事实基础。

参考资料：State of AI: May 2026, Air Street Press
2026年5月13日
TradingAgents：用多智能体协作做金融交易决策，GitHub 7.3万星
📋 项目简介

TradingAgents 是一个多智能体LLM金融交易框架，模拟真实交易公司的运作方式——部署基本面分析师、情绪分析师、技术分析师、交易员和风控团队等多个专业AI智能体，通过协作讨论来评估市场状况并做出交易决策。

项目目前在GitHub上已获得 73,887 ⭐，本周新增 7,259 颗星，热度持续攀升中！🔥

🛠️ 安装要求和过程

环境要求
- Python 3.10+
- 至少一个LLM API密钥（OpenAI / Google / Anthropic / DeepSeek / Ollama等均可）
- Alpha Vantage API密钥（用于获取市场数据，免费注册即可）
快速安装
```
# 克隆仓库
git clone https://github.com/TauricResearch/TradingAgents.git
cd TradingAgents

# 创建虚拟环境
conda create -n tradingagents python=3.13
conda activate tradingagents

# 安装依赖
pip install .

# 设置API密钥
export OPENAI_API_KEY=your_key_here
export ALPHA_VANTAGE_API_KEY=your_key_here

# 启动交互式CLI
tradingagents
```
🐳 Docker用户：
```
cp .env.example .env  # 填入你的API密钥
docker compose run --rm tradingagents
```
如果想用本地模型（Ollama），还可以：
```
docker compose --profile ollama run --rm tradingagents-ollama
```
⚡ 核心功能
1. 🧠 多智能体协作架构：模拟真实交易公司的团队分工，包括基本面分析师、情绪分析师、新闻分析师、技术分析师、看涨/看跌研究员、交易员、风控团队和投资组合经理，共8大角色协同工作。
2. 🤖 多LLM支持：兼容OpenAI、Google Gemini、Anthropic Claude、xAI Grok、DeepSeek、Qwen、GLM、MiniMax、OpenRouter，还支持Ollama本地部署和Azure OpenAI等企业级方案。
3. 💾 持久化决策日志：记录历史决策和收益表现，让智能体从过去的经验中学习，越用越聪明。
4. 🔄 断点续跑：运行中断后可从上次成功步骤恢复，不怕意外崩溃丢失进度。
5. 📊 交互式CLI：通过命令行界面选择股票代码、日期、LLM模型和研究深度，操作简单直观。
🎯 典型使用场景
1. 📈 个人投资研究助手：我平时关注几只科技股，用TradingAgents可以让多个AI分析师从不同角度评估一只股票——基本面、技术面、市场情绪一次性看全，比我自己翻研报效率高太多了。比如分析NVDA，它会自动调用基本面数据、近期新闻、Reddit讨论，然后给出综合判断。
2. 🏫 金融AI研究实验：项目附带了学术论文（arXiv:2412.20138），如果你在做LLM+金融方向的研究，可以直接基于这个框架做对比实验、消融实验，代码结构清晰，改起来很方便。
3. 🎓 量化交易学习与实践：想入门量化交易但又不想从零搭建系统的同学，TradingAgents提供了一个完整的端到端框架。从数据获取、多维度分析到交易决策和风控，全流程覆盖，而且支持DeepSeek、Ollama等本地模型，零成本就能跑起来。
💡 推荐理由

说实话，我试用过不少AI交易工具，但大部分要么太简单（单模型单任务），要么太黑盒（不知道AI为什么这样决策）。TradingAgents不一样——它的多智能体辩论机制让我印象深刻。看涨研究员和看跌研究员会针对同一只股票展开辩论，最终由交易员综合双方观点做出决策。这种机制比单一模型直接输出”买”或”卖”要透明得多，你清楚地知道决策背后的逻辑。

另外，对国内用户很友好：支持DeepSeek、Qwen、GLM等国产模型，还区分了国内版和国际版的API密钥，Ollama本地部署也很丝滑。即使没有海外API，照样能用。

⚠️ 友情提醒：项目明确标注仅供研究用途，不构成投资建议。股市有风险，AI也有幻觉，千万别直接拿它的输出当交易信号。

🔗 下载地址
- 🏠 官网/GitHub：https://github.com/TauricResearch/TradingAgents
- 📄 学术论文：arXiv:2412.20138
2026年5月12日

标签： 开源

Steering到底是什么，跟提示词有什么区别

为什么以前没流行起来

DeepSeek-V4-Flash + DwarfStar 4改变了什么

能拿它干什么

从黑盒喊话到白盒调参

混合线性注意力：让长视频不再OOM

双分支相机控制：6自由度精确驾驭

两阶段生成 + 极致训练效率

世界模型 vs 文生视频：两条路的分歧

一个前特斯拉工程师的执念

本地+云端，两不耽误

硬件门槛和商业化方向

🚀 项目简介

⚙️ 安装要求和过程

💡 核心功能

📦 典型使用场景

📧 下载地址

🚀 项目简介

⚙️ 安装要求和过程

💡 核心功能

📦 典型使用场景

📧 下载地址

1M 上下文，标配了

两个版本怎么选？

国产算力这波秀肌肉

🚀 项目简介

⚙️ 安装要求

💡 核心功能

📦 典型使用场景

⭐ 推荐理由

📧 下载地址

🎯 项目简介

⚙️ 安装要求和过程

💡 核心功能

🖥️ 典型使用场景

⭐ 推荐理由

📥 下载地址

12天，4家实验室，一场静悄悄的能力赶超

价格才是真正的杀手锏

“落后6-9个月”为什么不成立？

开源权重：中国AI的”农村包围城市”？

这件事的真正影响可能还没显现

📋 项目简介

🛠️ 安装要求和过程

环境要求

快速安装

⚡ 核心功能

🎯 典型使用场景

💡 推荐理由

🔗 下载地址

标签：开源