标签: 开源

  • 不用改提示词,直接调模型“大脑”:DeepSeek-V4-Flash让LLM Steering回归实用

    跟AI打交道的人大概都有这种体验:你在系统提示词里写了800字约束模型的语气、风格和立场,结果对话进行到第三轮,模型就开始放飞自我了。提示词能影响的只是模型的输入端,模型内部怎么处理、怎么生成,你管不着。

    但现在有一种替代方案正在重新回到聚光灯下——LLM Steering(大语言模型引导)。这不是什么新概念,早在Anthropic做Golden Gate Claude的时候就引发过关注。只是以前它太重了,需要A100级别的GPU和PyTorch加TransformerLens,普通开发者根本玩不起。而DeepSeek-V4-Flash加上一个叫DwarfStar 4的工具,把这个门槛降到了单张RTX 4090就能跑。

    Steering到底是什么,跟提示词有什么区别

    打个比方。提示词就像你给一个人写了张纸条:”请你用简洁的语气回答”,这个人看了纸条,可能前两句照做了,聊着聊着又回到啰嗦的老样子。Steering则像你直接拧了这个人脑子里一个名为”简洁度”的旋钮,每一句话都说出来之前,这个旋钮都在生效。

    技术上的实现也不复杂。Steering的核心是对比对(Contrast Pair)——让模型分别处理两个条件,比如”简洁回答”和”详细回答”,记录某一层激活值的差异,算出平均差值作为”简洁方向向量”。之后在正常的推理过程中,把这个向量加到对应层的激活值上,模型的输出就会不自觉地偏向简洁。

    提示词管的是输入,Steering管的是过程。前者是”请你这样做”,后者是”我帮你这样做”。每个token生成时都在施加影响,所以效果在整个输出中保持一致。

    为什么以前没流行起来

    Steering概念好是好,但有三个硬伤一直挡在前面。第一,它只适用于开源模型——你需要访问模型内部每一层的激活值,而OpenAI和Anthropic的API不可能给你这个权限。第二,以前做激活值分析需要搭建PyTorch + TransformerLens的完整环境,硬件起步就是A100。第三,大多数Steering能实现的效果,其实用提示词也能凑合达到,多花几行字就完事了。

    所以之前Steering基本是大厂实验室的自留地,Anthropic拿它做可解释性研究,学术界拿它写论文,一线开发者完全用不上。

    DeepSeek-V4-Flash + DwarfStar 4改变了什么

    两个关键因素。DeepSeek-V4-Flash本身就是一个针对推理效率优化过的模型,能在相对有限的显存上运行,同时保持了不错的推理质量。而DwarfStar 4是llama.cpp的一个分支,专门为特定模型系列加了激活值钩子,把”提取和注入激活值”这个操作简化到了几乎一条命令就能完成。

    这意味着什么?以前你需要一个有A100的实验室和一整套PyTorch环境,现在你只需要一张4090和几行命令就能跑完整个Steering实验的流程。门槛的降低是数量级的。

    能拿它干什么

    • 语气一致性:让模型在长对话中始终维持特定的语气和风格,不会漂移
    • 领域偏移:不用微调,就让模型的输出偏向金融、医疗或法律风格(但只影响表达框架,不影响事实准确性)
    • 安全防护:构建安全拒绝向量,在推理时注入作为轻量级护栏
    • 上下文压缩:把原本需要大量token描述的约束条件压缩成一个向量,省出上下文窗口

    不过也别太乐观。Sean Goedecke在他那篇广为流传的文章里提到,Steering目前还有明显的局限性:你很难精确理解一个激活值差异到底编码了什么信息,副效应可能出现在不相关的任务上,而且在一个领域构建的向量未必能迁移到另一个领域。


    从黑盒喊话到白盒调参

    Bagua AI的文章里有一个观点我觉得很到位:过去几年,行业一直在把LLM当黑盒,用提示词从外面”喊”它。Steering的复兴代表了一个转变——我们从外部喊话,变成从内部调参。这不仅仅是效率优化,而是机械可解释性(Mechanistic Interpretability)走向工业化应用的第一步。

    对实际做开发的团队来说,Steering目前最直接的价值在于替代那些越来越臃肿的系统提示词。与其花500个token约束模型行为,不如提取一个向量注入进去,既省上下文窗口又稳定。这个账,但凡做过复杂Agent系统的人都会算。

    竞争壁垒正在从”提示词工程”转向”理解内部表征”。谁能读懂模型的激活空间,谁就能更好地控制模型。这项技能在未来可能比写prompt值钱得多。

  • 英伟达2.6B小模型跑赢行业巨兽:单卡生成1分钟720p视频的世界模型来了

    前两天NVIDIA的NVLabs悄悄丢了个炸弹——SANA-WM,一个只有2.6B参数的开源世界模型,能在一块H100上生成720p、1分钟长的可控视频。你没有看错,一块卡,一分钟。

    SANA-WM吞吐量比开源基线高36倍,动作跟随准确率超过所有现有开源方案,视觉质量却跟大规模工业模型差不多。

    混合线性注意力:让长视频不再OOM

    做长视频生成最头疼的问题就是显存爆炸。标准DiT用的Softmax Attention是O(n²)复杂度,生成60秒视频(约1800帧)时,纯Softmax方案大概跑到15秒就OOM了。

    SANA-WM的解法很巧妙——混合线性注意力。帧与帧之间用Gated DeltaNet做线性依赖(O(n)复杂度),每隔几帧再插一次Softmax Attention保长程一致性。这样既控制了显存,又没丢掉全局关联。效果就是:别人OOM的时候,它还在稳稳生成。

    双分支相机控制:6自由度精确驾驭

    世界模型跟普通文生视频最大的区别在于可控性。SANA-WM支持6自由度(6-DoF)相机轨迹控制,输入一张静态图+相机运动路径,就能生成对应的漫游视频。它用双分支架构:粗粒度全局位姿分支理解相机大致走向,细粒度像素对齐几何分支精确到像素级的几何变化。这让生成的视频不只是像,而是准。

    两阶段生成 + 极致训练效率

    生成流程分两步:2.6B基础模型先出60秒原始视频,再由17B精炼网络提升纹理和运动质量。有意思的是训练效率——只用了21.3万条公开视频片段(带6-DoF标注),64张H100跑15天就完事。对比同行动辄256+卡跑几个月,这个数据效率相当亮眼。

    • 蒸馏版 + RTX 5090:60秒720p视频34秒出片
    • 吞吐量:开源基线的36倍
    • 动作跟随准确率:超越所有开源方案
    • 视觉质量:对标LingBot-World等工业基线

    世界模型 vs 文生视频:两条路的分歧

    Sora、Kling这些文生视频模型走的是文字驱动路线,控制力偏弱;SANA-WM这类世界模型走的是图像+轨迹驱动路线,控制力强、物理合理性高。说白了,文生视频像是给AI一段描述让它自由发挥,世界模型像是给AI一张照片和运动指令让它精确执行。

    应用场景也很明确:自动驾驶仿真、机器人训练、游戏内容生成、影视预可视化、建筑漫游……任何需要如果相机这样动,世界会怎样的场景,都是世界模型的主场。

    2.6B参数就能做到这个程度,开源社区该兴奋了。代码已在GitHub放出(NVlabs/Sana-WM),权重按CC BY-NC-SA 4.0许可即将发布。

  • 不依赖云端就能跑DeepSeek?这个Mac工具让AI回归本地

    跑AI模型基本等于把数据扔给云端服务器处理,你的文档、代码、聊天记录全在别人机器上过一遍。有个叫Osaurus的开源项目想换个玩法——把AI塞进你的Mac里,本地跑模型,数据不离开你的硬盘。

    Osaurus应用界面
    Osaurus在Mac上的运行界面

    一个前特斯拉工程师的执念

    Osaurus的创始人Terence Pae之前在特斯拉和Netflix做软件工程师。他的想法很直接:既然Mac有越来越强的芯片,为什么不能让AI直接在本地跑?这个项目从一个叫Dinoki的桌面AI伴侣进化而来,现在已经是一个完整的LLM服务器,支持本地和云端模型无缝切换。上线不到一年,下载量已经超过11万次。

    “去年本地AI连句子都写不完,但今天它能跑工具、写代码、访问浏览器、从亚马逊买东西。进步速度太快了。”——Terence Pae

    本地+云端,两不耽误

    Osaurus最实用的地方在于它不是非此即彼。你想跑DeepSeek V4、Gemma 4、Llama这些开源模型?本地来。你想用GPT、Claude、Gemini?连上云端API就行。所有记忆、文件、工具都留在你自己的硬件上。通过硬件隔离的虚拟沙箱来保证安全,数据不会被随便传走。

    它还有20多个原生插件——邮件、日历、浏览器、音乐、Git、文件系统、Excel、PPT这些都能直接操作。最近还加了语音功能。本质上它把自己定位成一个”AI控制层”,不管底层用什么模型,上层体验统一。

    硬件门槛和商业化方向

    门槛不算低——最低64GB内存,想跑大模型推荐128GB。不过Pae认为这个门槛会越来越低,因为”每瓦特能输出的智能”在快速提升,这条曲线的斜率甚至比GPU的摩尔定律还陡。

    竞争对手不少——Ollama、LM Studio、Msty都是这条赛道上的玩家。但Osaurus的差异在于它面向普通用户而非开发者,界面更友好。目前项目完全开源免费,团队在纽约的Alliance加速器里打磨产品,未来考虑切入法律和医疗这些对隐私要求极高的B2B场景。


    • Osaurus是Mac专属的开源LLM服务器,支持本地+云端模型切换
    • 创始人Terence Pae,前特斯拉和Netflix工程师
    • 上线近一年下载量超11万,20+原生插件
    • 最低硬件要求64GB内存,推荐128GB
    • 面向非开发者群体,计划切入法律/医疗等隐私敏感领域
    📎 原文来源:Osaurus brings both local and cloud AI models to your Mac (TechCrunch, Sarah Perez, 2026-05-15)
  • ComfyUI:106k Stars!节点式AI创作引擎,让图像生成像搭积木一样可控

    ComfyUI - 最强大的开源节点式生成式AI引擎

    用Stable Diffusion画图的人,大概分两派:一派用WebUI,图个省事;另一派用ComfyUI,追求极致控制力。

    我一开始也是WebUI用户,觉得节点式界面太复杂了。直到有一次我想做一个多步重绘+放大+色调调整的流水线,发现WebUI根本搞不定这种复杂工作流,才被硬推到了ComfyUI这边。

    结果上手之后回不去了 —— 这种节点式的工作流编排方式,一旦理解了逻辑,创作效率简直是质的飞跃。


    🚀 项目简介

    ComfyUI 是目前最强大的开源节点式生成式AI引擎,拥有 106k+ GitHub Stars。它通过可视化节点画布,让用户自由组合各类AI模型和操作,实现高度可定制、可控制的内容生成。不仅支持图像生成,还能处理视频、3D、音频等多种模态。


    ⚙️ 安装要求和过程

    📋 环境要求

    • 操作系统:Windows / macOS / Linux
    • Python 3.13(推荐)或 3.12
    • 显卡:NVIDIA(CUDA 13.0)/ AMD / Intel Arc / Apple Silicon(M系列)
    • PyTorch 2.4+
    • 浏览器:Chrome 143+(推荐)

    🚀 快速安装

    方式一:便携版(Windows,最简单)

    # 下载便携版压缩包,解压即用
    # 内置 Python 3.13 + PyTorch CUDA 13.0
    # 运行 run_nvidia_gpu.bat 即可启动

    方式二:手动安装(全平台)

    git clone https://github.com/comfyanonymous/ComfyUI.git
    cd ComfyUI
    pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu130
    pip install -r requirements.txt
    python main.py

    方式三:桌面版(Windows/macOS)

    # 从 comfy.org 下载桌面安装包
    # 支持一键安装,适合新手

    💡 核心功能

    • 🧩 节点式工作流:通过可视化节点画布自由编排AI生成流程,每个节点负责一个独立操作(加载模型、生成图像、调整尺寸等),灵活度和可控性远超传统UI
    • 🎨 多模态支持:不仅支持图像生成(文生图、图生图、局部重绘、画面外扩),还能处理视频生成、3D模型创建、音频合成等多种创作场景
    • 🔌 丰富的自定义节点生态:Comfy Hub 上有全球创作者分享的数千个工作流和节点插件,一键导入即可使用,持续扩展能力边界
    • 🤖 AI Agent集成:支持本地ComfyUI服务器集成、Comfy Cloud API调用和MCP Server对接,可以与Claude、Cursor等AI智能体打通
    • ⚡ 高性能推理:原生支持最新开源SOTA模型,API节点可接入闭源模型,推理速度快,内存占用低

    ComfyUI 节点工作流界面


    📦 典型使用场景

    🎨 场景1:AI绘画创作

    设计师和插画师用ComfyUI构建个性化图像生成流水线 —— 从线稿上色、风格迁移到批量生成设计稿,一个工作流搞定全流程。相比传统绘图软件,效率提升数倍。

    🎬 场景2:AI视频与3D制作

    内容创作者利用ComfyUI的视频生成节点和3D模型节点,制作短视频素材、产品展示动画、虚拟场景等。节点式编排让复杂的多步视频处理变得可追溯、可复现。

    🏭 场景3:企业级批量生产

    电商团队用ComfyUI搭建商品图自动化工作流:批量换背景、批量生成不同风格的Banner、批量处理产品照片。工作流可保存复用,一次搭建持续受益。


    ⭐ 推荐理由

    说真的,ComfyUI的门槛确实比WebUI高一些,但这个”高”是值得的。

    我最喜欢的是它的可复现性 —— 每个工作流都是一个完整的生成配方,别人拿到你的工作流文件就能一模一样地复现结果。这在团队协作中太重要了,不用再”调参数调到手抽筋还说不清楚用了什么设置”。

    而且ComfyUI的社区生态非常活跃,Comfy Hub上各种神仙工作流应有尽有。不会搭工作流?直接下载别人的改一改就行。这就好比从”自己写代码”进化到了”调用开源库”。

    最近ComfyUI还加入了AI Agent集成能力,支持MCP协议,这意味着你可以让Claude、GPT这些AI智能体直接帮你设计和调整工作流。AI时代的生产力工具,ComfyUI算是把”可控性”做到了极致。


    📧 下载地址

  • Firecrawl:120k Stars!让AI轻松抓取任意网页的利器

    Firecrawl - Web数据API for AI

    你有没有遇到过这种情况:想用AI分析某个网站的内容,结果发现爬虫根本抓不到数据,要么是JavaScript渲染的SPA页面,要么就是被反爬虫拦住了?

    我之前做竞品调研的时候,就经常被这个问题困扰。传统爬虫要么需要配置代理,要么需要手动处理各种反爬机制,光是数据清洗就占了大半天时间。

    直到我发现了 Firecrawl —— 这是一个专门为AI时代打造的网页数据抓取工具,它可以轻松把任何网站转换成LLM-ready的格式。


    🚀 项目简介

    Firecrawl 是一款开源的 Web 数据抓取 API,能够将任何网站转换为干净的 Markdown 或结构化数据,特别适合 AI Agent 和 LLM 应用使用。项目已获得 120k+ GitHub Stars,被 Apple、Shopify、Canva、Replit 等知名企业信赖使用。


    ⚙️ 安装要求和过程

    📋 环境要求

    • Python 3.8+ / Node.js 18+ / Go / Rust / Java
    • Docker(可选,用于本地部署)
    • API Key(可从 firecrawl.dev 免费获取)

    🚀 快速安装

    通过 pip 安装 Python SDK:

    pip install firecrawl-py

    或者使用 npm:

    npm install firecrawl-py

    Docker 本地部署:

    docker pull mendableai/firecrawl
    docker run -p 3002:3002 mendableai/firecrawl

    💡 核心功能

    • 🔍 智能搜索:输入关键词,直接返回包含完整内容的搜索结果,无需二次抓取
    • 📄 专业抓取:将任意网页转换为干净的 Markdown、JSON 或 HTML,自动处理 JavaScript 渲染
    • 🗺️ 站点映射:生成网站结构地图,快速了解站点架构
    • 🔗 智能爬取:从起始 URL 自动追踪链接,爬取整个站点,支持深度限制
    • 💬 页面交互:支持点击、滚动、输入、截图等操作,可与页面动态交互

    📦 典型使用场景

    🔬 场景1:AI 研究助手

    让 AI 代理自动搜索和抓取最新论文、新闻、行业报告,汇总成结构化的研究报告。

    📊 场景2:竞品情报监控

    自动监控竞品官网、定价页面、产品更新,抓取关键信息用于市场分析和决策支持。

    🤖 场景3:RAG 应用数据源

    为 RAG(检索增强生成)应用提供实时、准确的网页数据源,提升 AI 回答的质量。


    ⭐ 推荐理由

    说实话,用了 Firecrawl 之后,我做竞品调研的效率至少提升了三倍。以前需要花半天时间手动抓取和清洗的数据,现在几行代码就能搞定。

    最让我惊喜的是它的 JavaScript 渲染能力 —— 以前那些用 React/Vue 写的 SPA 页面,传统爬虫根本拿它没办法,现在只要一个 API 调用就能搞定。而且输出格式非常干净,几乎不需要额外清洗。

    配合 MCP 服务器使用效果更佳,可以直接在 Cursor、Claude 这些 AI 工具里调用 Firecrawl,真正实现”让 AI 替你上网搜资料”。


    📧 下载地址

  • DeepSeek V4 发布:1.6万亿参数开源,百万上下文成标配,价格比 GPT-4 便宜70倍

    DeepSeek 这次真的把天花板给顶破了。4月24日,他们正式发布 DeepSeek-V4 预览版,同步全量开源,上线 Hugging Face 和 ModelScope,附带580G 开源权重。消息一出,资本市场立刻有了反应——SMIC 和华虹半导体在香港双双大涨。

    1M 上下文,标配了

    V4 系列最直观的升级是上下文窗口直接拉到100万 token,所有官方服务默认配置。用大白话讲,就是你扔给它一部长篇小说让它分析,它一口气全吞下去,中间不需要你翻页或者重新喂。

    但这还不是最厉害的。他们搞了一套 Token-wise 压缩加上 DSA 稀疏注意力机制,推理时的 FLOPs 直接降低了73%,KV 缓存大小减少了90%。说白了,不是粗暴地堆算力,而是在工程层面做了精细优化。

    DeepSeek V4
    DeepSeek-V4 发布,百万上下文成标配

    两个版本怎么选?

    V4-Pro 总参数1.6万亿,激活参数490亿,性能定位是”开源最强、接近顶级闭源”。内部员工体验说比 Sonnet 4.5 强,交付质量接近 Opus 4.6 的非思考模式。API 价格做到了 GPT-4 的七十分之一,每百万 token 输入0.14美元、输出3.48美元。

    V4-Flash 走的是经济路线,2840亿总参数、130亿激活参数,API 价格低到离谱——输入每百万 token 只要3美分,比 Claude Opus 4.7 便宜99%以上。简单任务用它完全够用,高难度任务建议开思考模式、强度拉满。

    国产算力这波秀肌肉

    更值得关注的是 DeepSeek V4 对国产算力的适配程度。官方数据显示,在华为昇腾 950PR 上推理速度比 V3 版本快了整整35倍,能耗还降低了40%。他们还适配了寒武纪芯片,MXFP4 低精度格式降低了对 NVIDIA CUDA 生态的依赖。

    这意味着什么?DeepSeek 不再只是”开源模型里很强”,而是真正在国产硬件上跑出了能打的体验。对国内企业来说,部署成本和使用门槛都在大幅下降。开源协议用的是 MIT,完全开放商用。


    DeepSeek V4 把百万上下文、开源和低成本三个事情同时做到位了。开源社区等了这么久的东西,终于来了。

  • Open WebUI:127k Stars!为Ollama打造的终极Web界面

    Open WebUI Banner

    如果你在用 Ollama 运行本地大模型,肯定知道自带的命令行事先张扬地”反人类”。每次想切换模型、调参数、看历史记录,都要折腾一堆命令行操作。Open WebUI 就是来解决这个问题的——给你一个漂漂亮亮的 Web 界面,把 Ollama 的能力全部释放出来。


    🚀 项目简介

    Open WebUI 是一个功能强大、可高度自定义的自托管 AI 交互界面,GitHub 已获得 127k+ Stars。它最初是 Ollama 的 Web UI,现在已经发展成支持 Ollama、OpenAI API、Claude 等多种后端的通用 AI 界面平台。核心理念是让每个人都能轻松地与本地或云端大模型交互,完全离线运行,数据自主可控。

    Open WebUI 演示界面


    ⚙️ 安装要求

    硬件要求

    • CPU:支持 AVX 指令集的现代处理器
    • 内存:取决于使用的模型(建议 8GB+)
    • 磁盘:10GB+(用于存储应用和数据)

    软件依赖

    • Docker(推荐)
    • 或 Python 3.11+
    • 浏览器(Chrome / Edge / Firefox)

    快速安装(Docker 方式,最简单)

    docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

    启动后访问 http://localhost:3000

    快速安装(pip 方式)

    pip install open-webui
    open-webui serve

    启动后访问 http://localhost:8080


    💡 核心功能

    • 🤖 多后端支持:支持 Ollama、OpenAI API、Claude、vLLM 等多种模型后端,一个界面管理所有模型
    • 📚 RAG 知识库:内置 RAG 功能,可以上传文档构建私有知识库,让 AI 基于自有资料回答问题
    • 🧩 插件系统:支持插件扩展,可按需安装功能插件,满足个性化需求
    • 🔧 工具调用:支持 Tool Calling,可以调用外部工具完成复杂任务
    • 📝 上下文管理:智能管理对话上下文,优化长对话体验,支持对话历史管理和标签分类

    📦 典型使用场景

    🎯 场景一:本地 Ollama 模型可视化交互

    安装 Ollama 后拉取任意模型(Llama 3、Qwen、Mistral 等),通过 Open WebUI 的友好界面进行对话、切换模型、调整参数。完全本地运行,隐私无忧。

    🎯 场景二:企业私有知识库问答

    上传公司内部文档到 RAG 系统,构建专属知识库。员工通过对话形式查询制度、文档、数据,AI 精准基于自有资料回答,无需接触外部服务。

    🎯 场景三:团队共享 AI 助手

    部署在内网服务器上,团队成员通过浏览器访问同一个 AI 界面。可以连接多个模型后端,按需切换,适合开发和测试场景。


    ⭐ 推荐理由

    我之前一直用命令行跑 Ollama,每次调模型都要记一堆参数。用上 Open WebUI 之后,体验直接提升了好几个档次。界面简洁好看,功能也很全面,RAG、插件、多后端支持这些都用得上。

    最关键的是完全开源、可以自托管,数据不离开自己的服务器。对于企业用户来说,这个优势很明显——既能用上 AI 能力,又不用担心数据泄露问题。

    如果你在用 Ollama 或者想搭建本地 AI 界面,Open WebUI 绝对值得一试。


    📧 下载地址

  • agentmemory:让AI编程代理拥有持久记忆的神器

    agentmemory:让AI编程代理拥有持久记忆的神器

    agentmemory

    说实话,用Claude Code或Cursor写代码时,最头疼的就是每次开新会话都要重新解释项目结构、代码规范和之前的决策。CLAUDE.md写满了又容易过时,这个痛点真的太普遍了。

    直到我发现了agentmemory——这是一个专门为AI编程代理打造的持久记忆系统,能自动记住一切,彻底告别重复解释。


    🎯 项目简介

    agentmemory是GitHub上排名第一的AI编程代理持久记忆工具,基于真实基准测试构建。它能 silently 捕获编程代理的所有操作,将其压缩成可搜索的记忆,在下次会话时自动注入正确的上下文。

    目前狂揽 5.9k+ Stars,今日增长超过1000 Stars,堪称年度黑马项目!


    ⚙️ 安装要求和过程

    快速开始(30秒上手):

    1. 终端1:启动记忆服务器
      npx @agentmemory/agentmemory
    2. 终端2:体验演示
      npx @agentmemory/agentmemory demo
    3. 打开 http://localhost:3113 查看实时记忆构建过程

    👍 Claude Code 用户

    一行命令搞定:

    /plugin marketplace add rohitg00/agentmemory

    /plugin install agentmemory

    👨‍💻 其他代理(Cursor/Cline/Windsurf等)

    在MCP配置中添加:

    {
      "mcpServers": {
        "agentmemory": {
          "command": "npx",
          "args": ["-y", "@agentmemory/mcp"]
        }
      }
    }

    💡 核心功能

    • 🔍 智能检索:BM25 + 向量 + 知识图谱三路混合搜索,R@5准确率达95.2%
    • 💾 4层记忆架构:Working → Episodic → Semantic → Procedural,类比人类记忆的运作方式
    • 📌 自动捕获:12个hooks自动记录所有操作,零手动操作
    • 🔒 隐私优先:API密钥、私有标签在存储前自动剥离
    • 📈 极低成本:年省约170K tokens,年成本仅$10(用本地embeddings可降到$0)

    🖥️ 典型使用场景

    📈 场景1:长期项目维护

    当你要维护一个半年前的项目时,agentmemory能自动回忆:

    • 之前为什么选择这个技术方案
    • 哪些文件被频繁修改及原因
    • 代码规范和架构决策

    👥 场景2:团队协作

    多个开发者使用同一项目,agentmemory支持命名空间隔离的团队记忆,共享知识同时保留个人偏好。

    🔋 场景3:复杂调试

    遇到之前解决过的类似bug?记忆系统能追溯到原始观察,帮你快速定位。


    ⭐ 推荐理由

    用了快一个月了,最直观的感受是:每次开新会话,Claude真的能“想起来”上次在做什么。调试效率提升明显,因为不再需要反复解释项目背景。

    最让我惊喜的是隐私保护——它会自动过滤敏感信息,这点对于企业项目非常重要。

    另外,完全零外部依赖(仅需SQLite),安装和迁移都很轻量。


    📥 下载地址

  • 中国AI编码模型打破”落后6-9个月”框架:开源权重+低成本改写全球格局

    说实话,当我看到2026年4月这波中国AI编码模型的密集发布时,第一反应是:那个”中国AI落后6-9个月”的老框架,真的该扔进历史垃圾桶了。

    12天,4家实验室,一场静悄悄的能力赶超

    从4月底到5月初,短短12天里,4家中国AI实验室接连发布了各自的最新编码模型,而且全部是开源权重。这可不是小打小闹的demo,而是实打实能打的工程级模型:

    • Z.ai的GLM-5.1
    • MiniMax的M2.7
    • Moonshot的Kimi K2.6
    • DeepSeek的V4

    最关键的是,它们在SWE-Bench Pro这个权威编码基准上的得分全部落在56-59分区间——什么概念?这个得分已经和西方前沿模型持平了。

    价格才是真正的杀手锏

    如果能力持平还不够震撼,那成本数据绝对让你倒吸一口凉气:这4款模型的推理成本,最高不超过Claude Opus 4.7的三分之一

    我觉得这里有个被很多人忽略的逻辑:AI能力如果可以低价获取,那么”前沿模型的护城河”到底在哪里?如果Kimi K2.6或者DeepSeek V4能以1/3的价格做到Opus 4.7差不多的事情,那企业采购决策会不会悄然生变?

    这不是简单的性价比问题,而是整个AI供应链的话语权在转移。

    “落后6-9个月”为什么不成立?

    State of AI报告里有一句话我很认同:”中国落后6-9个月”的旧框架在智能体编码领域已不成立

    NIST的CAISI评估显示,DeepSeek V4的跨域基准综合表现落后美国前沿约8个月,但DeepSeek自己的模型卡显示V4-Pro与Opus 4.6、GPT-5.4持平。两个结论都是对的——只不过评估的维度和基准不同而已。

    这其实揭示了一个更深的真相:AI能力的比较,已经不再是单一时间轴上的先后问题,而是评估者、支架工程、基准设计的综合博弈。当多个最优模型来自中国且为开源权重时,”追赶者”这个标签就已经失效了。

    开源权重:中国AI的”农村包围城市”?

    还有一个细节值得琢磨:这4款模型全部开源权重。我觉得这不是巧合,而是一种极其聪明的战略选择。

    开源意味着什么?意味着全球开发者可以本地部署、可以微调、可以嵌入自己的产品而不用看任何人的脸色。当西方实验室还在纠结”该不该开源”的时候,中国实验室已经用开源完成了全球开发者生态的布局。

    Kimi K2.6发布时展示了一个12小时连续工具使用轨迹,演示了将推理引擎移植到Zig的完整过程——这种”晒能力”的方式本身就很有说服力,比发一篇论文直观多了。

    这件事的真正影响可能还没显现

    我觉得现在讨论”中国AI是否赶超”还为时尚早,但有一个趋势已经很清晰了:在整个AI领域最具经济影响力的能力(编码和智能体工程)上,多个最优模型来自中国且为开源权重,这件事的长期影响可能被严重低估了。

    企业采购、开发者工具链、云服务定价、甚至AI安全的研究议程——所有这些都将因为这个变化而重新调整。我不是在说”中国AI已经全面领先”,而是说”全面落后”这个叙事已经失去了事实基础。


    参考资料:State of AI: May 2026, Air Street Press

  • TradingAgents:用多智能体协作做金融交易决策,GitHub 7.3万星

    TradingAgents:用多智能体协作做金融交易决策,GitHub 7.3万星

    TradingAgents架构图

    📋 项目简介

    TradingAgents 是一个多智能体LLM金融交易框架,模拟真实交易公司的运作方式——部署基本面分析师、情绪分析师、技术分析师、交易员和风控团队等多个专业AI智能体,通过协作讨论来评估市场状况并做出交易决策。

    项目目前在GitHub上已获得 73,887 ⭐,本周新增 7,259 颗星,热度持续攀升中!🔥

    🛠️ 安装要求和过程

    环境要求

    • Python 3.10+
    • 至少一个LLM API密钥(OpenAI / Google / Anthropic / DeepSeek / Ollama等均可)
    • Alpha Vantage API密钥(用于获取市场数据,免费注册即可)

    快速安装

    # 克隆仓库
    git clone https://github.com/TauricResearch/TradingAgents.git
    cd TradingAgents
    
    # 创建虚拟环境
    conda create -n tradingagents python=3.13
    conda activate tradingagents
    
    # 安装依赖
    pip install .
    
    # 设置API密钥
    export OPENAI_API_KEY=your_key_here
    export ALPHA_VANTAGE_API_KEY=your_key_here
    
    # 启动交互式CLI
    tradingagents

    🐳 Docker用户:

    cp .env.example .env  # 填入你的API密钥
    docker compose run --rm tradingagents

    如果想用本地模型(Ollama),还可以:

    docker compose --profile ollama run --rm tradingagents-ollama

    ⚡ 核心功能

    1. 🧠 多智能体协作架构:模拟真实交易公司的团队分工,包括基本面分析师、情绪分析师、新闻分析师、技术分析师、看涨/看跌研究员、交易员、风控团队和投资组合经理,共8大角色协同工作。
    2. 🤖 多LLM支持:兼容OpenAI、Google Gemini、Anthropic Claude、xAI Grok、DeepSeek、Qwen、GLM、MiniMax、OpenRouter,还支持Ollama本地部署和Azure OpenAI等企业级方案。
    3. 💾 持久化决策日志:记录历史决策和收益表现,让智能体从过去的经验中学习,越用越聪明。
    4. 🔄 断点续跑:运行中断后可从上次成功步骤恢复,不怕意外崩溃丢失进度。
    5. 📊 交互式CLI:通过命令行界面选择股票代码、日期、LLM模型和研究深度,操作简单直观。

    🎯 典型使用场景

    1. 📈 个人投资研究助手:我平时关注几只科技股,用TradingAgents可以让多个AI分析师从不同角度评估一只股票——基本面、技术面、市场情绪一次性看全,比我自己翻研报效率高太多了。比如分析NVDA,它会自动调用基本面数据、近期新闻、Reddit讨论,然后给出综合判断。
    2. 🏫 金融AI研究实验:项目附带了学术论文(arXiv:2412.20138),如果你在做LLM+金融方向的研究,可以直接基于这个框架做对比实验、消融实验,代码结构清晰,改起来很方便。
    3. 🎓 量化交易学习与实践:想入门量化交易但又不想从零搭建系统的同学,TradingAgents提供了一个完整的端到端框架。从数据获取、多维度分析到交易决策和风控,全流程覆盖,而且支持DeepSeek、Ollama等本地模型,零成本就能跑起来。

    💡 推荐理由

    说实话,我试用过不少AI交易工具,但大部分要么太简单(单模型单任务),要么太黑盒(不知道AI为什么这样决策)。TradingAgents不一样——它的多智能体辩论机制让我印象深刻。看涨研究员和看跌研究员会针对同一只股票展开辩论,最终由交易员综合双方观点做出决策。这种机制比单一模型直接输出”买”或”卖”要透明得多,你清楚地知道决策背后的逻辑。

    另外,对国内用户很友好:支持DeepSeek、Qwen、GLM等国产模型,还区分了国内版和国际版的API密钥,Ollama本地部署也很丝滑。即使没有海外API,照样能用。

    ⚠️ 友情提醒:项目明确标注仅供研究用途,不构成投资建议。股市有风险,AI也有幻觉,千万别直接拿它的输出当交易信号。

    🔗 下载地址