标签: AI

  • Signal总裁警告:AI聊天机器人不是你的朋友

    你现在跟ChatGPT聊过天吗?问它拿主意、让它帮你写邮件、甚至把它当树洞说心事?这没什么稀奇的,越来越多人把AI聊天机器人当成了某种”数字朋友”。但Signal的总裁Meredith Whittaker最近给出一个很直白的警告:它们不是你的朋友。

    它们没有意识,也不是你的对话者

    Whittaker在接受Bloomberg采访时被问到ChatGPT和Claude这类聊天机器人的隐私问题时,她的回答相当犀利:”它们不是你的朋友,不是有意识的生物体,也不是有感知的对话者。”

    这话听起来有点冷酷,但她的逻辑很清晰。AI聊天机器人本质上是在”平均化”互联网上已经存在的内容——它给出的每个回答,都是基于训练数据里海量文本的统计分析,而不是它自己”想”出来的。如果你让AI替你思考,你自己的思维过程就被截断了。

    AI聊天机器人隐私警示
    AI聊天机器人便利的背后,是隐私让渡的代价

    她自己几乎不用AI来”帮忙思考”。她说:”我很认真地对待自己的思考和写作,不希望把一个想法推演的过程,被一个把网上已有内容做了平均化的系统的回答给截断或遮蔽掉。”

    微软Copilot的”圣诞购物”场景吓到人了

    真正让人警惕的,是AI公司自己描绘的”未来场景”。微软AI CEO Mustafa Suleyman最近预测,用户今年就能让Copilot全权负责圣诞购物——它会监听家庭群聊,判断每个亲戚想要什么,然后自动下单。

    Whittaker对此的回应是:这意味着你要给Copilot访问你信用卡的权限、访问浏览器的权限、访问你Signal消息的权限、替你给兄弟姐妹发消息的权限、你家庭住址的权限,还有你日历的权限。”你刚才描述的,是一个在多个应用和服务之间拥有极度广泛访问权的系统。”她说,”在Signal的语境下,这相当于一种后门。”

    这番话值得琢磨。AI公司不停告诉我们”让AI帮你做事”,但它们很少同时告诉你:要做到这一点,你需要把生活中几乎所有的数字权限都交给它。

    Signal的坚持:不跟风做AI”助手”

    Whittaker不是随便说说——她领导的Signal是目前少数几家坚决不往产品里塞AI”助手”的主流通讯应用。Signal的核心卖点就是端到端加密和隐私保护,往里面加一个需要把消息内容发给云端AI处理的”智能助手”,等于自废武功。

    这跟整个行业的风向形成了鲜明对比。WhatsApp已经加了AI助手,iMessage据传也在考虑类似功能。Signal的做法在商业上可能”不够聪明”,但Whittaker显然认为,有些底线不能破。


    说回开头那句话——AI不是你的朋友。这不代表你不能用它,而是说你得清醒地知道:你输入给它的每一句话,都在训练它、也在暴露你。把它当工具用,别把它当知己。

  • LangFlow:150K+Stars可视化AI工作流构建器,低代码开发AI应用首选

    LangFlow:150K+Stars可视化AI工作流构建器,低代码开发AI应用首选

    LangFlow可视化AI工作流构建器


    🚀 项目简介

    LangFlow 是一款150K+ Stars 的可视化AI工作流与智能体构建平台,提供拖拽式画布编排界面,支持所有主流大语言模型、向量数据库与AI工具。可将工作流一键部署为API或MCP服务器,大幅降低AI应用开发门槛。

    项目由LangFlow-AI团队维护,采用MIT开源许可,支持自托管与云端部署,是低代码开发AI应用的首选工具之一。


    ⚙️ 安装要求和过程

    环境要求

    • Python 3.10–3.14 版本
    • 推荐包管理器:uv(可选,也可用pip)
    • 可选:Docker 20.10+(容器化部署)

    快速安装步骤(本地部署推荐)

    1. 安装依赖:确保已安装Python 3.10+和uv包管理器
    2. 安装LangFlow:运行 uv pip install langflow -U
    3. 启动服务:运行 uv run langflow run
    4. 访问使用:打开浏览器访问 http://127.0.0.1:7860 即可开始编排工作流

    👍 其他部署方式

    • 桌面版:下载LangFlow Desktop(支持Windows/macOS),无需管理Python环境,开箱即用
    • Docker部署:运行 docker run -p 7860:7860 langflowai/langflow:latest
    • 源码运行:克隆仓库后运行 make run_cli

    💡 核心功能

    • 🎨 可视化拖拽编排:提供直观的画布界面,无需编写代码即可快速搭建AI工作流与智能体,支持实时迭代调试
    • 🔧 全栈自定义能力:所有组件均开放Python源码,支持自定义组件逻辑,满足复杂业务需求
    • 🚀 一键部署集成:可将工作流直接部署为REST API,或导出为MCP服务器,无缝集成到各类应用与AI框架中
    • 🤖 多智能体编排:支持对话管理、检索增强与多智能体协作,可构建复杂的企业级AI应用
    • 📊 可观测性集成:原生支持LangSmith、LangFuse等可观测性工具,实时监控工作流运行状态

    📦 典型使用场景

    📈 场景1:快速AI原型开发

    通过拖拽组件快速搭建RAG问答、内容生成、数据分析等AI应用原型,无需编写后端代码,大幅缩短开发周期。

    📈 场景2:企业级AI工具部署

    将内部业务工作流封装为MCP服务器或API,供企业内部系统与AI智能体调用,实现业务流程自动化。

    📈 场景3:低代码AI教学演示

    通过可视化界面演示AI工作流原理,适合教学、技术分享场景,降低AI应用的理解门槛。


    ⭐ 推荐理由

    作为AI应用开发者,LangFlow最大的优势是平衡了低代码易用性与高度自定义能力:新手可以通过拖拽快速上手,资深开发者可以通过Python自定义组件实现复杂逻辑,无需被平台绑定。

    另外,原生支持MCP协议是一大亮点,可将工作流直接转化为AI智能体可调用的工具,完美适配当前的AI智能体开发潮流。社区活跃度极高,150K+ Stars与近万Fork数量保证了项目的长期维护与生态扩展能力。


    📥 下载地址

  • 挪威对AI进课堂说不了:6-13岁禁用,17岁以上才让学

    挪威政府这周出了一个政策,简单说就是:小学生别碰AI,初中生老师看着用,高中生才能正经学。这套分层管理的思路,在全球范围内算是相当明确了,生效时间是今年8月。

    挪威AI教育政策
    挪威对AI进课堂祭出分层管理(插图:AI生成)

    具体怎么分的?6到13岁(一年级到七年级)原则上不让用AI;14到16岁(初中)可以在老师监督下”谨慎地”用;17到19岁(高中)的目标是把AI用对、用好,为以后上大学或工作做准备。

    为什么是挪威先动手

    挪威这个决定,背景其实很清晰。过去一年,生成式AI在青少年群体里的渗透率疯涨,ChatGPT、Claude、Gemini,随便一个手机就能用。学校这边,老师们的心态也很分裂——有人当成教学辅助工具,有人坚决抵制,觉得学生在用AI写作业、写作文,根本不是在学东西。

    挪威教育部的判断是:年龄太小的孩子,认知能力还没发展到能分辨AI生成内容的好坏,更别说理解AI的局限性了。这个阶段盲目引入AI,弊大于利。等到初中,可以在特定场景下用,比如辅助查找资料、整理思路,但必须有老师在场。到了高中,学生已经具备一定的批判性思维,这时候学的是”怎么用好AI”,而不是”怎么被AI替代”。

    挪威的政策核心不是”禁”,而是”分级管控”。它承认AI是未来必备技能,但前提是你得先学会不用AI也能把事情做对。

    别的国家在干嘛

    挪威不是第一个碰这个问题的国家,但可能是第一个给出如此明确年龄分层的。法国之前禁过ChatGPT,后来又松口了;美国有些学区全面封杀AI工具,有些则鼓励老师把它纳进课程设计;中国这边,”双减”之后对教育科技监管整体趋严,AI进课堂的口子也没完全放开。

    欧盟的《AI法案》里,对教育场景下的AI使用也有专门条款,要求是”高风险”应用必须经过严格评估。挪威作为欧盟经济区成员,这套政策某种程度上也是在给欧盟其他成员国探路。

    老师和家长的真实反应

    政策出来之后,挪威本地的反应挺值得玩味。有老师觉得,终于有个明确说法了,之前是各搞各的,有的班级AI用得飞起,有的班级连提都不让提,学生之间也不公平。现在有个国家标准,至少大家在同一套规则下跑。

    但也有人担心执行问题。14到16岁”在老师监督下使用”,监督的边界在哪里?是用AI辅助教学,还是老师得盯着每个学生的屏幕?这些细节,政策文件里还没说清楚。而且,挪威的数字化程度本来就很高,孩子们在家用AI,学校禁止,这种”校内校外两重天”的情况,怎么处理?


    说到底,挪威这套政策反映的是一个更普遍的焦虑:AI来得太多快,教育和监管都还没想清楚该怎么接。完全禁止不现实,放开了又怕害了孩子。挪威选了一条中间路线,至于效果好不好,得等几个学期之后才看得出来。

    对其他国家来说,挪威这个”试验”值得盯着看。如果效果好,大概率会被拿来当模板;如果搞砸了,那就成了反面教材。

  • DeepMind诺奖得主跳槽Anthropic,Google的AI人才防线崩了?

    6月20日,一条消息在AI圈炸了锅——2024年诺贝尔化学奖得主John Jumper在X上宣布,离开工作了近9年的Google DeepMind,加入对手Anthropic。

    John Jumper加入Anthropic
    2024年诺贝尔化学奖得主John Jumper从DeepMind跳槽至Anthropic(插图:AI生成)

    Jumper在X上说,DeepMind CEO Demis Hassabis在他博士毕业仅6个月的时候就敢让他领导AlphaFold团队,这确实冒了很大的风险。过去这些年,整个GDM团队教会了他”如何做伟大的科学”。他还特意补了一句:GDM是个特别的地方,我仍然会兴奋地关注他们接下来会有什么惊人的发现。

    AlphaFold到底有多厉害

    说Jumper是AI领域最炙手可热的人物之一,一点不夸张。2024年,他和Hassabis一起拿了诺贝尔化学奖——理由是他们开发的AlphaFold,用AI预测蛋白质三维结构,直接把一个困扰生物学界几十年的难题给破了。

    蛋白质的3D结构决定了它的功能,传统方法要用X射线晶体学,动辄几个月甚至几年。AlphaFold把这个过程压缩到了几天,而且准确率惊人。这个成果开源之后,全世界的生物学家都在用,药企也在用它加速新药研发。Jumper就是这个世界级突破的核心推手。

    蛋白质结构预测精度的提升,意味着我们能更快地理解疾病机制、设计靶向药物。Jumper的离开,对DeepMind来说是个不小的损失。

    一周之内,两个人走了

    Jumper的离开并不是孤立事件。就在这周,Character AI的联合创始人Noam Shazeer也宣布离开DeepMind,不过他的目的地是OpenAI。

    Shazeer是什么来头?他在Google工作了20年,2024年Google花了27亿美元把他和一批研究员从Character AI”买”回来。结果才过了不到两年,他又走了,而且是去了OpenAI——Google最直接的竞争对手。

    Bloomberg的报道还透露了一个细节:Jumper在DeepMind后期,是Google开发AI编程工具的核心成员之一。而这个工具,Google到现在都没能成功地卖给企业用户。巧合的是,这正好是Anthropic的Claude在企业市场最强势的领域。

    Anthropic在攒什么局

    Anthropic这边的算盘其实挺明显的。公司成立以来,一直打着”安全AI”的旗号,但在顶尖研究人才上,跟Google DeepMind和OpenAI比还是有差距。现在把Jumper这样的诺贝尔奖得主揽入麾下,研究实力一下子就上了一个台阶。

    而且Jumper的专长——用AI解决科学问题——正好跟Anthropic最近发力的方向吻合。Claude在写代码、做研究这些”知识型任务”上本来就很强,如果有AlphaFold级别的科学AI能力加持,想象空间不小。


    这场AI人才大战,打到这个份上,已经不只是薪水或算力的比拼了。顶尖研究者想去的地方,是能做最前沿研究、能产生最大影响力的地方。DeepMind曾经是这个地方的代名词,但现在,Anthropic和OpenAI显然也在争夺这个位置。

    Jumper在X上的那条官宣帖子,发出没多久就引来了几千条回复。有人祝贺,有人感叹,也有人直接在评论区问:”所以AlphaFold的下一个版本会在Claude里跑吗?”

  • Google把AI翻译做到极致了:Gemini 3.5 Live Translate支持70+种语言实时互译

    Google把AI翻译做到极致了:Gemini 3.5 Live Translate支持70+种语言实时互译

    跨语言沟通一直是人类的梦想。从古代的翻译官,到现代的词典软件,再到AI翻译工具,我们一直在寻找能让人和人之间无障碍交流的方法。Google最早在2006年推出Google Translate,用机器学习做语言翻译。二十年过去,Google现在发布了Gemini 3.5 Live Translate,一个专门为实时语音到语音翻译设计的音频模型。

    Gemini 3.5 Live Translate是什么?

    简单说,它是一个能实时把一种语言翻译成另一种语言,并且用说话人自己的音色、语调、语速讲出来的AI模型。不是那种机械的合成音,而是听起来很像真人说话的翻译。

    Google说这个模型采用了一种”动态处理方式”。传统的轮流式翻译系统通常要等说话者说完后才开始翻译,这导致对话中经常出现尴尬的停顿。Gemini 3.5 Live Translate通过智能地平衡上下文优化与即时输出的需求,将翻译延迟控制在数秒内,减少了对话中的中断感。

    Gemini 3.5 Live Translate实时翻译展示
    Gemini 3.5 Live Translate实现低延迟实时语音互译

    70+种语言,保留说话人音色

    这个模型目前支持超过70种语言的自动识别和翻译。更重要的是,它不仅能生成自然流畅的翻译语音,还能精准还原说话者的语调、语速和音高特征。

    这意味着什么?如果你用英语说话,AI翻译成日语后,不是说日语的”AI机器人”,而是用你自己的”声音特点”说日语。听的人会觉得”哦,他虽然在说日语,但我能感觉到这是他在说话”。

    这种能力背后是Google在语音克隆和音色保留技术上的积累。当然,Google也说这个技术目前还在优化中,不是所有语言对都能做到完美的音色保留。


    低延迟实时翻译,让跨语言对话更自然

    实时翻译的最大挑战不是”翻译得准不准”,而是”翻译得快不快”。如果每次说话都要等三秒钟才能让对方听到翻译,那对话的流畅感就全毁了。

    Gemini 3.5 Live Translate的突破在于它能在”翻译质量”和”响应速度”之间找到平衡点。Google说它的延迟是”数秒内”,这意味着在实际对话中,你不会感觉到明显的卡顿。

    技术上,这得益于Gemini系列的强大多模态能力。它能同时处理音频输入、语义理解、跨语言转换、语音生成等多个步骤,而且是在一个端到端的模型中完成的,不需要把任务拆分成多个独立模块。


    应用场景——从国际会议到旅行沟通

    Google已经宣布把这个技术集成到Google Meet中。想象一下:一个视频会议,里面有说英语、中文、日语、西班牙语的参与者。每个人说自己的语言,其他人能实时听到用自己语言翻译的内容,而且延迟很低,对话能自然进行。

    除了会议场景,这个技术对旅行者也很有用。假如你去日本旅游,不会说日语,但有了支持Gemini 3.5 Live Translate的工具,你可以直接和餐厅服务员、出租车司机、酒店前台对话,AI会实时帮你翻译。

    当然,目前这个技术还在早期阶段。Google说它会逐步向更多用户开放,首先在Pixel设备和Android系统中上线,然后再推广到iOS和其他平台。

    AI翻译这几年进步很快。从最早的基于词典的逐词翻译,到神经机器翻译(NMT),再到现在的大语言模型驱动的实时语音互译,我们离《银河系漫游指南》里的”巴别鱼”(一种能实时翻译任何语言的生物)越来越近了。Gemini 3.5 Live Translate不一定是最完美的AI翻译工具,但它代表了这个领域的一个新里程碑。

  • iOS 27的AI藏在哪?苹果把这10个日常功能都悄悄升级了

    iOS 27的AI藏在哪?苹果把这10个日常功能都悄悄升级了

    WWDC 2026上,苹果把大部分舞台时间给了Siri AI重构和Apple Intelligence的宏大叙事。但如果你仔细翻翻iOS 27的更新列表,会发现苹果其实把AI藏在了你每天都会用到的那些小功能里。不是那种”我们革命性地重新定义了XX”的夸张宣传,而是润物细无声地让事情变得更顺手。

    Siri的彻底重构——从语音助手到AI代理

    这是iOS 27最重大的AI升级。Siri不再是那个偶尔用来设闹钟、查天气的语音助手了。苹果对其进行了2011年发布以来最彻底的重构,把它变成了一个真正意义上的AI代理。

    新Siri能理解屏幕上的当前上下文内容。比如你在微信聊天里提到周末要去某家餐厅,Siri能自动识别这个信息,主动问你要不要加到日历里,甚至帮你查那天的天气。

    更厉害的是跨应用搜索能力。Siri现在能搜索消息、相册、邮件、日历,然后把信息串联起来。你问”上周和老王讨论的那个项目进展怎么样了”,它能自动找到相关的消息记录、邮件往来、甚至Notes里记的会议要点,然后给你一个完整的摘要。

    跨设备连续性也是个亮点。在iPhone上和Siri的对话,切换到iPad或Mac上能无缝衔接,不会丢失上下文。这意味着可以在手机上开始一个复杂任务,然后在电脑上继续完成。

    当然,苹果没忘记自己的”隐私优先”策略。Siri的AI处理尽量在设备端完成,实在需要上云的,也是用私有云基础设施,而且承诺第三方审计。

    iOS 27 AI功能展示
    iOS 27的AI功能深度整合到日常应用中

    Apple Wallet的智能账单分割

    这个功能特别实用。iOS 27里的Apple Wallet可以用iPhone摄像头扫描收据,然后AI自动识别上面的每一项,计算出每个人应该分摊多少(包括税费和小费),然后直接通过Messages或Wallet完成还款。

    想象一下:聚餐后拿到收据,打开Wallet拍个照,勾选朋友吃了哪些菜,系统自动算出每个人的份额,然后直接发Apple Cash请求给每个人。整个过程不到一分钟。

    这个功能由Apple Intelligence驱动,背后是OCR(光学字符识别)和自然语言处理的结合。苹果说它最多能同时处理10个人的账单分割。


    iOS 27的AI修图功能

    苹果的AI修图工具这次终于追上了Android阵营。iOS 27带来了三个核心AI修图功能:

    • Clean Up(去路人):升级到了更强大的云端模型,能更精准地识别照片里不想要的元素,然后无缝移除。
    • Extend(扩展照片边缘):AI能自动”想象”照片边缘之外的场景,然后把照片向外扩展。
    • Spatial Reframing(空间重构):AI能模拟相机移动,重新构图。

    Apple Music的AI歌词翻译

    对于喜欢听外文歌的人,这个功能很贴心。iOS 27扩展了”Lyrics Translation”功能,新增支持法语、德语、意大利语、韩语、西班牙语、日语到英语的翻译。

    “Lyrics Pronunciation”功能更复杂。它能显示音译歌词(用拉丁字母标注非拉丁字母语言的发音),帮你唱对那些不会说的外语歌词。


    苹果做AI的方式,和OpenAI、Google不太一样。它不急于把AI包装成一个独立的”产品”,而是把它当成一种”能力”,悄悄注入到每天都在用的那些功能里。你不一定能感受到AI的存在,但会觉得”哎,这功能怎么突然变好用了?”

  • OpenHands:77.8K+ Stars,AI驱动的自动化软件开发平台

    OpenHands:77.8K+ Stars,AI驱动的自动化软件开发平台

    OpenHands - AI驱动的开发平台

    OpenHands:77.8K+ Stars,AI驱动的自动化软件开发平台

    ⭐ 77.8K+ Stars
    🐍 Python
    🔧 开源
    🏢 OpenHands社区

    📋 项目简介

    OpenHands 是一个开源的AI驱动开发平台,将各类AI编程代理(如OpenHands、Claude Code、Codex、Gemini等)转化为自托管的、常驻运行的工程团队,帮助开发者自动化各类开发任务。原名OpenDevin,已成为GitHub上最受欢迎的AI软件开发工具之一。

    🚀 核心功能

    🔌

    多后端支持

    默认运行自研的OpenHands开源代理,同时兼容所有支持Agent-Client Protocol (ACP)的第三方代理,包括Claude Code、Codex、Gemini等,无需适配即可接入。

    🔄

    灵活部署

    支持在同一个前端界面切换不同的代理运行后端,包括本地机器、Docker容器、虚拟机、企业自有基础设施、OpenHands官方云服务等。

    ⚙️

    自动化工作流

    支持创建定时任务、或响应Webhook事件的自动化流程,可集成Slack、GitHub、Linear、Notion等第三方工具。

    🤖

    模型兼容性强

    支持接入任意大语言模型(LLM),用户可以根据需求自主选择适配的模型,包括GPT、Claude、Gemini、DeepSeek等。

    🏠

    自托管能力

    默认在本地运行,也支持部署到云端服务器,代理可以在本地机器关闭后持续运行,方便对接第三方服务的触发请求。

    💻 安装要求和过程

    环境要求

    安装方式 前置要求
    无沙箱直接安装 Node.js 22.12.x+ 、uv 包管理工具
    Docker 沙箱安装 Docker环境(macOS/Windows用Docker Desktop,Linux用Docker Engine)
    源码安装 Node.js 22.12.x+ 、npmuv

    快速安装步骤

    方式一:无沙箱快速启动(适合本地测试)

    ⚠️ 注意:代理会直接访问本地文件系统

    npm install -g @openhands/agent-canvas
    agent-canvas

    也可以拆分启动前后端:

    • 仅启动前端:agent-canvas --frontend-only
    • 仅启动后端:agent-canvas --backend-only

    方式二:Docker 沙箱安装(更安全)

    ✅ 代理仅能访问挂载的项目目录

    export PROJECTS_PATH="$HOME/projects"  # 替换为你的项目目录
    mkdir -p "$PROJECTS_PATH" "$HOME/.openhands"
    
    docker run -it --rm   -p 8000:8000   -v "$HOME/.openhands:/home/openhands/.openhands"   -v "${PROJECTS_PATH}:/projects"   ghcr.io/openhands/agent-canvas:1.0.0-rc.11

    Windows用户可参考仓库内的 README.windows.md 获取对应命令。

    方式三:源码安装

    git clone https://github.com/OpenHands/agent-canvas.git
    cd agent-canvas
    npm install
    npm run dev

    🎉 启动后访问 http://localhost:8000 即可使用界面,也可以在界面内添加更多后端。

    🎯 典型使用场景

    场景一:日常开发任务自动化

    自动完成代码review依赖更新issue拆解等重复性工作,减少人工投入。例如:每晚自动检查依赖更新并创建PR,或自动review PR代码并给出建议。

    场景二:多环境代理管理

    团队共享云端代理处理公共任务,个人本地代理处理私有开发任务,在同一界面统一管控。例如:团队用云端代理处理CI/CD任务,开发者用本地代理进行私密项目开发。

    场景三:第三方工具联动

    GitHub收到新Issue时自动触发代理拆解任务,定时生成项目报告推送到Slack,实现开发流程自动化。支持与Slack、GitHub、Linear、Notion等工具集成。

    场景四:7×24小时任务运行

    部署到云端服务器后,代理可以在本地机器关闭后持续运行,满足异步任务、定时任务的需求。例如:每晚凌晨2点自动运行测试套件并生成报告。

    🏗️ 技术架构

    Agent Canvas整体由三部分组成,采用前后端分离的现代化架构设计:

    🎨 前端界面

    Agent Canvas 作为统一的管理入口,支持连接多个后端、创建自动化流程、管理代理任务。

    ⚙️ Agent Server

    REST API服务,负责在单台机器上运行多个代理,可通过 OpenHands/software-agent-sdk 扩展。

    🔄 Automation Server

    配合Agent Server使用,支持定时任务、事件触发类的自动化流程,源码位于 OpenHands/automation

    核心特点

    • 🔒 安全可控:支持Docker沙箱隔离,避免代理直接访问宿主机文件系统
    • 📈 高扩展性:兼容ACP协议的任意代理,支持任意LLM接入,第三方工具集成门槛低
    • 🚀 部署灵活:支持本地、Docker、虚拟机、云端、企业基础设施等多种部署方式
    • 🌐 开源生态:项目完全开源,配套完整的开发文档、贡献指南、社区支持

    💡 推荐理由

    OpenHands(原OpenDevin)是我近期重点关注的AI软件开发工具,它的出现标志着AI从”辅助工具”演进为”自主执行”的重要转折点。以下是我推荐它的几个核心理由:

    ✅ 完整的企业级功能

    不同于简单的AI编程助手,OpenHands提供了完整的工程化能力:多代理编排、定时任务、Webhook触发、第三方工具集成等。它可以真正成为你的”AI团队成员”,而不仅仅是代码补全工具。

    ✅ 灵活的部署选项

    支持从本地测试到企业级部署的全场景覆盖。Docker沙箱模式既保证了安全性,又保留了灵活性。对于关心数据隐私的团队,可以完全自托管,不依赖任何第三方服务。

    ✅ 开放的生态系统

    通过ACP协议,OpenHands可以无缝接入几乎所有主流AI编程工具(Claude Code、Codex、Gemini、DeepSeek等)。这种开放架构避免了供应商锁定,让你可以根据任务和预算灵活切换模型。

    ✅ 活跃的开源社区

    截至2026年6月,OpenHands已获得77.8K+ Stars,拥有活跃的贡献者社区。活跃的社区意味着丰富的插件、快速的问题响应和持续的功能迭代。

    💬 个人使用心得:OpenHands最适合有一定技术基础的开发者或团队。如果你是个人开发者,可以从无沙箱模式快速上手;如果是企业用户,建议使用Docker沙箱或云端部署。它的学习曲线略陡,但一旦掌握,能显著提升开发效率。

    ⚖️ 与同类工具对比

    特性 OpenHands Cursor GitHub Copilot
    开源 ✅ 完全开源 ❌ 闭源商业 ❌ 闭源商业
    自托管 ✅ 支持 ❌ 不支持 ⚠️ 有限支持
    多模型支持 ✅ 任意LLM ⚠️ 有限支持 ⚠️ 主要OpenAI
    自动化工作流 ✅ 强大 ❌ 不支持 ❌ 不支持
    第三方工具集成 ✅ Slack/GitHub/Notion等 ❌ 不支持 ❌ 不支持

    📥 下载地址

    🌐 官方网站

    https://openhands.dev
    产品介绍、云服务、文档入口

    📚 官方文档

    https://docs.openhands.dev
    安装指南、API文档、开发手册

    💻 GitHub仓库

    github.com/OpenHands/OpenHands
    源码、Issue、PR、社区讨论

    🐳 Docker镜像

    ghcr.io/openhands/agent-canvas
    容器化部署,一键启动

    📦 快速安装

    npm install -g @openhands/agent-canvas
    agent-canvas

    启动后访问 http://localhost:8000 开始使用

    🎬 结语

    OpenHands代表了AI辅助软件开发的新范式——从”代码补全”到”自主执行”。它不仅仅是一个编程助手,更是一个可以24/7工作的AI工程团队。无论你是个人开发者希望提升效率,还是企业团队需要自动化开发流程,OpenHands都值得一试。

    最重要的是,作为一个完全开源的项目,OpenHands避免了供应商锁定,让你可以完全掌控自己的开发工具链。在数据隐私日益重要的今天,这种自托管能力显得尤为珍贵。

    如果你对AI驱动的开发自动化感兴趣,不妨从本地测试模式开始,体验一下让AI成为你”工程团队成员”的感觉。🚀


    ⭐ 如果你觉得这篇文章对你有帮助,请在GitHub上给 OpenHands 点个Star!

    标签:
    #AI Agent ·
    #LLM ·
    #AI开源项目 ·
    #自动化

  • 你在AI模型里的”存在感”是多少?这个网站让你查自己在大模型里的分量

    你在AI模型里的”存在感”是多少?这个网站让你查自己在大模型里的分量

    你有没有试过在Google上搜自己的名字?以前这会让你看到自己的社交媒体、工作信息、也许还有一篇你忘了的多年前写的博客。但现在,越来越多的人发现:ChatGPT或者Gemini告诉他们关于自己的事情——而且有时候,那些事情是错的。

    两个前OpenAI员工Thomas Dimson和Joey Flynn(他们是在OpenAI收购他们的设计工作室Global Illumination时加入的)最近做了一个网站,叫In the Weights。这个网站干的事说起来有点滑稽:它帮你查,你在各个AI大模型里的”存在感”到底有多强。

    “权重”里的存在感,被量化成了一个分数

    这里的”权重”(weights)指的是AI模型训练完成之后,那些决定模型输出结果的数值参数。In the Weights网站宣称,它衡量的是”一个模型在不用网络搜索等工具的情况下,能多准确地回忆起某人”。

    具体做法是:向不同的模型(包括Grok、Gemini、多个版本的GPT、Claude,还有一些不太知名的模型)提问,问题类似于”某某是谁?给出最多10个结果,每个附一段简短描述和一个置信度。”然后网站把相似的描述聚类,给出一个”强度分数”。

    In the Weights网站界面
    像素风格的排行榜界面,灵感来自任天堂经典游戏

    《小鬼当家》主角居然排第一

    写这篇文章的时候,排行榜还在实时变动。目前排在第一位的是《小鬼当家》的主演Macaulay Culkin,强度分数988。歌剧演唱家Luciano Pavarotti紧随其后。这个排行榜本身就挺能说明问题的——哪些人”值得”被AI记住,似乎和名气、文化影响力有直接关系。

    本文原作者Anthony Ha的分数只有641,排在前6%。刚看到的时候还有点小得意,直到发现好几个同事的分数都比他高。当然,AI批评者Anthony Moser不客气地说,这玩意儿”本质上就是让13个聊天机器人告诉你关于你自己的事”。说得也没错。

    为什么有人在乎这个

    Dimson说,他做这个网站的灵感来自一个观察:2026年,在Google上搜自己已经不是那个”标准动作”了,越来越多的人从聊天机器人那里了解一个人。而”那么多人的生命,都以某种方式被编码进了AI大脑的浮点数字里”。

    他觉得,被AI”记住”这件事,触及了一个更深的焦虑——在AI越来越了解我们的时代,我们怎么确认自己还”存在”?把这个存在感量化成一个分数,放在一个像素风格的排行榜上,这本身就很2026年。


  • 《大西洋月刊》把AI训练用的音乐全扒出来了,你可以在线搜索

    《大西洋月刊》把AI训练用的音乐全扒出来了,你可以在线搜索

    用AI生成一段音乐,旋律听起来还挺像那么回事——但你知道这段旋律”学”过哪些歌吗?《大西洋月刊》的记者Alex Reisner最近干了一件事:他把AI音乐训练数据集扒了个底朝天,然后把结果做成了可以随便搜的公开数据库。

    1200万首歌,安静地躺在训练集里

    Reisner一共找到了四个数据集,其中两个大得离谱——一个里面有1200万条音轨,另一个有900万条。剩下两个小一些,但各自也有超过10万首歌。这些数据集在网上的下载量已经达到几千次,虽然没法精确知道是谁在用,但Google和Stability AI都已经在研究论文里承认,他们用过其中的数据。

    问题来了:这些歌是怎么进去的?有些来源——比如Free Music Archive——虽然允许个人免费试听,但商业使用是要授权的。更麻烦的是,其中三个数据集本质上是一堆YouTube或Spotify链接的列表。AI开发者用自动化工具把这些音频扒下来,而这些工具可以绕过登录、广告、以及本该给创作者带来收入的机制。这直接违反了平台的服务条款。

    AI音乐训练数据可视化
    AI训练数据的透明度问题日益受到关注

    Lady Gaga和Radiohead都在里面

    数据集里的名字读起来像一张超级音乐节阵容。Lady Gaga、Fred Again..、Radiohead、Aphex Twin、Wu-Tang Clan、Bruce Springsteen,还有实验音乐人Hainbach——都可能被塞进了某个AI模型的”记忆”里。你自己可以去《大西洋月刊》的”AI Watchdog”网站搜,看看你的歌或者你喜欢的音乐人是不是也在名单上。

    值得注意的是,这不只是音乐的问题。AI训练数据的来源透明度,已经成为整个行业绕不开的议题。你用的AI助手,可能”听过”你最喜欢的歌。

    为什么这件事很重要

    这背后的核心矛盾其实很简单:AI公司需要海量数据来训练模型,但音乐人(尤其是独立音乐人)并没有授权让自己的作品被这样使用。目前这事儿还处在法律的灰色地带,但随着AI音乐生成工具(比如Suno和Google的Lyria)越来越好用,版权诉讼只会越来越多。

    Reisner做的这个数据库,至少让”训练数据里到底有什么”这件事变得可以查证。透明度是第一步,接下来怎么走,还得看法庭和立法者怎么出牌。


  • AI 视频进入「可玩」阶段:阿里这套世界模型,把观众变成了主角

    过去一年,AI视频生成赛道卷得热闹,Sora、Runway、Pika们轮流登场,画面越做越精致。但用多了你会发现一个共性问题:它们都是「单程票」——你写一段描述,模型渲染出一段视频,生成完就完了,你只能看,不能跟画面里的世界互动。

    HappyOyster 1.0 世界模型交互演示
    HappyOyster 1.0:从「看视频」到「进世界」

    从「生成视频」到「生成世界」

    阿里 ATH 团队本周发布的 HappyOyster 1.0(快乐生蚝),做的不是一段好看的视频,而是一个完整可演绎、可探索、可互动的数字世界。画面生成出来的那一刻,体验才刚开始——你可以一边看一边下指令,世界实时反馈并持续演化。

    它主打两大模式。Adventure(世界探索)让你亲自下场当主角,用键盘操控角色在 AI 生成的世界里移动、跳跃、攻击;Directing(实时导演)让你站在世界之上当导演,用自然语言描述剧情,世界实时推演你想要的故事。

    “以前你是观众,现在你成了世界的主人。”

    世界模型到底特殊在哪?

    要理解 HappyOyster 的突破,得先搞清楚「文生视频」和「世界模型」的根本差异。文生视频做的是文本→视频的单向条件映射,你输入一段描述,模型一次性离线渲染出一段固定的像素序列,生成完就结束了。

    而世界模型学的则是当前状态 + 用户动作 → 下一个状态的转移规律。这就要求模型同时具备三重能力:物理规律的隐式建模、长程因果链路的追踪、外部干预的即时响应。画面里有什么,你就能玩什么——有马车自动解锁骑马,有汽车触发鸣笛和车灯。

    • 闭环世界状态建模:把世界状态压缩成「潜状态摘要」(Latent State),在生成链路上递归传递,支撑长程一致性。暂停、回溯、分支叙事,本质上都是在某个时间点把「摘要纸条」存一份副本。
    • 内生一致性:给每个角色、物品、场景元素都发了一张「身份卡」,不管镜头怎么切、角色怎么转身,模型每次生成新画面时都会对着身份卡检查,保证角色不变样不变形。
    • 开放因果动作空间:把动作指令和自然语言放进同一个语义接口,你说「骑上那匹马」,模型自己推演出上马的完整动作序列和马开始跑的物理反馈。
    • 长时序音视频协同:音频和视频在同一个世界状态下联合解码生成,不是先出画面再配音,脚步声跟着你走、攻击音效跟着动作来。

    一旦世界可交互,哪些行业会被改变?

    游戏行业可能是最快吃到螃蟹的。不用搭建庞大的美术资产库、配置复杂的物理引擎,给 HappyOyster 1.0 丢一张概念图,很快就能跑出一个具备物理反馈和 NPC 交互的可玩场景。剧情可以分叉出十条故事线,观众自己选走向——这可能催生一个全新的互动内容业态。

    文旅景区做虚拟漫游、博物馆做沉浸式历史还原、教育领域做可交互的历史场景重现……这些场景都可以用世界模型给用户带来全新的沉浸式体验。阿里这次不只是做产品,还在和南京大学共建世界模型评测基准——承担起定义赛道标准的责任。

    现在 HappyOyster 1.0 已经正式上线,用手机号注册就能玩。API 也计划在近期开放。以后谁还满足于只视频啊——大家都想亲自进到世界里去。

    📎 原文来源:量子位 | 阿里 ATH 团队发布 HappyOyster 1.0