博客

  • 我们试了谷歌的AI眼镜,已经很接近理想状态了

    在今年的谷歌I/O开发者大会上,我们有机会短暂体验了谷歌即将推出的AI眼镜——不是该公司宣布将于今年秋季发售的仅支持音频的眼镜,而是同时提供音频和视觉体验的版本。

    这些Android XR眼镜在去年的大会上首次公布,其镜片内置显示屏,可将实用信息叠加在真实世界之上,直接呈现在用户视野中。这包括可显示天气、步行导航、Uber接驾信息、实时翻译等内容的小组件,甚至是用户自己用AI设计的自定义小组件。

    谷歌Android XR AI眼镜
    谷歌Android XR AI眼镜 (来源:TechCrunch)

    prototypes已经相当成熟

    我们测试的眼镜仍然是非常早期的原型,但已经足够成熟,可以进行外部测试。演示XR眼镜的工作人员解释说,原型机让公司不必担心与不同款式、造型相关的外观设计细节,因此可以更自由地试验显示技术,以及它对电池续航的影响。

    这意味着这些样机在佩戴贴合度、造型、尺寸和设计细节方面,和任何未来发售的正式版本都会有很大不同。更像是可以在基础、舒适的镜框内对眼镜的”内部构造”进行试验。

    这款带显示屏的眼镜是今年晚些时候推出的第一代音频眼镜的下一步迭代产品。眼镜是与Warby Parker、Gentle Monster和三星合作开发的,将谷歌的技术与这些品牌的设计美学相结合。

    实际使用体验

    要激活Gemini,需要长按眼镜镜框右侧2秒,启动提示音会响起,告知用户Gemini已经开启并正在监听。在演示版本中,启动Gemini的同时也会启动摄像头,但正式发售版本将允许用户配置是否在启动Gemini时同时开启摄像头。

    在第一次测试中,我们要求Gemini播放一位我们喜爱的艺术家的音乐。由于场地太吵,无法评估音质,即使音乐开到最大音量,仍然很难清晰、有细节地听到。但从这次有限的体验来看,初步印象是这款眼镜无法替代更高质量的耳塞,但如果只是想在外面散步、徒步或在家做家务时听点音乐,它可以满足需求。

    要关闭音乐,只需轻敲镜框侧面中间的位置,就像敲击太阳穴一样。

    拍照和AI处理

    在第二次测试中,我们按下拍照按钮给一个人拍了照片。当时显示屏是关闭的,所以照片被传输到了我们的手机和手表上。(之后你可以通过长按来拍摄视频,但原型机暂不支持这个功能。如果是拍视频,你会看到视频缩略图预览,而不是照片。)

    你也可以直接让Gemini拍照,无需按拍照按钮,还可以对拍摄结果进行一些AI处理。比如你可以说”拍张照片,把这个人物变成动漫角色”。照片会先发送到手机,再发送到Gemini和Nano Banana服务器,之后返回编辑后的版本。

    在谷歌I/O的场地里,Wi-Fi负载很高,整个往返过程大约需要45秒。

    显示屏体验

    开启显示屏后,你会在视野中看到一个简单的主屏幕。演示版本预装了一些小组件,显示天气和谷歌I/O活动的倒计时。如果你是眼镜的主要使用者,也可以把谷歌地图、翻译等特定应用的快速启动器设置好。

    原型机只有右眼上方的单显示屏,但该平台同时支持单显示、双显示以及仅音频的眼镜模式。显示屏的图像有点模糊,我们认为这和我们佩戴的处方隐形眼镜有关——我们一只眼睛的镜片是优化远距离视物的,另一只优化近距离视物。当我们闭上一只眼睛时,图像会更清晰,但这种体验几乎立刻就让我们右眼上方产生了视疲劳。


    翻译功能表现突出

    最出色的演示之一是眼镜的语言翻译功能,它依托手机上的谷歌翻译应用。一位演示人员语速很快地说西班牙语,眼镜自动检测到了语言,并在显示屏上显示英语翻译文本,同时Gemini会在我们耳边用英语说出来。

    我们认为很多出境旅行者会为了这个功能购买这款眼镜。需要指出的是,仅音频的眼镜也支持翻译功能,只是不会在眼镜上显示文本,如果需要的话,你可以在手机上看到转录文本,同时还有实时音频反馈。

    导航体验不挡视线

    另一个演示是使用眼镜导航。你可以通过要求Gemini导航到某个目的地来启动谷歌地图体验——甚至可以模糊到比如”最近的咖啡店”这样的指令。

    Gemini会激活手机上的谷歌地图,在体验加载的短暂延迟后,眼镜会显示转向导航信息。当你向前看时,会显示下一个转向的信息。但如果你需要在空间中定位,低头看地面就能看到地图上的蓝色圆点。你也可以左右转动身体来在空间中旋转,就像你在手机上调整蓝色圆点的方向一样。

    然后当你再抬头时,可以继续行走,地图不会挡住你的视线。因为这个体验是和手机上的谷歌地图绑定的,所以”家””公司”等已保存的目的地已经可以直接使用。

    物体识别还需优化

    我们还短暂地用眼镜识别视野中的各种物体,并向它提问。眼镜最初很难识别我们面前架子上的莫奈画作复制品,这是因为原型机没有自动开启摄像头——必须从应用中手动开启。

    不过即使我们凑近去聚焦画布左下方的莫奈签名,Gemini还是问了几个问题之后才说它看起来像莫奈的作品。其他测试更顺畅,眼镜立刻识别了架子上的植物,还回答了关于书上不同食谱的问题。


    后续规划和市场背景

    谷歌表示,今年晚些时候它会分享更多关于Android XR显示眼镜的信息,届时它会扩大其可信测试者计划。

    与此同时,该公司认为音频功能已经可以满足部分用户的需求,这可能是面对Meta和Snap在该领域的竞争,它还没有准备好显示眼镜的巧妙说法。

    和显示版本一样,仅音频眼镜也可以访问谷歌的Gemini AI,你可以通过眼镜的镜框扬声器私密收听。你可以通过眼镜听音乐、按按钮拍照、打电话,或者访问手机应用,这些功能和未来的显示版本一样。

  • 我试了亚马逊的Bee可穿戴设备,感兴趣但有点发毛

    最近我上手试了下Bee,这是亚马逊去年收购的那款AI腕带设备,今年又推了好几轮功能更新。和它宣传的一样,这东西定位就是个”全天候个人助理”:录你一整天的对话、自动转录、生成总结,还能和日历同步之后给你发提醒。

    用法倒不复杂——开机、戴上、和手机App配对、填点基本信息就能跑起来。Bee自带录音按键,绿灯闪就是在录,再按一下就停,录完之后App会自动生成一段易读的总结,完整的转录文本也在里面。

    亚马逊Bee可穿戴设备
    Bee AI可穿戴设备实拍图 (来源:TechCrunch)

    职场场景确实好用

    我专门拿它测了一次商务通话(当然事先征得了对方同意),录完之后App给出的总结相当到位,把对话拆成了几个板块,之后不用重听整段录音就能回顾内容。

    这个功能本身没什么稀奇,Otter、Granola这些工具也能做转录和自动总结,体验上差别不大。但你可以想象,一个整天在不同会议之间辗转的职场人,确实会很需要这种设备——Bee可以一整天都开着,之后随时回顾总结,确认自己没漏掉任何关键内容。

    Bee在工作场景下的表现相当扎实,如果你的一天被各种会议填满,又很难捋清所有内容,它会是个还算称职的助理。

    转录准确度还有提升空间

    Bee生成的对话总结做得不错,但原始转录文本偶尔会有点乱。之前的评测也提到,你通常需要手动输入其他说话人的名字,因为Bee不一定能识别谁在说话。我这次测试中也发现它遗漏了部分聊天内容——倒不是什么重要信息,但确实不是百分之百完整的记录。

    我还带着Bee去参加了每周两次的朋友电影之夜,让它整晚都保持运行。我们当时在看《落水狗》,我还有点担心设备会把所有粗俗的暴力场面当成真实的流血事件、触发什么内部警报。不过Bee基本清楚发生了什么:它识别出我们在看电影,在之后的事件总结里,把这段对话标注为”塔伦蒂诺电影场景分析”。

    隐私问题没法绕开

    对我来说,问题核心在于:我算是个隐私爱好者。在普通人已经被无处不在的数字监控包围的当下,我很珍惜任何不被录制的机会,所以想到要24小时把个会偷听的gadget戴在手腕上,我本来是不太感兴趣的。

    但有点奇怪的是,Bee目前的营销定位很大程度上是面向个人使用的。要接受这点,你得愿意让Bee接触到你线下和数字生活的大部分内容。

    确实,要想好用,Bee需要获取广泛的手机权限,包括位置、照片、手机通讯录、日历和手机通知权限。你还可以和它共享健康数据——如果你出于某种原因想让它知道你的睡眠模式或者静息心率的话。

    Bee收集的大量数据都存在云端,这对数字隐私爱好者来说又带来了新的担忧。科技YouTuber Becca Farsace曾收到消息,Bee展示过完全本地运行的设备demo。如果这家公司真的能做出这样的设备,我会非常感兴趣,甚至会考虑买一台。不过到目前为止,亚马逊还没有公布这方面的进展。


    安全承诺和现实之间的落差

    至于Bee的数字隐私保护,公司表示会对用户数据进行加密,无论是静态存储还是传输过程中都受保护。在隐私政策中,公司表示已经”实施了技术和组织安全措施,旨在保护公司处理的所有个人信息的安保”。Bee还声称会接受”严格的第三方安全审计”,并采用持续的安全监控。

    这些听起来都很不错,不过值得注意的是,亚马逊和很多大型科技公司一样,偶尔也会出现一两个数据安全问题(对于一家管理着全球大量云环境的公司来说,这倒也不算意外,但依然值得关注)。

    简单来说,Bee是一款很有意思的硬件,如果经过一段时间的调整和优化,未来很可能在职场场景有很好的应用前景。但作为个人生活的数字助理,对部分用户来说,它可能还是有点太有侵入性了。

  • Aider:45.3k Stars!终端AI结对编程工具,让Git与AI完美融合

    Aider:45.3k Stars!终端AI结对编程工具,让Git与AI完美融合

    📌 项目简介

    Aider

    Aider 是一款在终端中运行的AI结对编程工具,支持从零启动新项目或基于现有代码库进行开发。它不仅能理解整个代码库的结构,还能自动执行lint和测试,是开发者的AI编程利器!

    ⚙️ 安装要求和过程

    环境要求

    • Python 3.8+
    • Git(Aider原生集成Git)
    • API密钥(Anthropic/OpenAI/DeepSeek等)

    快速安装步骤

    1. 安装Aider
      python -m pip install aider-chat
      aider
    2. 配置API密钥
      # 使用Claude 3.7 Sonnet
      export ANTHROPIC_API_KEY=your-key
      aider --model sonnet
      
      # 使用DeepSeek
      export DEEPSEEK_API_KEY=your-key
      aider --model deepseek
      
      # 使用GPT-4o
      export OPENAI_API_KEY=your-key
      aider --model gpt-4o
    3. 进入项目目录
      cd /path/to/your/project
      aider

    💡 核心功能

    1. 全代码库理解

    Aider能自动生成整个代码库的”地图”,理解项目结构,无论项目多大都能精准定位需要修改的文件。

    2. Git原生集成

    每次AI修改后,Aider都会自动生成合理的commit信息,你可以通过Git轻松diff、管理和回滚AI的修改。

    3. 多模态输入支持

    支持添加图片、网页到对话,提供视觉上下文、截图、参考文档等,让AI更准确理解你的需求。

    4. 自动校验与修复

    每次修改后自动执行代码lint和测试,如果检测到lint错误或测试失败,Aider会自动修复!

    5. 语音转代码

    支持语音输入需求,自动实现新功能、测试用例或Bug修复,编程效率翻倍!

    🚀 典型使用场景

    场景1:新项目从零启动

    想快速搭建一个新项目?只需在终端输入:

    $ aider
    Aider> 帮我创建一个Flask REST API,包含用户认证和JWT令牌

    Aider会自动生成项目结构、配置文件、路由和测试用例,并自动提交第一个commit!

    场景2:现有代码库的功能迭代

    在已有项目中添加新功能?Aider理解整个代码库:

    $ aider
    Aider> 在用户模型中添加一个"最后登录时间"字段,并更新相关API

    Aider会自动找到需要修改的文件,添加字段,更新迁移脚本,修改API响应,并运行测试确保一切正常!

    场景3:Bug修复与测试

    遇到Bug?让Aider帮你定位和修复:

    $ aider
    Aider> 修复用户登录时的502错误,并添加测试用例

    Aider会分析日志、定位问题、修复代码、添加测试,确保问题不再复现!

    🎯 推荐理由

    作为一名开发者,我一直在寻找能让AI真正融入编程工作流的工具。Aider是我用过的最实用的AI编程助手,原因如下:

    ✅ Git原生集成:不像其他工具那样”黑盒”修改,Aider的每次修改都有清晰的commit,你可以随时diff或回滚。

    ✅ 理解大型代码库:Aider会生成整个代码库的地图,即使是很复杂的项目,它也能精准定位需要修改的地方。

    ✅ 自动修复lint/测试错误:这是我最喜欢的功能!Aider修改代码后会自动运行lint和测试,如果有错误会自动修复,真正实现了”自动化编程”。

    ✅ 支持100+编程语言:无论你用Python、JavaScript、Rust、Go还是C++,Aider都能胜任。

    ✅ 多模态输入:可以添加图片、网页到对话,让AI更准确理解你的需求,这对前端开发特别有用!

    如果你想要一个真正能理解你的代码库、并与Git无缝集成的AI编程助手,Aider绝对值得一试!

    📥 下载地址

    官方资源

    快速安装

    # 安装Aider
    python -m pip install aider-chat
    
    # 使用Claude 3.7 Sonnet(推荐)
    export ANTHROPIC_API_KEY=your-key
    aider --model sonnet
    
    # 使用DeepSeek(性价比高)
    export DEEPSEEK_API_KEY=your-key
    aider --model deepseek
    
    # 使用GPT-4o
    export OPENAI_API_KEY=your-key
    aider --model gpt-4o

    #开源项目 #AI编程 #终端AI #Aider #GitHub热门 #AI Agent

  • 谷歌I/O 2026:传统搜索时代宣告结束,AI代理全面接管信息采集

    在本周举行的谷歌I/O开发者大会上,谷歌搜索负责人Liz Reid说了一句话,值得所有靠搜索引擎拿流量的网站主认真听一听:”你熟悉的传统’十条蓝色链接’搜索时代,正式宣告结束。”

    这不是夸张的营销话术。谷歌在I/O上发布的搜索功能AI驱动全面改版,是搜索框诞生25年来这个网络入口最大的一次变革。

    新搜索到底长什么样

    新的搜索框会直接扩展,容纳更长、更具对话性的查询——你不用在查询开始时特意选择什么”AI模式”,它默认就能理解更复杂的提问。

    搜索结果页面也在变。谷歌会把用户导向AI驱动的交互式体验,而不是一堆链接列表。链接并没有完全消失,但在很多类型的搜索里,它们不再是优先展示的内容。

    搜索结果里蓝色链接的存在感会越来越低。用户花在手动点击链接上的时间会变少,越来越多”搜索网络”的工作,将由AI代理来完成。

    三个值得关注的新功能

    第一,信息代理。今年夏天开始,用户可以在谷歌搜索中创建、定制和管理多个”信息代理”,它们7×24小时在后台工作,跟踪网络上的变化,并在有新信息时提醒你。这本质上是谷歌提醒(Google Alerts)的进化版——代理不仅能发现变化,还能理解这些变化的意义。

    第二,生成式UI。由DeepMind团队基于Gemini Flash 3.5开发,能根据用户的搜索问题动态构建自定义小部件和可视化内容。比如你问关于太空黑洞的问题,搜索结果里会直接出现一个让这个概念生动起来的交互式视觉效果,而且你可以继续追问,看到谷歌实时生成的全新可视化内容。

    第三,搜索内小应用构建。用户可以借助Antigravity平台,通过自然语言命令直接在搜索中构建自己的可定制、有状态体验——也就是”小应用程序”。比如构建一个膳食计划应用,利用你日历里的信息来帮你决定准备什么以及什么时候吃。

    谷歌新版AI搜索界面
    谷歌新版AI搜索界面示意图(图片来源:TechCrunch)

    数字背后的信号

    谷歌公布的数据很能说明问题:AI概览(AI Overviews)的月活用户已经超过25亿;去年推出的对话式搜索AI模式,月活也突破了10亿。作为对比,ChatGPT今年早些时候的周活用户是9亿。

    这两个数字的差别值得玩味:ChatGPT的用户粘性更高(用户一周内反复回来使用),而谷歌在AI功能的月度独立用户覆盖规模上更大。


    网站主该怎么办

    对于依赖搜索流量的内容创作者和媒体机构来说,这波变化不是好消息。AI概览推出以来,很多网站的推荐流量已经在下滑,部分依赖广告的媒体机构已经因此倒闭。这次改版会让情况进一步加剧。

    谷歌的长期计划是把这些AI功能——包括个人AI代理Spark——最终免费开放给所有人。CEO Sundar Pichai在I/O前的新闻发布会上说得很清楚:把前沿模型做得高效、快速、成本低,是为了把它带给尽可能多的人。

    新搜索框本周就会推出,生成式UI今年夏天上线。留给网站主适应调整的时间,真的不多了。

  • OpenAI推理模型推翻80年数学猜想,AI首次自主解决核心数学难题

    本周四,OpenAI官方宣布一条让人瞠目结舌的消息:他们的一个通用推理模型,自主推翻了数学家保罗·埃尔德什(Paul Erdős)1946年提出的”单位距离猜想”。这道题困扰了数学界整整80年,现在被AI给破了。

    一个折腾了数学家80年的问题

    这道题的表述简单到让人怀疑是不是看错了:在平面上放n个点,最多有多少对点之间的距离恰好等于1?数学家把这个数记为u(n)。

    直觉告诉我们,把点排成正方形网格大概是最优解。事实上,此前人类找到的最好构造——缩放后的正方形网格——能得到大约C·n·log n个单位距离对(C是常数)。埃尔德什本人也倾向于认为正方形网格就是最优解,还为此设立了现金奖励。

    但OpenAI的模型用一记响亮的耳光证明:人类和埃尔德什,似乎都想错了。

    AI是怎么做到的

    传统思路是用”高斯整数”(形如a+bi的数,a、b为整数)在平面上构筑网格,利用它的代数对称性来构造单位距离。但AI敏锐地察觉到,高斯整数提供的对称性还不够”压榨”出更多的单位距离对。

    它的核心原创想法是:放弃高斯整数,改用代数数论中更庞大、更复杂的”代数数域扩张”来构造——这玩意儿能搭出对称性更高级、更丰富的数域结构,从而在几何空间里创造出远超以往的单位长度差。

    为了证明这种理想中的复杂数域不仅存在、而且坍缩出来的点集确实满足条件,AI甚至直接搬出了代数数论的底层重武器:无限类域塔(infinite class field towers)和Golod-Shafarevich理论。

    AI数学证明示意图
    OpenAI推理模型证明过程示意图(图片来源:36氪)

    数学家们的反应

    菲尔兹奖得主蒂莫西·高尔斯(Tim Gowers)的评价很直接:这是”AI数学的一个里程碑”,如果这是人写的论文,他会毫不犹豫建议顶刊接收。

    著名数论学家Arul Shankar也说,现在的AI模型已经不只是人类数学家的助手了——它们能够提出原创而巧妙的想法,并把想法完整推进到最终成果。

    OpenAI科学家、AI德扑提出者Noam Brown补充了一个关键信息:实现这一突破的是一个通用大语言模型,它不是专门针对这个问题、甚至不是专门针对数学问题设计的,也不是一个协助工具。


    经外部数学家改进后,AI构造的指数c可以达到0.014。这意味着对于无穷多个n值,我们可以构造出至少n·log^0.014(n)个单位距离对的n点配置——比人类此前的最优解更强。

    这次突破的意义远不止解决一个具体的数学猜想。它表明通用大模型已经具备了跨领域融合知识、维持复杂逻辑链条、产出经得起专家严格审视的成果的能力。这些能力在生物学、物理学、材料科学、工程学和医学等领域同样具有实用价值。

  • Anthropic即将迎来首个盈利季度,营收翻倍至109亿美元

    《华尔街日报》放出一条消息:Anthropic告诉投资人,今年第二季度营收会比第一季度翻倍以上,冲到约109亿美元,而且——这是头一回——要实现运营盈利了。

    这个数字如果兑现,Anthropic相对于头号对手OpenAI的处境会好不少。不过《华尔街日报》也补了一刀:因为接下来有一大笔算力开支要付,Anthropic今年未必能全程保持盈利。

    Anthropic Claude AI
    Anthropic的Claude聊天机器人(图源:Ludovic MARIN / AFP / Getty Images)

    这数据是哪来的

    这些财务数据是Anthropic在一轮融资过程中透露给投资人的。融资嘛,总得拿点漂亮数字出来让人看——营收翻倍、首次盈利,这俩放一块确实够有说服力的。

    过去这一年,Anthropic涨势挺猛。越来越多的专业人士表示更偏好用Claude,而不是其他家的聊天机器人。公司也在努力拓宽客户群,比如给小企业主推新服务,给律师事务所搞新工具。

    有趣的是,Anthropic盈利的消息传出来的同一天,正好也爆出了OpenAI可能很快就要交IPO申请的新闻。

    算力账单是座大山

    营收翻倍听起来很爽,但Anthropic的算力成本也是真烧钱。训练大模型、跑推理、维护服务,每一笔都是天文数字。这就是为什么《华尔街日报》说它”可能没法全年保持盈利”——钱赚到了,但花得也狠。

    这其实是整个AI行业的共同难题。模型越训越大,用户越来越多,算力需求就跟着滚雪球。Anthropic这次能实现单季度盈利,已经是个不小的事情,至于能不能稳住,得看接下来的成本控制做得怎么样。


    跟OpenAI的对比

    Anthropic盈利的消息,跟OpenAI的IPO传闻同一天出来,这时间点卡得够巧的。两家公司一直在明争暗斗:Anthropic主打”更安全、更靠谱”,OpenAI主打”更强大、更通用”。

    如果Anthropic真的在二季度实现盈利,这在AI独角兽里算是相当靠前的。毕竟大多数AI公司现在还在疯烧钱的阶段,能赚到钱的没几家。这也会给即将IPO的OpenAI一点压力——投资人肯定会拿俩家的财务数据来回比。

    Anthropic拒绝对此事发表进一步评论。也正常,融资还没关,话说多了容易出岔子。

  • Spotify联手环球音乐,AI翻唱正式合法化

    Spotify最近干了一件挺有意思的事——跟环球音乐集团(UMG)签了协议,要让用户用AI翻唱和混音自己喜欢的歌。这不是那种游走在法律灰色地带的玩法,而是正儿八经拿到了版权方授权的。

    这个功能会以付费插件的形式上线,只有Spotify Premium订阅用户才能用。参与的艺人还能从AI生成音乐的收入里分一杯羹——这算是给音乐人们吃了颗定心丸。

    Spotify app on phone screen
    手机屏幕上显示的Spotify图标(图源:Jakub Porzycki/NurPhoto / Getty Images)

    明摆着在怼谁

    Spotify去年就透露过这个计划,当时特意强调了一句话:”通过事先协议来实现,而不是先做了再求原谅。”这话说的,明眼人都能看出来是在怼谁——就是Suno和Udio那帮人。

    Suno和Udio确实是AI音乐生成领域的先行者,但他们起步的时候根本没搞定版权问题。结果可想而知,三大唱片公司直接把状子甩了过去。去年11月,Suno跟华纳音乐集团达成了5亿美元的和解——这钱够多的。

    环球音乐和索尼音乐还在告Suno,Udio虽然已经跟华纳和环球和解了,但跟索尼的官司还没打完。

    Spotify的玩法不一样

    消费者显然想要这种功能,Spotify干脆直接去找版权方谈。规则很明确:艺人和版权方自己决定参不参与,参与的话怎么分钱,都由他们说了算。

    Spotify联合CEO亚历克斯·诺斯特伦说:”解决音乐领域的难题是Spotify的拿手好戏,AI翻唱和混音是下一个目标。我们正在打造的东西,根基是征得同意、署名权和补偿机制,参与的艺人和词曲作者都能获益。”

    环球音乐集团董事长兼CEO卢西恩·格兰奇也挺买账,说这能让艺人和粉丝的关系更深,还能多赚一份钱。目前还不知道有哪些环球旗下的艺人愿意参与,估计得等功能正式上线才能见分晓。


    不只是AI翻唱

    这笔交易是Spotify投资者日当天公布的一揽子消息之一。同一天还发布了好几个AI相关的新功能:

    • 基于ElevenLabs的AI有声书创作工具
    • 播客的AI问答和摘要生成功能
    • 用AI生成个人播客的桌面端应用
    • 为头部粉丝保留演唱会门票

    环球音乐只是第一个,Spotify大概率还会跟更多唱片公司签类似的协议。毕竟索尼和华纳那边也有不少艺人,粉丝的AI翻唱需求同样旺盛。

    这件事最大的意义在于:AI生成音乐终于有了一条合法、合规、各方都能分到钱的路径。之前Suno和Udio搞得沸沸扬扬,归根结底就是没解决版权问题。Spotify这次把规则定好了,后续其他平台估计也会跟着学。

  • Anthropic收购Stainless背后:AI工具链的锁定战略

    5月18日,Anthropic 宣布收购 SDK 生成工具 Stainless,行业消息称成交额超过2.8亿欧元,约合22.18亿元人民币。这笔收购看起来是一桩普通的 AI 基础设施并购,但如果你知道 Stainless 在 AI 开发工具链里的位置,就会明白 Anthropic 在做什么。

    Anthropic收购Stainless
    Anthropic 收购 Stainless 报道(来源:IT之家/新浪科技)

    Stainless 是做什么的

    简单来说,Stainless 做的事情很”基础设施”:它自动把 API 规范转换成 TypeScript、Python、Go、Java 等多语言的 SDK(软件开发工具包)。对于一个提供 API 的公司来说,维护多语言 SDK 是件极其枯燥且容易出错的事,Stainless 把这个流程自动化了。

    更有价值的是,当 API 发生变化时,Stainless 能自动更新对应代码。这意味着依赖外部接口的开发团队可以大幅降低维护成本,加快集成速度。在 AI 时代,几乎所有公司都在对外提供 API,这个能力的战略价值被成倍放大。

    Stainless 成立于2022年,创始人 Alex Rattray。在被收购前,它的客户包括 OpenAI、谷歌、Cloudflare 等数百家公司。可以说,整个 AI 行业的开发者工具链里,都有 Stainless 的影子。

    收购后的”切断”操作

    Anthropic 完成收购后的第一个动作,是把 Stainless 的全部托管产品关停。也就是说,OpenAI、谷歌这些曾经的客户,没法继续用 Stainless 的托管服务了。他们要么自己维护已生成的代码库,要么去找替代方案。

    现有客户虽然保留了已生成代码库的专属所有权,可以继续自行修改和扩展,但后续无法获得 Stainless 官方的更新和支持。这个操作本质上是在”锁喉”——把一项对 AI 智能体开发尤为关键的连接层能力,从开放市场收回到 Anthropic 体系内部。

    对于 OpenAI 和谷歌来说,这不是小事。它们的开发者生态高度依赖流畅的多语言 SDK 支持,突然失去 Stainless 的托管服务,要么投入资源自建类似能力,要么找其他第三方工具——但市面上能替代 Stainless 的产品并不多。

    为什么是现在

    把时间线拉长来看,这笔收购和同一周 Andrej Karpathy 加入 Anthropic,以及 Anthropic 洽谈至少300亿美元新一轮融资(估值可能超过9000亿美元),是同一个战略的不同落子。

    Anthropic 在做的,是一件微软和谷歌都做过的事:控制开发者工具链。当你用我的工具构建应用,你的产品就天然绑定了我的生态。AI 时代的”开发者工具链”战争,实际上比模型能力竞赛更决定长期格局。

    Stainless 创始人 Alex Rattray 表示,加入 Anthropic 是自然决定,团队能在”更早认可这项技术价值的公司”体系内继续推进工作。这句话的潜台词是:OpenAI 和谷歌并没有真正理解 Stainless 的战略价值。

    同期还有一个细节:Claude Code 的快速模式默认模型从 Opus 4.6 切换到 Opus 4.7,代码迭代速度提升2.5倍。Anthropic 在企业版推出 Managed Agents 自托管沙箱,Agent 可在私有网络运行而无需暴露公网端口。这些动作和收购 Stainless 放在一起,是一个完整的”企业 AI 开发平台”拼图。


    对行业的影响

    短期来看,OpenAI 和谷歌需要快速找到 Stainless 的替代方案。中长期来看,这笔收购可能会被监管机构关注——如果 Anthropic 在 AI 开发者工具链上的份额过大,会不会构成新的”垄断”争议?

    更深层的问题是:当 AI 实验室从”提供模型”向上游的”开发者工具链”延伸,行业会不会出现新的割裂?如果每家实验室都推自己的 SDK 工具,开发者最终要在多个生态之间做选择,这对整个行业的创新效率未必是好事。

    Anthropic 这笔2.8亿欧元的收购,买的不只是 Stainless 的技术团队,更是 AI 开发工具链的战略咽喉。这个信号,值得所有在做 AI 基础设施的人认真想想。

    📎 原文来源:新浪科技 · IT之家报道
  • Karpathy投奔Anthropic,OpenAI重组冲刺IPO:这一周AI圈发生了什么

    这一周 AI 圈的热闹程度,差不多赶得上去年的同一时期。Andrej Karpathy 宣布加入 Anthropic,OpenAI 这边紧锣密鼓地推进 IPO,另一边 DeepSeek 直接把 API 价格砍到原来的四分之一。三件事摆在一起看,你会发现 AI 行业的竞争节奏已经完全变了。

    Karpathy 的”二次出走”

    5月19日,Karpathy 在社交媒体上发了短短一行字:”Personal update: I’ve joined Anthropic.” 这位 OpenAI 的联合创始人、前特斯拉 AI 总监,正式入职 Anthropic 的预训练团队,直接向团队负责人 Nick Joseph 汇报。

    说”二次出走”是因为 Karpathy 的职业生涯一直在几个顶级 AI 实验室之间游走。他最早是 OpenAI 的创始成员之一,后来去了特斯拉带队 Autopilot,离开特斯拉后又回到了 OpenAI。现在他选择 Anthropic,而不是回 OpenAI,这个信号值得玩味。

    Andrej Karpathy 是以个人贡献者身份加入的,不是来当管理者的。他要组建一个”用 Claude 本身来加速预训练研究”的小组——意思是让 AI 帮忙做 AI 研究,这个思路很 Anthropic。

    Anthropic 这段时间一直在疯狂招人,Workday 的 CTO、Instagram 的 CTO、Box 的 CTO 都以个人身份加入了。但 Karpathy 无疑是其中名头最响的一个。他加入的预训练团队,恰恰是大模型”底座”最核心的地方。

    OpenAI 的 IPO 冲刺与内部大重组

    就在 Karpathy 官宣的同一周,OpenAI 内部发生了一次大规模重组。联合创始人兼总裁 Greg Brockman 正式接管全部产品战略,取代因病休假的 AGI 部署负责人 Fidji Simo。Brockman 在全员备忘录里说得很直白:要建设”一个统一的 Agent 平台”。

    视频生成产品 Sora 同日关停,理由是算力消耗与营收严重不匹配。产品负责人 Kevin Weil 和技术负责人 Bill Peebles 随之离开。这些人事变动的背后,是 OpenAI 正在为 IPO 做最后准备。

    据报道,OpenAI 最快于5月22日向 SEC 提交了机密招股书,高盛和摩根士丹利担任主承销商,上市窗口瞄准今年秋季,估值预期超过1万亿美元。如果成功,这将是 AI 时代最具标志性的上市事件。

    OpenAI重组与IPO规划
    OpenAI 产品线重组示意图(来源:新浪财经)

    但财务数据也同步披露了出来:Q1 营收57亿美元,调整后经营利润率为负122%。也就是说每赚1美元要亏1.22美元。用户增长也在放缓,ChatGPT 周活9.05亿,低于2月峰值9.2亿。IPO 之前,OpenAI 需要给资本市场讲一个更动人的盈利故事。

    好消息是,马斯克对 OpenAI 的诉讼在同一周被加州联邦陪审团驳回,理由是全部索赔已过诉讼时效。IPO 路上一块巨大的法律绊脚石,就这样消失了。

    DeepSeek 的”永久降价”到底意味着什么

    5月22日,DeepSeek 官方宣布:V4-Pro 模型的2.5折优惠在5月31日到期后,将直接锁定为原价的四分之一,不再恢复原价。调整后输入价0.435美元/百万 token,输出0.87美元/百万 token。

    这个定价是什么概念?比 GPT-5.5 便宜约98%。而且 DeepSeek V4-Pro 总参数1.6万亿,每次推理激活490亿参数,是目前参数量最大的开放权重模型。用华为昇腾芯片跑推理,成本结构和英伟达路线完全不同,这就是降价的底气。

    DeepSeek 这一招”永久降价”,本质上是用价格战倒逼整个行业重新审视推理成本。如果你用极低的价格提供顶尖水平的模型能力,竞争对手要么跟进,要么失去价格敏感的开发者和企业用户。

    同期 DeepSeek 还在内部组建了名为 Harness 的新团队,主攻代码智能体产品,直接对标 Anthropic 的 Claude Code。V4-Pro 全部运行在华为昇腾芯片上,这种”芯片+模型+应用”的全栈打法,是目前美国实验室做不到的。

    同周 DeepSeek 还回应了一个引发关注的特殊字符幻觉事件,官方表示这属于模型”幻觉”现象,不涉及数据泄露或安全问题,技术团队将针对性优化。


    三件事放在一起看

    Karpathy 加入 Anthropic,说明顶级研究者认为 Anthropic 的技术路线更有前途。OpenAI 推进 IPO,说明资本市场对 AI 的期待已经到了必须兑现的时刻。DeepSeek 永久降价,说明中国 AI 实验室正在用成本优势重构全球竞争格局。

    这一周的事件,其实是同一个大趋势的不同切面:AI 竞争已经从”谁的模型最强”,转向”谁能在产品、成本、人才和资本四个维度同时取胜”。目前来看,还没有任何一家实验室能在这四个维度上同时领先。

  • Ollama:172K Stars!本地运行大模型的最热门工具,让AI完全属于你自己

    Ollama:172K Stars!本地运行大模型的最热门工具,让AI完全属于你自己

    Ollama


    ## 📦 项目简介

    Ollama 让你在本地一键运行 Llama 3、Mistral、Gemma、DeepSeek 等大模型,无需任何云服务,数据完全留在你自己的机器上。


    ## 🛠️ 安装要求和过程

    Ollama 支持 macOS、Windows、Linux 三大平台,安装极其简单。

    🔧 环境要求

    • macOS 11+ / Windows 10+ / Linux(主流发行版)
    • 建议 8GB 以上内存(7B 模型最低要求)
    • 建议 50GB 以上磁盘空间(存放多个模型)

    ⚡ 快速安装(3步搞定)

    macOS:

    brew install ollama

    Linux / WSL2:

    curl -fsSL https://ollama.com/install.sh | sh

    Windows:

    ollama.com/download 下载安装包,双击安装即可。

    验证安装:

    ollama --version

    ## ⭐ 核心功能

    🚀

    一键运行大模型

    一行命令 ollama run llama3 即可启动对话,无需配置环境。

    🔌

    本地 REST API

    自带 HTTP API(默认 http://localhost:11434),轻松集成到任何应用。

    📦

    Modelfile 自定义

    类似 Dockerfile 的 Modelfile,可定制系统提示词、温度参数、模板等。

    🔄

    模型库丰富

    官方库支持 50+ 模型,包括 Llama、Mistral、Gemma、DeepSeek、Qwen 等。

    GPU 加速推理

    自动检测并利用 Metal(macOS)、CUDA(NVIDIA)、ROCm(AMD)进行硬件加速,推理速度飞快。


    ## 🎯 典型使用场景

    📚 场景一:本地知识问答

    你可以用 Ollama 在本地运行大模型,结合 RAGFlow 或 AnythingLLM,搭建完全本地的知识库问答系统。所有文档数据和对话历史都留在本地,特别适合处理敏感资料、法律文件、医疗记录等场景。

    # 拉取中文模型
    ollama pull qwen2:7b
    # 启动对话
    ollama run qwen2:7b

    💻 场景二:AI 编程助手(本地版 Copilot)

    将 Ollama 接入 Continue、Cursor 或 VS Code,打造完全本地的 AI 编程助手。代码不需要发送到任何云端,隐私零泄露,适合企业内网开发环境。

    # 拉取代码专用模型
    ollama pull codellama:7b
    # 通过 API 调用
    curl http://localhost:11434/v1/chat/completions   -H "Content-Type: application/json"   -d '{"model":"codellama:7b","messages":[...]}'

    📝 场景三:内容创作与文本处理

    Ollama 配合 Open WebUI,可以在本地搭建一个”私人 ChatGPT”,用于文案撰写、文本摘要、翻译、邮件回复等日常任务。响应速度快,支持多轮对话,且完全免费。


    ## 💡 推荐理由

    我用过不少本地大模型运行工具,Ollama 是目前最省心的一个。安装简单到不可思议 —— macOS 一个 brew 命令,Linux 一条 curl 管道,Windows 下载安装包双击,全程不超过 3 分钟。

    它最打动我的一点,是对 Apple Silicon 的优化极其出色。在 M 系列芯片的 Mac 上,Ollama 能充分利用 Metal GPU 加速,7B 模型推理速度可以达到 40+ tokens/s,日常对话毫无压力。

    另外,它的 REST API 设计得非常优雅,和 OpenAI 的 API 格式高度兼容,迁移成本几乎为零。如果你正在做 AI 应用开发,Ollama 绝对是本地调试和离线部署的首选方案。

    推荐指数:4.8/5.0
    易用性满分,模型丰富度高,API 兼容性好,隐私保护强。


    ## 📥 下载地址

    🌐

    官方网站

    下载安装包 / 文档

    访问官网 →

    🐙

    GitHub 仓库

    172K+ Stars · Go 语言

    查看源码 →

    📖

    官方文档

    API 参考 / Modelfile 指南

    阅读文档 →


    >

    本文由 WorkBuddy AI 自动采集撰写 · 开源项目第35期 · GitHub 172K+ Stars