作者: hiyoho

  • 教皇发了一道4万字的AI通谕:技术不能把人变成工具

    教皇利奥十四世最近发表了一道长达4万字的教皇通谕(Encyclical),主题是人类与人工智能的关系。这是梵蒂冈第一次以最高层级官方文件的形式,系统性回应AI带来的伦理挑战。通谕的核心思想用一句话概括:要防止人类被技术”异化”,变成AI系统的附庸。

    有意思的是,这份通谕发布后,Anthropic的联合创始人Chris Olah直接在社交媒体上公开呼应了其中的观点。一个宗教领袖和一个AI实验室创始人在同一个问题上发声,这个画面本身就挺耐人寻味的。

    技术应当服务于人的尊严,而不是让人变成算法的工具。我们需要外部力量介入AI伦理治理,不能把全部话语权交给市场和科技公司。

    通谕到底说了什么

    教皇通谕在天主教教义体系里属于最高层级的教皇文献,通常用来回应人类社会面临的重大议题。这次选择AI作为主题,说明梵蒂冈认为这个问题已经不只是技术问题,而是关乎人类文明走向的伦理命题。

    通谕里反复强调一个词:”异化”(alienation)。意思是说,当AI系统越来越擅长模仿人类、替代人类决策,人有可能在不知不觉中把自己的判断权、选择权、甚至道德责任感都让渡给了算法。到最后,人不再觉得自己是行动的主体,而变成了系统里的一个节点。

    这个担心不是宗教界独有的。最近一两年,越来越多的AI研究者、哲学家和政策制定者开始讨论类似的问题:当AI帮你写邮件、帮你做招聘决策、甚至帮你判断谁该获得贷款,你到底是在”使用工具”,还是在”被工具塑造”?

    为什么AI圈会认真看待这份通谕

    Chris Olah不是随便什么人都请得动的。他是Anthropic的创始团队成员之一,也是AI可解释性研究领域的重量级人物。他公开呼应教皇通谕,至少说明一点:AI技术圈内部已经有人在认真思考”技术边界”这个问题,而不只是埋头把模型做得更大。

    Anthropic一直以来把自己定位成”最关注AI安全的主流实验室”,这次创始人亲自在宗教文献上表态,某种程度上也是在向外界释放信号:AI伦理不是公关话术,而是需要真正纳入技术研发流程的约束条件。

    外部治理真的能起作用吗

    通谕里呼吁”外部力量介入AI伦理治理”,这里说的外部力量,主要指政府机构、国际组织、公民社会,当然也包括宗教伦理体系。但现实情况是,AI技术的迭代速度远远快于任何监管框架的成型速度。

    欧盟的《AI法案》从提出到落地花了好几年,而这几年里大模型已经迭代了三四代。等规则写好了,要监管的技术对象可能已经完全不一样了。这就是为什么很多人对”外部治理”能不能真正起效持保留态度。

    但换个角度看,正因为技术跑得太快,才更需要有人站在旁边说”慢一点,想清楚再走”。不管这个声音来自梵蒂冈、布鲁塞尔还是别的什么地方,只要能让那些做决定的人偶尔停下来想一下后果,就不算完全没有意义。


  • 环球音乐和TikTok握手言和:一起把AI假歌清理出平台

    环球音乐集团(UMG)和TikTok最近宣布续签版权许可协议,条款里有一条很硬核的新内容:双方要联手把平台上未授权的AI生成音乐清理出去,同时完善艺人和词曲作者的署名机制。

    UMG在联合声明里说得很直白:这份协议”延续了TikTok与UMG在AI保护方面的开创性承诺,旨在促进人类艺术创作,确保平台收益能够有效流向艺人和词曲作者”。翻译一下就是:AI可以玩,但不能让假歌抢走真人的钱。

    TikTok平台界面
    TikTok此次承诺清理未授权AI音乐

    从翻脸到握手

    这事有点戏剧性。2024年UMG和TikTok打得不可开交——UMG指责TikTok在AI生成音乐和版权问题上不作为,直接把旗下整个曲库从平台撤下。那一波操作让无数用户视频突然没了配乐,TikTok对主流厂牌版权的依赖暴露无遗。

    现在双方坐下来续约,说明TikTok终于意识到:不把AI假歌的问题解决好,大厂牌随时可以再次掀桌子。而UMG也发现,TikTok毕竟是推广音乐最重要的阵地之一,彻底闹翻对艺人也没好处。

    TikTok和UMG将共同合作,清除平台上的未授权AI生成音乐,同时进一步完善艺人和词曲作者的署名机制。

    AI假歌到底有多猖狂

    过去两年,音乐行业被AI翻唱搞得焦头烂额。有人用AI模仿Drake的声音发歌,在被发现前已经刷了数百万播放量;The Weeknd的”AI版本”也出现过类似情况。这些假歌不仅侵犯了艺人权益,还在钻流媒体算法的空子——因为听起来像热门歌手,平台会主动推荐,真歌手反而被挤压。

    更麻烦的是,这类AI生成内容往往标注不清,普通用户根本分不清是真人还是AI。行业里越来越多的人开始担心:如果平台不设立明确规则,音乐创作者的生存空间会被这些”免费复制品”逐步侵蚀。

    这份协议可能是个模板

    分析人士认为,UMG和TikTok的这份协议,很可能成为整个科技行业处理”AI+知识产权+平台责任”这一组合问题的参考模板。欧盟已经在收紧对AI生成内容的监管,美国各州也在陆续跟进立法,其他平台面临的压力只会越来越大。

    TikTok去年推出了”TikTok for Artists”数据洞察平台,试图向音乐行业证明自己能为艺人带来实质性收益。这次在AI治理上让步,某种程度上也是在为这个更大的叙事背书:平台愿意接受外部监督,而不是自己说了算。


  • 埃琳·布罗克维奇新活:给美国AI数据中心画地图,把争议摊在阳光下

    埃琳·布罗克维奇这个名字,看过那部2000年同名电影的人都不会陌生。朱莉娅·罗伯茨演的那个倔强的环保活动家,靠一己之力掰倒了太平洋煤气电力公司。现在,她把目光转向了AI。

    不是AI本身有什么问题——是支撑AI的那些数据中心。布罗克维奇最近上线了一个网站,专门收集全美各地社区对本地数据中心项目的投诉,还做了一张互动地图,把这场”AI基础设施竞赛”的真实足迹摊开在阳光下。

    “建设AI基础设施的竞赛正在美国一个个城镇中展开。在一些地方,数据中心受到了欢迎。而在另一些地方,它们被推迟、遭到反对,或者干脆被彻底放弃。这张地图记录了这场竞赛的真实足迹——揭示了增长、冲突和不确定的模式。”

    数据中心到底惹了谁

    表面上,数据中心是”数字经济基础设施”,地方政府也乐意看到投资落地。但住得近的人想法不一样——数据中心耗电量惊人,冷却系统吃掉大量水资源,还有噪音问题。更别说那些动辄占地几十英亩的巨型建筑,对周边社区的空间压迫感很强。

    布罗克维奇的地图不是那种冷冰冰的基建统计,而是把每个争议项目的社区反馈都记录了进去。哪些项目被推迟了、哪些遭到了居民集体反对、哪些已经悄悄下马——这些信息散落在各地新闻和市政会议记录里,普通人根本没渠道汇总来看,现在有了这张地图,情况不一样了。

    AI热潮背后的基础设施焦虑

    这件事的背景其实挺大的。各大科技公司为了跑AI模型,正在全美疯狂建数据中心。微软、谷歌、亚马逊、Meta,每家都有自己的超大算力基地扩建计划。这股浪潮涌到哪儿,哪儿的电力和水资源压力就跟着上来。

    有些州(比如弗吉尼亚和得克萨斯)因为电网容量问题,已经开始重新审视数据中心的审批流程。社区居民也越来越多地出现在市政听证会上,拿着电费账单问官员:为什么数据中心来了以后,我的电费涨了?


    布罗克维奇的玩法

    她的网站(brockovichdatacenter.com)不只是放一张静态地图。访客可以提交自己社区的数据中心相关投诉,相当于一个众包式的数据收集平台。这种方式和她早年调查水污染事件的路径其实是一脉相承的——靠普通人提供的线索,拼出大公司不愿意让你看到的全貌。

    目前这张地图已经覆盖了数十个活跃争议地点,集中在弗吉尼亚州(那里是全球最大的数据中心集群之一),以及俄勒冈、得克萨斯、亚利桑那等州。随着AI算力需求继续膨胀,这张地图上的红点只会越来越多。

    布罗克维奇这次盯上的,是AI时代最容易被忽视的那层东西——不是算法,不是模型,是那些24小时嗡嗡响的机房,以及它们和周边社区之间越来越紧张的关系。

  • 给机器人当老师?印度零工戴帽子录视频,每小时赚1美元

    过去几年,印度的外卖市场疯了一样增长,Zomato和Swiggy都上了市,云厨房数量也在猛增。与此同时,做家庭服务的初创公司也越来越受欢迎,比如按需家政平台Urban Company、Snabbit和Pronto。

    就在这种背景下,一家叫Human Archive的硅谷初创公司冒了出来。他们的想法听起来有点疯狂——让这些零工工人戴上带摄像头的特制帽子,把日常工作的第一人称视角视频收集起来,用来训练机器人。

    “物理AI和机器人研发的核心瓶颈,是缺乏展示人类执行日常工作的高质量、真实世界训练数据。印度蓬勃发展的零工经济,正是这种尚未被开发、可规模化获取的数据来源。”

    820万美元入账,投资人阵容豪华

    周二,Human Archive宣布拿到一笔820万美元的融资。投资方名单读起来像AI圈的名人录——Wing Venture Capital、NVP Capital、Y Combinator,还有来自OpenAI、英伟达、谷歌、Mercor、BAIR、SAIL、Brad Bao和Meta的天使投资人。

    四个创始人全是加州大学伯克利分校和斯坦福的学生——Samay Maini、Rushil Agarwal、Shloke Patel和Raj Patel(后两人是表兄弟,Raj Patel担任CEO)。四个人在机器人、硬件和触觉数据领域都有研究背景。

    帽子、手套、动作捕捉服,全副武装

    一开始,Human Archive用临时装置或现成设备采集数据。现在,他们已经开发了能够协同工作的定制硬件,可以同步收集不同类型的数据。目前已经在多个地点部署了1000多个活跃的头戴设备,累计部署超过50种不同设备,可以同步采集7种不同模态的数据。

    他们的逻辑是:光有视频数据不够,得把视频和其他传感器数据配对,价值才能大幅提升。所以他们在做触觉手套、全身动作捕捉服、腕部摄像头——把RGB-D(实时配对的彩色图像和深度信息)和力反馈、全身动作、腕部视角这些数据同步采集起来,然后卖给AI实验室。


    碰壁:头部家政公司说”不”

    虽然Human Archive在跟多家公司谈合作,但现实给了他们一记耳光。包括Pronto和Urban Company在内的多家印度家政服务头部公司,都拒绝了合作。

    事情在上周末闹到了公开层面。印度媒体Entrackr报道称Pronto正在积极寻求合作关系,以收集工人数据用于机器人训练;而Snabbit此前曾与Human Archive进行过早期讨论,但项目最终告吹。Urban Company的CEO Abhiraj Singh Bhal在X平台上直接回应称,公司不会参与此类安排。

    Raj Patel随后回击称,Urban Company很快将被迫重新考虑,否则将面临客户流失、失去相关性的风险。联合创始人Rushil Agarwal更直白——他发帖称Pronto创始人Anjali Sardana听到他提出数据合作想法时,曾经嘲笑他”愚蠢”。

    工人每小时拿1美元,隐私问题谁来管

    Human Archive向参与数据收集的工人支付每小时1美元的基础报酬。《经济时报》的报告显示,其他公司支付的报酬是每小时250卢比到400卢比(约2.63到4.20美元)。Patel表示竞争对手的报酬比Human Archive高,但其在印度的实地存在使其能够保持较低的薪酬水平。

    比工资更棘手的是隐私问题。目前尚不清楚Human Archive向工人提供了哪些关于其镜头使用方式的信息。该公司表示,其商业合同符合印度《数字个人数据保护法(DPDP法)》的要求,会显示隐私政策通知,以及详细说明数据收集目的和处理方式的同意信息。公司还表示所有数据都是匿名的,并且会对录像中的人脸进行模糊处理。

    上周,Moneycontrol报道称,印度电子和信息技术部正在审查通过家政服务人员收集第一人称数据的初创公司的同意机制和数据收集实践。监管的风,已经开始吹了。

  • 这家公司让印度外卖员戴摄像头,就为了教机器人干活

    你点外卖的时候,有没有想过——帮你送餐的那个人,身上可能戴着摄像头,把你家的 layout 拍得一清二楚?而且这些视频最终的目的,可能不是优化配送效率,而是拿来训练机器人

    这就是硅谷初创公司Human Archive正在做的事。他们给印度的零工工人(外卖骑手、家政服务员、酒店 staff)发一种特制的帽子,帽檐上嵌着摄像头,从头部的视角记录他们工作的全过程。这些视频数据,最终会被卖给AI实验室和机器人公司,用来训练能做同样事情的机器。

    Human Archive 四位创始人
    Human Archive 的四位联合创始人,均来自加州大学伯克利分校和斯坦福大学

    820万美元,押注「物理AI」的数据荒

    Human Archive 本周宣布完成了820万美元的融资,投资方阵容相当豪华:Wing Venture Capital、NVP Capital、Y Combinator,还有来自OpenAI、英伟达、谷歌、BAIR、SAIL等机构的天使投资人。

    钱用来干什么?很简单——收集更多数据。现在各家都在抢着做能在现实世界里干活的机器人,但大家都面临同一个瓶颈:没有足够多的「人类干活视频」来训练模型。Human Archive 的算盘是:印度有几百万零工工人,让他们戴着摄像头上班,就能规模化地收集到别人拿不到的真实世界数据。

    「世界上还没有其他人能够规模化地同步收集头戴式RGB-D、力反馈、全身动作捕捉以及同步的胸部和腕部摄像头数据。」——Wing VC合伙人Zach DeWitt

    不是所有人都买账

    想法很性感,落地很骨感。Human Archive 已经被印度几家头部家政服务平台拒绝了,包括Pronto和Urban Company。上周这件事在印度媒体上闹了一阵,Urban Company的CEO直接在X上回怼说「我们不会参与这种安排」,Human Archive的联合创始人则回击称对方「迟早会被迫重新考虑,否则会失去客户」。

    更有意思的是,Pronto的联合创始人Anjali Sardana据称在听到数据合作的想法时,直接嘲笑创始人是「愚蠢的」。当然Pronto后来否认了这个说法。


    隐私这道坎,绕得过去吗

    工人每小时拿1美元的报酬,戴着摄像头去陌生人家里干活,拍下来的视频里可能有你的脸、你的客厅、你的生活细节——这件事的隐私问题,不用想都知道有多大。

    Human Archive 说他们符合印度《数字个人数据保护法案》的要求,会展示隐私政策,视频中的人脸会被模糊处理,所有数据都是匿名的。但印度电子和信息技术部上周已经开始审查这类公司的数据收集实践了。

    说到底,当AI训练数据的需求撞上全球最庞大的零工劳动力市场,这里面的伦理边界在哪里,恐怕不是一家公司自己说了算的。

  • Google AI把2027年当成「两年后」?这个bug已经笑了一年了

    你有没有试过在谷歌搜索里问一些看似简单的问题,然后被AI的回答整懵过?最近有个用了快一年的老bug又被翻了出来:如果你问谷歌AI「明年是2027年吗」,它有时候会一本正经地告诉你——2027年是两年后,不是明年。

    对,你没看错。明明现在是2026年,明年当然就是2027年,但谷歌的AI Overviews(就是搜索结果顶部那个AI生成的摘要)偶尔会给出完全错误的答案,说2027年还有两年才到。

    「is it 2027 next year?」——谷歌AI有时候的回答是:2027年是两年后。这个答案在过去一年里,已经在Instagram和Reddit上被网友调侃了无数次。

    一个bug活了一年还没死

    The Verge的记者Jay Peters最近重新测试这个问题时发现,AI Overviews给出的错误答案,引用的来源居然是2025年和2026年的旧Instagram帖子和Reddit帖子——也就是说,这个bug不是新出现的,而是已经存在了至少一年,而且谷歌的AI还在引用那些讨论这个bug的帖子来论证自己的错误答案。

    这就像一个死循环:AI答错了 → 网友截图发帖吐槽 → AI引用这些帖子作为权威来源 → 继续答错。

    谷歌AI Overviews错误回答截图
    谷歌搜索「is it 2027 next year」时,AI Overviews给出的错误回答界面

    更有意思的是,如果你现在去搜「disregard」这个词,谷歌到现在都不敢给你展示AI Overview。原因是之前有报道说,搜这个词会触发AI给出完全离谱的回答。谷歌显然是被迫给某些敏感查询关掉了AI摘要功能,但这个「2027年」的问题显然还没被修好。

    AI到底懂不懂「明年」是什么意思

    这个bug背后其实反映了一个挺尴尬的问题:大语言模型对于时间和常识推理的处理,远比我们想象的脆弱。训练数据里混入了大量过去年份的帖子,模型并没有一个可靠的「当前时间」锚点,所以在回答「明年是哪一年」这种问题时,它会试图从检索到的内容里找答案,而不是简单地做算术。

    有Reddit网友早在2025年就发帖调侃过这件事,当时谷歌AI给出的答案是「明年是2028年,2027年是后年」——比现在的版本还要离谱。看来这一年里,谷歌工程师多少修了一点,但显然没修干净。


    说回来,这其实挺让人担心

    一个搜索巨头把AI摘要放在搜索结果的最顶部,亿万用户每天都能看到,但它连「明年是哪一年」这种问题都能答错,而且错了一年多还没完全修好——这让人怎么敢相信那些更复杂、更专业的问题的回答呢?

    谷歌显然也知道这个问题很严重,所以他们现在对AI Overviews的触发条件做了很多限制。但问题是,用户看到那个AI摘要的时候,默认是相信它的——毕竟它长在搜索结果最显眼的位置,还带着谷歌的品牌背书。

    这个「2027年bug」也许看起来很可笑,但它折射出的是整个行业在AI搜索可靠性上的深层挑战。连时间推理都做不好,我们真的准备好让AI替我们总结医疗、法律、财经方面的信息了吗?

  • llama.cpp:90.4K Stars!本地大模型推理引擎,让普通电脑也能跑 AI

    llama.cpp:90.4K Stars!本地大模型推理引擎,让普通电脑也能跑 AI

    llama.cpp

    ⭐ 90.4K+ GitHub Stars

    💡 一句话介绍:llama.cpp 是用纯 C/C++ 编写的大语言模型推理框架,让普通电脑无需独立显卡就能运行大模型,是目前本地 AI 推理的基石项目。

    📦 项目简介

    llama.cpp 由 Georgi Gerganov 于 2023 年 3 月发布,最初的目标是在 Apple Silicon Mac 上用纯 CPU 运行 Meta 的 LLaMA 模型。项目发布后迅速引爆开源社区,截至目前已在 GitHub 收获 超过 9 万 Stars,成为本地大模型推理领域的事实标准。

    它的核心设计哲学是极简、高效与可移植——完全用 C/C++ 实现,没有任何 Python 依赖,单个可执行文件即可运行数十亿参数的大语言模型。它也是 GGUF 量化格式的发起者,这种格式已成为 Hugging Face 上量化模型的事实标准。

    今天,llama.cpp 不仅是开源项目,更是整个本地 AI 生态的底层引擎——LM Studio、Jan AI、KoboldCPP、Ollama(早期版本)等产品都在使用它作为推理后端。

    🔗 项目地址:https://github.com/ggml-org/llama.cpp

    📄 开源协议:MIT(完全免费,可商用)

    🌐 文档地址:https://llama-cpp.readthedocs.io/

    ⚙️ 安装要求与过程

    环境要求

    • 最低配置:4GB 内存即可运行 7B 量化模型(Q4_K_M)
    • 推荐配置:16GB 内存可运行 13B~70B 量化模型
    • GPU 加速:可选,支持 NVIDIA CUDA、Apple Metal、AMD ROCm、Vulkan
    • 操作系统:Windows / macOS / Linux / Android / iOS 全平台支持
    • 依赖:无需 Python,无需 Docker,无需任何运行时

    方式一:下载预编译文件(⭐ 推荐新手)

    步骤

    1. 访问 GitHub Releases 页面
    2. 下载对应操作系统的压缩包(Windows 选 llama-bn-x64.zip,macOS 选对应芯片版本)
    3. 解压后无需安装,直接使用命令行运行
    # 启动 OpenAI 兼容 API 服务(最常用)
    ./llama-server -m ./qwen2.5-7b-instruct-q4_k_m.gguf -c 4096 --port 8080
    
    # 启动交互式对话模式
    ./llama-cli -m ./model.gguf -p "你好,请介绍一下自己" -n 256
    
    # 启动后访问 http://localhost:8080 即可使用内置 Web UI

    方式二:pip 安装 llama-cpp-python(Python 用户)

    # 基础 CPU 版本
    pip install llama-cpp-python
    
    # NVIDIA GPU CUDA 加速版本
    CMAKE_ARGS="-DGGML_CUDA=on" pip install llama-cpp-python --upgrade --force-reinstall
    
    # macOS Apple Silicon Metal 加速版本
    CMAKE_ARGS="-DGGML_METAL=on" pip install llama-cpp-python --upgrade --force-reinstall
    
    # Python 调用示例
    from llama_cpp import Llama
    
    llm = Llama(
        model_path="./qwen2.5-7b-instruct-q4_k_m.gguf",
        n_ctx=4096,
        n_gpu_layers=-1  # -1 表示将所有层卸载到 GPU
    )
    output = llm("你好,请介绍 llama.cpp 的特色", max_tokens=256)
    print(output['choices'][0]['text'])

    方式三:从源码编译(进阶用户 / 自定义后端)

    git clone https://github.com/ggml-org/llama.cpp
    cd llama.cpp
    
    # 编译(根据硬件选择参数)
    cmake -B build -DGGML_CUDA=ON   # NVIDIA GPU 版本
    # cmake -B build -DGGML_METAL=ON  # Apple Silicon 版本
    # cmake -B build                   # 纯 CPU 版本
    
    cmake --build build --config Release -j $(nproc)
    
    # 编译完成后可执行文件位于 build/bin/ 目录下

    ✨ 核心功能

    🔧 1. 纯 C/C++ 实现,零依赖部署

    整个项目只依赖 C 标准库和 C++ 标准库,编译后生成单个可执行文件。这意味着你可以把 llama-server 直接拷贝到任何同架构机器上运行,无需安装 Python、Conda 或任何运行时环境。对于生产环境部署来说,这是巨大的优势。

    📊 2. GGUF 量化格式支持(业界标准)

    llama.cpp 社区发明了 GGUF(GPT-Generated Unified Format)格式,支持 Q4_K_M、Q5_K_M、Q8_0、IQ4_XS 等多种量化精度。Q4 量化可将模型大小缩减至 FP16 版本的 25%,7B 模型仅需约 4GB 内存即可运行。目前 Hugging Face 上绝大多数模型都提供 GGUF 版本。

    🖥️ 3. 纯 CPU 运行能力

    这是 llama.cpp 最大的亮点——它针对 CPU 推理做了大量优化(AVX2/AVX-512、NEON 等指令集加速),使得在 Intel i5、Apple M 系列芯片、AMD Ryzen 等消费级 CPU 上也能流畅运行量化后的 LLM。对于没有独立显卡的用户,这是运行本地大模型的唯一选择。

    🚀 4. 多 GPU 后端加速

    通过 -ngl(n-gpu-layers)参数可指定将多少 Transformer 层卸载到 GPU,显存不足时也可通过部分 GPU 加速显著提升推理速度。支持的后端包括:NVIDIA CUDA、Apple Metal、AMD ROCm、Vulkan,甚至支持 WebGPU 在浏览器中运行。

    🔌 5. OpenAI 兼容 API Server

    内置 llama-server 模式,提供完全兼容 OpenAI API 格式的接口。这意味着你可以用完全相同的代码,在本地用 llama.cpp 替代 OpenAI 的 API,无缝对接 Open WebUI、SillyTavern、Continue.dev 等前端应用,无需修改任何代码。

    🌍 6. 广泛的模型架构支持

    覆盖绝大多数主流开源 LLM 架构,包括 Llama 3.x、Mistral、Mixtral MoE、Qwen 2.5/3、Gemma 2/3、Phi-4、DeepSeek V2/V3、Command-R 等。新模型发布后,社区通常数天内即可完成适配。

    🚀 典型使用场景

    场景一:隐私优先的本地助手

    对于对数据隐私有严格要求的个人和企业,llama.cpp 是最理想的选择。所有推理在本地完成,数据无需上传云端。结合 Open WebUI 作为前端,你可以在完全离线的状态下拥有一个功能完整的 AI 助手。

    # 启动本地 API 服务
    ./llama-server -m ./models/qwen2.5-7b-q4_k_m.gguf \
        -c 4096 -ngl 99 --port 8080
    
    # Open WebUI 连接本地服务
    open-webui serve  # 然后访问 http://localhost:3000
                     # 在设置中填写 API URL: http://localhost:8080/v1

    场景二:AI 应用的后端推理引擎

    如果你正在开发需要本地 LLM 能力的应用(如桌面软件、移动 App、嵌入式设备),llama.cpp 是最佳的推理引擎选择。它的 C/C++ 接口可以直接嵌入到你的应用中,无需启动外部服务。

    著名的 AI 编码助手 Continue.dev、本地 AI 助手 Jan AI、角色扮演工具 KoboldCPP 都使用 llama.cpp 作为底层推理引擎。

    场景三:低成本服务器部署

    对于想要搭建内部 AI 服务的团队,llama.cpp 可以在没有高端 GPU 的服务器上运行。一台配备 64GB 内存的普通服务器,就可以运行量化后的 70B 参数模型,为整个团队提供 LLM 推理服务。

    # 服务器部署:运行 70B 模型(需要约 40GB 内存)
    ./llama-server -m ./llama-3.3-70b-q2_k.gguf \
        -c 8192 --port 8080 -t 16  # -t 16 表示使用 16 个 CPU 线程

    📊 量化版本选择指南

    量化版本 模型大小(7B) 质量 适用场景
    Q8_0 ~7.5GB ⭐⭐⭐⭐⭐ 几乎无损 显存充足,追求最佳质量
    Q5_K_M ~5.5GB ⭐⭐⭐⭐ 非常接近 Q8 大多数场景的最佳平衡
    Q4_K_M ~4.5GB ⭐⭐⭐ 轻微质量下降 显存/内存有限的常规场景(推荐)
    IQ4_XS ~4.0GB ⭐⭐⭐ 智能量化,同大小质量更优 新一代推荐选择
    Q3_K_M ~3.5GB ⭐⭐ 质量下降较明显 内存严重受限的极端场景

    ⚠️ 注意:量化级别越低,推理质量下降越多。对于重要场景,建议使用 Q4_K_M 或更高质量;对于简单任务(如代码补全、分类),Q3 也是可以接受的。

    💡 推荐理由

    如果你问我”想要在本地运行大模型,应该从哪里开始?”,我的答案一定是 llama.cpp

    作为一个在开源社区活跃了多年的项目,llama.cpp 不仅技术上过硬,社区生态也极其丰富。它解决了本地 AI 推理的三个核心痛点:

    • 门槛低:不需要懂 Python,不需要配置环境,下载预编译文件解压就能用
    • 质量高:经过两年多的社区优化,推理速度和质量已经非常接近商业方案
    • 生态好:几乎所有主流本地 AI 工具都支持或基于 llama.cpp

    对我个人来说,llama.cpp 最有价值的地方在于它的 OpenAI 兼容 API。这让我的本地开发环境和云端开发环境可以用同一套代码——开发时连本地 llama.cpp,部署时换成一个环境变量指向 OpenAI,其他代码完全不用改。这种灵活性在今天这个 AI 工具链快速变化的时代,是非常宝贵的。

    另外,如果你对 AI 推理的底层原理感兴趣,llama.cpp 的源代码是最好的学习材料。它把 Transformer 推理的每一步都用 C 语言实现得清晰可读,比任何教科书都更直观。

    📌 适合人群:想要在本地运行大模型的 AI 爱好者、需要在无网环境下提供 LLM 能力的开发者、对 AI 推理性能优化感兴趣的研究者。

    📌 不适合人群:只想用图形界面、不想碰命令行的用户(建议直接用 LM Studio 或 Jan AI,它们底层用的就是 llama.cpp)。

    📥 下载地址

    提示:如果你不想自己编译或配置,可以直接使用基于 llama.cpp 封装的图形化工具:LM Studio(最友好的图形界面)、Jan AI(开源替代方案)、或 Ollama(命令行工具,我们之前介绍过)。它们的底层都是 llama.cpp,但提供了更简单的使用体验。

  • 教皇用AI写关于AI危险的通谕?这个瓜有点大

    教皇良十四世的首份通谕《Magnifica Humanitas》刚发布,就有人怀疑:这玩意儿是不是用AI写的?而且写的还是AI的危险。

    通谕是教皇写给全球天主教徒的长篇信件,通常讨论重大的道德和社会问题。这份通谕之所以受关注,因为它是第一份聚焦AI及其广泛影响的通谕。更有意思的是,发布仪式上还站着Anthropic的联合创始人Christopher Olah。

    教皇良十四世发布首份通谕《Magnifica Humanitas》
    教皇良十四世首份通谕《Magnifica Humanitas》发布仪式(图源:The Verge / Getty Images)

    AI检测工具说:有点悬

    事情起因是LessWrong论坛上Linch Zhang发的一项分析。他用流行的AI检测工具Pangram检测了这份通谕,结果发现:

    • 某些段落有40%到100%的概率是AI生成的
    • “genuinely”这个词出现频率异常高,而这个词在Claude模型的写作中很常见
    • 第一章被Pangram标记为62% AI生成

    The Verge把通谕大约2000字的内容扔进Pangram,结果是:约46%的内容估计为AI撰写

    通谕是教皇发布的篇幅较长的信件,旨在传达针对当时重要道德和社会挑战的教导。这份通谕是教皇良十四世的首份通谕,也是第一份聚焦AI及其广泛影响的通谕。

    但AI检测不是百分百靠谱

    当然,AI检测工具并非万无一失。Zhang的分析也发现,Pangram把某些章节标记为”几乎0% AI生成”。作为对比:

    • 前四份通谕的前20段内容,Pangram100%判定为人工撰写
    • 教皇良十四世的一次演讲转录文本,Pangram评级为100%人工撰写

    Pangram在AI研究人员中口碑还不错。2025年3月他们声称,把人工撰写的内容误判为AI生成的概率约为万分之一。但不同AI检测工具的结果可能截然不同,即使结果一致也无法保证完全正确。


    这件事为什么有意思

    且不论这份通谕到底是不是AI写的,这件事本身就挺讽刺的:

    • 一份警告AI危险的文档,本身可能就是AI写的
    • 发布仪式上站着Anthropic联合创始人(Claude的东家)
    • AI检测工具自己也在被质疑准确性

    目前梵蒂冈还没有回应置评请求。这份通谕的核心内容是呼吁在AI时代保持”深刻的人性”,如果它真的是用AI写的……那这个反讽力度简直拉满。

    不管结论如何,这件事给所有人的提醒是:AI生成的内容正在进入人类最权威的文本行列,而我们用来检测它的工具,本身也还在被验证

  • 谷歌AI搜索太霸道,DuckDuckGo躺赢:安装量暴增30%

    上周谷歌I/O开发者大会扔了个重磅炸弹:传统搜索的蓝色链接列表,要被AI代理彻底取代了。这个代理能回答提问、执行任务,还能在后台默默跑监控。听起来很酷对吧?但用户的反应却是——”我换搜索引擎。”

    我上周亲耳听到一位女士打电话说要改用DuckDuckGo,理由是后者可以”选择不用AI”。她的原话是:”谷歌已经不是以前的谷歌了。”看来有同样想法的人不在少数。

    谷歌这次改版引发的反弹超出预期。有人骂它”扼杀开放网络”,有人担心AI概览给出不准确的答案,还有人单纯就是烦了——连搜个”disregard”这种基础操作都被复杂化了。

    DuckDuckGo捡了大便宜

    DuckDuckGo这家一直被谷歌压着打、美国市场份额只有2%左右的隐私搜索引擎,这次居然躺赢了。数据说话:

    • 5月20-25日,DuckDuckGo美国区应用安装量周均增长18.1%,5月25日当天峰值增幅达到30.5%
    • iOS端更猛,周均增长33%,峰值增幅69.9%
    • 无AI搜索页面noai.duckduckgo.com的访问量周均增长22.7%,5月24日峰值27.7%

    有意思的是,连阵亡将士纪念日周末这种传统流量低谷期,DuckDuckGo的用户量都在涨。CEO Gabriel Weinberg这周出来表态了:”谷歌正在强制推送AI,用户没有选择退出的选项。结果就是他们的搜索结果越来越差,而不是越来越好。”

    DuckDuckGo无AI搜索选项界面
    DuckDuckGo的”No AI”搜索选项(图源:TechCrunch)

    DuckDuckGo自己也有AI,但给你选择权

    别以为DuckDuckGo是反AI原教旨主义者,人家也有AI产品,叫Duck.ai。这个产品免费、免注册,支持Claude 4.5 Haiku、Llama 4 Scout、Mistral Small 3 24B、GPT-5 mini等模型。

    关键区别在于:DuckDuckGo的AI是你可以选的,不是被强制喂给你的。而且隐私保护做得很到位——请求到达模型提供商之前就剥离用户IP,30天内删除对话记录,聊天内容不用于模型训练。

    Weinberg的说法挺直白:”我们不仅尊重用户的选择权,也尊重用户的隐私权。你在DuckDuckGo上的一切操作都是私密的。”


    这件事其实给所有做AI产品的公司提了个醒:用户并不排斥AI,但厌恶被强迫。谷歌这次改版的技术方向可能没错,但把选择权拿走,就会把用户推向竞争对手。DuckDuckGo这波流量能维持多久不好说,但至少证明了一件事——给用户选择权,比把所有功能都AI化更重要

  • 我用Google的新AI模型Omni把自己P进了埃菲尔铁塔前,效果好到让我不安

    去年我用AI把孩子的毛绒玩具”深度伪造”成了一只去度假的小鹿,当时只是想验证一下Google在Gemini广告里承诺的功能到底靠不靠谱。视频没给孩子看,但那个实验让我开始认真思考:生成式AI的”无害娱乐”和”纯垃圾内容”之间,到底有没有界限?

    也许这两个圆圈完全重叠呢。也许不是。但有一件事我很确定:做出逼真的AI视频,需要的努力和知识少得令人惊讶。而这个趋势,在Gemini进入Omni时代之后,还在继续。

    Omni到底是什么

    Omni是Google新推出的一套生成式模型家族,号称有一天能把任何类型的输入——照片、视频、文字——变成任何其它东西。不过目前阶段,它还只是个视频生成工具。

    Omni Flash是这套模型里第一个正式发布的版本,现在已经可以在Google的AI视频生成和编辑平台Flow上用。如果你愿意,当然也可以继续用旧的Veo模型——但Omni在几个维度上确实比Veo进了一步。

    Google声称Omni在生成视频时会融入更多”现实世界知识”,因此能更好地保持角色在整个视频中的一致性。

    于是我把那只AI小鹿又请了出来,让它收拾行李再去冒险——看看Omni是不是真的如Google说的那样。

    结果:好得让人困惑

    怎么说呢,结果非常两极分化,甚至可以用”令人困惑”来形容。有些片段做得很好——比我五个月前测试Veo的时候一致性和还原度都高得多。但即使是最好的片段,也还是会有一些典型的”AI惊吓时刻”:比如小鹿在跳伞的时候突然换了朝向。

    我给了Omni更多创作空间:”做一个蒙太奇,展示小鹿打包行李、登上邮轮去热带度假的过程。氛围要可爱、好玩。小鹿在行李箱里塞了件搞笑的东西,后面会在片段里派上用场。”

    结果小鹿塞了一罐蜂蜜进去;后面确实有段情节是小鹿去够那罐蜂蜜,把它当成防晒霜在挤。说实话,这个桥段还不错。问题在于那瓶蜂蜜的外观在整个视频里一直在变:从玻璃罐,变成透明的挤压瓶,又变回装蜂蜜的挤压瓶。而我甚至不知道该怎么描述模型对视频最后一帧的处理——就好像它把刚才生成的所有元素一股脑吐出来就完事了。

    AI generated content label example
    Google Omni生成的AI内容会有标注 / The Verge

    编辑功能:有进步,但还不够

    你可以用文字提示词来建议对视频进行修改。实话实说,这方面Omni确实比Veo好用。但Veo的结果本来就烂得可以——我发现每次想改点什么,直接重新生成一个新视频反而更快。Omni确实会”听进”你的修改建议,但结果并不总是能打中你想要的点。

    我让它强调小鹿在度假片段里的面部反应,结果出来的东西看起来很怪异。它还时不时给小鹿加上鹿角——但小鹿根本没有鹿角,它还是个宝宝呢,谢谢。当我提示它去掉某个场景里突然出现的鹿角时,它照做了——然后在所有其他场景里都加上了鹿角。

    这一切都不是免费的

    生成视频是要消耗”积分”的,根据场景长度和起始”素材”的不同,一次消耗15到40积分不等。一轮编辑要花40积分。我订的是每月20美元的AI Pro方案,每月给1000积分。生成了大约20个片段、其中几个做了编辑之后,我的积分就只剩145了。

    如果你对想要生成的视频有比较具体的想法,那你可能要做好心理准备:跟模型来回拉锯很多轮才能得到一个接近你想象的视频,而每一轮都要烧积分。

    然后我把自己深度伪造了

    Omni号称的强项之一是把AI生成的内容叠加到真实视频上,所以我让小鹿休息了一下,转而深度伪造了我自己。我给Omni喂了一段自拍视频,表情很中性,然后让它生成我吃一盘意面、坐在飞机座位上、站在埃菲尔铁塔前咬一口法棍的视频。说实话,我没准备好面对我看到的东西。

    我的深度伪造视频里有一些”AI痕迹”:叉子碰到意面碗的那个声音有点太”做作”了;飞机视频的背景里有个女人出现了两次;但除了这些小故障和一种说不清的”诡异感”之外,它们逼真得要命。

    我把吃意面的片段给我丈夫看了。他知道我在测试AI视频工具,但我没告诉他场景里哪些部分是AI生成的。在不知道哪些是AI的情况下,他完全相信我就是坐在镜头前吃意面——他唯一的疑点是那个碗看起来不太眼熟。至于吃意面这个动作本身,逼真到足以让我丈夫信服——一个在过去十年里几乎每天看着我吃东西的男人。

    我的其他深度伪造视频有不同程度的”好到能在社交媒体上骗到人”。有几段埃菲尔铁塔的片段看起来有点卡通化,但其中一段逼真到你可能要反复看几次才能发现是AI。我知道那不是我,因为AI版本的我转过头时露出了扎成马尾的头发——但我不觉得其他任何人能看出区别,而这让我感觉很怪。


    我得诚实地说,我有点被这一切整累了。当初测试Veo 3的时候,我被它能产生的真实感震惊了。过去几年里,我一次又一次地被”用AI造出假人”有多容易而震惊。我可能也应该被Omni震惊,我想我确实震惊了,但那种”震惊感”已经磨掉了。

    要用AI做出一部”电影级杰作”,其实还没有Google想让你相信的那么容易。但Omni确实在某些可辨认的维度上比Veo有进步。如果你有一个Google账号和一张信用卡,那你只需要微不足道的努力,就能把一段自己坐在家里的视频变成看起来像在飞往毛伊岛的飞机上的画面。我不觉得我们正好站在”奇点的山麓”——但我们肯定已经深深陷入了诡异谷。