标签: 编码模型

  • Vibe Coding:每个人都能写软件的时代来了

    个人软件革命
    AI正在让”个人软件”成为可能(图片来源:The Verge)

    说实话,我最近一直在想一个问题:为什么我们每天都在用那些”勉强能用”的软件?

    你知道我在说什么——那个待办事项app,功能挺全,但就是少了那么一个你想要的小功能;那个笔记工具,同步很稳,但界面丑得让你每次打开都想换一个。以前遇到这种情况,要么忍,要么学编程,要么花钱请人写。现在?AI帮你写。

    David Pierce在The Verge写了篇长文,讲的是”vibe coding”——这个词是Andrej Karpathy(OpenAI创始团队成员)提出来的。意思是,你不需要懂编程,只要你能说清楚想要什么,AI就能帮你把软件写出来。他形容这个状态是”不work才让人惊讶”,而不是”work了才惊讶”。这转折挺大的。

    我试了Claude Code

    我试了一下Claude Code。20分钟,我写出了一个勉强能跑的原型——日历、笔记、任务清单全在一个页面里。当然,后面修bug花了我好几天,但关键是:我真的在”做软件”了,而不是在”提需求”。

    Robin Sloan是个作家,同时也是个技术爱好者。他经营一家橄榄油公司,用AI写了个Ruby脚本,从Shopify和USPS拉数据,自动生成发货标签。他自己也说”写得挺凑合的”,但管用。他还说了句挺戳人的话:”如果我被巴士撞了,这对我的橄榄油公司来说是个问题,因为只有Robin知道怎么跑这个软件。”但只要Robin还在,它就跑得挺好。

    那些只服务于一个人的app

    这篇文章里列举了一堆”个人软件”的例子,看得我直乐:有人写了个命令行工具给幻想棒球球员排名,有人给1990年代的游戏加入可再生能源概念,有人做了个优化Secret Santa分配的工具,还有人搞了个系统在院子里标记狗屎位置(这玩意儿居然真的有人需要!)。

    这些app的”可寻址市场”精确到一个人,收入潜力精确为零美元。但这就是”个人软件”的真谛——它不一定是要卖给别人的,它就是为你自己量身定做的。


    为什么现在才行?

    说实话,以前不是没人想过让普通人写软件。IFTTT、Apple Shortcuts,这些工具都试过,但问题在于:如果你要用”如果-那么”语句来思考,大多数人就已经放弃了。

    大语言模型改变的是这个交互方式。你不需要学编程语法,你只需要能用自然语言描述你想要什么。而且,现在的AI不只是”生成代码”,它还能帮你调试、帮你理解报错信息、甚至帮你部署到GitHub和Vercel。

    • Vibe Coding:不需要学编程,用自然语言让AI写软件
    • 个人软件时代:为自己量身定制,不一定非要卖给别人
    • 边缘需求有救了:大厂不做的功能,现在你能自己搞
    • 局限也很明显:没客服、没保障,但对你一个人来说可能够用了

    最后说一句:以后评判一个人”懂不懂技术”,可能不再是他会不会写代码,而是他能不能用AI把自己的需求变成现实。这个门槛,比我想象中低多了。

  • 中国AI编码模型打破”落后6-9个月”框架:开源权重+低成本改写全球格局

    说实话,当我看到2026年4月这波中国AI编码模型的密集发布时,第一反应是:那个”中国AI落后6-9个月”的老框架,真的该扔进历史垃圾桶了。

    12天,4家实验室,一场静悄悄的能力赶超

    从4月底到5月初,短短12天里,4家中国AI实验室接连发布了各自的最新编码模型,而且全部是开源权重。这可不是小打小闹的demo,而是实打实能打的工程级模型:

    • Z.ai的GLM-5.1
    • MiniMax的M2.7
    • Moonshot的Kimi K2.6
    • DeepSeek的V4

    最关键的是,它们在SWE-Bench Pro这个权威编码基准上的得分全部落在56-59分区间——什么概念?这个得分已经和西方前沿模型持平了。

    价格才是真正的杀手锏

    如果能力持平还不够震撼,那成本数据绝对让你倒吸一口凉气:这4款模型的推理成本,最高不超过Claude Opus 4.7的三分之一

    我觉得这里有个被很多人忽略的逻辑:AI能力如果可以低价获取,那么”前沿模型的护城河”到底在哪里?如果Kimi K2.6或者DeepSeek V4能以1/3的价格做到Opus 4.7差不多的事情,那企业采购决策会不会悄然生变?

    这不是简单的性价比问题,而是整个AI供应链的话语权在转移。

    “落后6-9个月”为什么不成立?

    State of AI报告里有一句话我很认同:”中国落后6-9个月”的旧框架在智能体编码领域已不成立

    NIST的CAISI评估显示,DeepSeek V4的跨域基准综合表现落后美国前沿约8个月,但DeepSeek自己的模型卡显示V4-Pro与Opus 4.6、GPT-5.4持平。两个结论都是对的——只不过评估的维度和基准不同而已。

    这其实揭示了一个更深的真相:AI能力的比较,已经不再是单一时间轴上的先后问题,而是评估者、支架工程、基准设计的综合博弈。当多个最优模型来自中国且为开源权重时,”追赶者”这个标签就已经失效了。

    开源权重:中国AI的”农村包围城市”?

    还有一个细节值得琢磨:这4款模型全部开源权重。我觉得这不是巧合,而是一种极其聪明的战略选择。

    开源意味着什么?意味着全球开发者可以本地部署、可以微调、可以嵌入自己的产品而不用看任何人的脸色。当西方实验室还在纠结”该不该开源”的时候,中国实验室已经用开源完成了全球开发者生态的布局。

    Kimi K2.6发布时展示了一个12小时连续工具使用轨迹,演示了将推理引擎移植到Zig的完整过程——这种”晒能力”的方式本身就很有说服力,比发一篇论文直观多了。

    这件事的真正影响可能还没显现

    我觉得现在讨论”中国AI是否赶超”还为时尚早,但有一个趋势已经很清晰了:在整个AI领域最具经济影响力的能力(编码和智能体工程)上,多个最优模型来自中国且为开源权重,这件事的长期影响可能被严重低估了。

    企业采购、开发者工具链、云服务定价、甚至AI安全的研究议程——所有这些都将因为这个变化而重新调整。我不是在说”中国AI已经全面领先”,而是说”全面落后”这个叙事已经失去了事实基础。


    参考资料:State of AI: May 2026, Air Street Press