博客

  • 梦幻清真寺古尔邦节可爱动物乱入自拍

    梦幻清真寺古尔邦节可爱动物乱入自拍

    梦幻清真寺古尔邦节可爱动物乱入自拍



    🤖 ChatGPT

    🇺🇸 English Prompt

    Ultra-realistic super cute chaotic Eid al-Adha selfie photograph in front of a dreamy pastel-toned grand mosque during bright sunny afternoon, featuring an adorable stylish young woman (face photo refference) taking a playful ultra-wide-angle smartphone selfie surrounded by funny wholesome animal chaos.
    The young woman wears a soft pastel cream oversized cardigan layered over a flowy white dress with cute ribbon details, paired with chunky pastel sneakers and tiny heart-shaped accessories.
    Her long dark hair flows softly in the wind with colorful mini hair clips and ribbon pins.
    She smiles brightly with sparkling eyes while making a tiny finger-heart pose toward the camera, giving soft bubbly “cute chaos” energy.
    Camera style: extreme fisheye selfie perspective, slight smartphone distortion, playful close-up framing, TikTok / Instagram selfie aesthetic, dynamic arm-reaching composition, candid chaotic energy.
    Surrounding her are adorable expressive farm animals: a fluffy baby goat wearing tiny pink sunglasses, a smiling cow with flower crown photobombing beside her, another baby goat jumping happily behind her, tiny chicks waddling around her feet, a sleepy sheep sitting adorably in foreground, and one goat trying to lick the camera lens.
    Background: beautiful giant mosque with glowing cream domes and tall white minarets, soft pastel blue sky, warm fluffy clouds, busy Eid celebration crowd, cute wholesome festival atmosphere, people laughing and reacting in the background.
    Add playful cute doodles everywhere: tiny pastel hearts, sparkles, comic stars, handwritten texts like: “CUTIE CHAOS ” “HELP ” “EID BESTIE” “too cute to handle” “AAAAA” small arrows pointing at funny animals, sticker-style smiley faces, pastel flower doodles, soft glitter effects.
    Lighting: bright warm sunlight, soft dreamy glow, slightly overexposed highlights, cute pastel color grading, gentle lens flare, vibrant cheerful tones.
    Visual style: ultra-realistic but adorable social media chaos, Pinterest cute-core aesthetic, playful Gen Z selfie energy, wholesome meme realism, soft cinematic textures, high-detail smartphone HDR look, TikTok viral cute aesthetic, funny but heartwarming composition.
    Mood & keywords: cute Eid chaos, wholesome funny selfie, adorable animal madness, playful Muslim holiday vibe, bubbly internet energy, cozy pastel realism, dreamy social media aesthetic, chaotic but lovable happiness.
    Typography overlay: large handwritten pastel doodle text: “Selamat Hari Raya Idul Adha”
    Aspect ratio 9:16 vertical.

    🇨🇳 中文提示词

    超现实超级可爱的混乱古尔邦节自拍照,背景是明媚阳光下午梦幻柔和色调的大清真寺,主角是一位可爱的时尚年轻女性(面部照片参考),她正拿着智能手机拍摄俏皮的超广角自拍,周围环绕着滑稽温馨的动物混乱场景。
    这位年轻女性穿着一件柔软的淡奶油色大号开衫,里面层搭一件带有可爱丝带细节的飘逸白裙,搭配笨重的柔和色调运动鞋和微小的爱心形状饰品。
    她长长的深色头发在风中轻轻飘动,别着彩色迷你发夹和丝带发卡。
    她灿烂地微笑着,眼睛闪闪发光,对着镜头做一个微小的手指爱心姿势,散发出柔和活泼的“可爱混乱”能量。
    镜头风格:极端鱼眼自拍透视,轻微的智能手机畸变,俏皮的特写构图,TikTok / Instagram 自拍美学,动态的手臂延伸构图,自然的混乱能量。
    周围是可爱、表情丰富的农场动物:一只戴着粉色小墨镜的毛茸茸小山羊,一只戴着花环在旁边抢镜微笑的奶牛,另一只在后面快乐跳跃的小山羊,在脚边摇摇摆摆走动的小鸡,前景中坐着的一只可爱贪睡的绵羊,还有一只山羊正试图舔镜头。
    背景:美丽的宏伟清真寺,有着发光的奶油色圆顶和高大的白色宣礼塔,淡蓝色天空,温暖蓬松的云朵,热闹的古尔邦节庆祝人群,可爱温馨的节日气氛,背景中人们在欢笑和互动。
    到处添加俏皮可爱的涂鸦:微小的淡色爱心、闪光、漫画星、手写文字如:“CUTIE CHAOS ” “HELP ” “EID BESTIE” “too cute to handle” “AAAAA” 指向滑稽动物的小箭头,贴纸风格的笑脸,淡雅的花卉涂鸦,柔和的闪粉效果。
    光效:明亮的温暖阳光,柔和梦幻的光芒,轻微过曝的高光,可爱的柔和色调调色,柔和的镜头光晕,充满活力且欢快的色调。
    视觉风格:超现实但可爱的社交媒体混乱感,Pinterest cute-core 美学,俏皮的 Z 世代自拍能量,温馨的梗图现实主义,柔和的电影质感,高细节智能手机 HDR 效果,TikTok 病毒式可爱美学,滑稽但暖心的构图。
    情绪与关键词:可爱的古尔邦节混乱,温馨有趣的自拍,可爱的动物疯狂,俏皮的穆斯林节日氛围,活泼的互联网能量,舒适的柔和现实主义,梦幻的社交媒体美学,混乱但可爱的幸福感。
    排版叠加:大型手写淡色涂鸦文字:“Selamat Hari Raya Idul Adha”
    纵横比 9:16 垂直。
  • 伦敦大本钟与威斯敏斯特宫建筑蓝图

    伦敦大本钟与威斯敏斯特宫建筑蓝图

    伦敦大本钟与威斯敏斯特宫建筑蓝图



    🤖 ChatGPT

    🇺🇸 English Prompt

    Ultra-detailed architectural blueprint sheet of Big Ben (Elizabeth Tower) and the Palace of Westminster in London, full-height front view with detailed engineering annotations and historical callout labels. Iconic Gothic Revival clock tower featuring the world-famous clock face, ornate stone carvings, golden architectural details, towering spire, massive clock mechanism, historic bell chamber, and the Houses of Parliament beside the River Thames.
    
    Include detailed infographic elements showing height of 96 meters (315 feet), completed in 1859, designed by Augustus Pugin and Charles Barry, Great Bell "Big Ben" weighing over 13 tons, four illuminated clock faces, internal spiral staircase, parliamentary chambers, restoration history, fire protection systems, structural reinforcement, security measures, tourism facilities, and cultural significance.
    
    Surrounding the landmark are architectural schematics, clock mechanism diagrams, construction timeline graphics, structural engineering notes, floor layouts, skyline comparisons, historical facts, restoration details, and educational infographic UI elements. Style combines historical architecture visualization, engineering blueprint aesthetics, travel documentary design, cinematic city photography, and ultra-detailed professional landmark presentation, 8k, 1744x2336

    🇨🇳 中文提示词

    伦敦大本钟(伊丽莎白塔)和威斯敏斯特宫的超详细建筑蓝图表,全高正面视图,带有详细的工程注释和历史标注标签。标志性的哥特复兴式钟楼,拥有世界闻名的表盘、华丽的石雕、金色的建筑细节、高耸的尖塔、巨大的时钟机构、历史悠久的钟室,以及泰晤士河畔的国会大厦。包含详细的信息图元素,展示 96 米(315 英尺)的高度,于 1859 年完工,由奥古斯都·普金和查尔斯·巴里设计,重达 13 吨以上的大钟“大本钟”,四个照明钟面,内部螺旋楼梯,议会厅,修复历史,防火系统,结构加固,安保措施,旅游设施和文化意义。地标周围是建筑示意图、时钟机构图、施工时间线图、结构工程笔记、楼层布局、天际线对比、历史事实、修复细节和教育信息图 UI 元素。风格结合了历史建筑可视化、工程蓝图美学、旅行纪录片设计、电影城市摄影和超详细的专业地标展示,8k,1744x2336
  • 超现实的Y2K时尚肖像

    超现实的Y2K时尚肖像

    超现实的Y2K时尚肖像



    🤖 ChatGPT

    🇨🇳 中文提示词

    超现实的Y2K时尚肖像,中景腰部以上镜头。
    
    年轻美丽的华裔时尚影响者,拥有精致小巧的脸庞,白皙发光的皮肤带有真实的皮肤纹理、可见毛孔和自然的健康光泽。韩日时尚杂志妆容:哑光皮肤效果,鼻梁处细微的高光,眼下区域柔和提亮,脸颊和鼻梁上晕染自然的粉色腮红。浅棕色柔和烟熏眼影带有细腻闪光,延长眼线顺应自然眼型,分层卷翘睫毛,柔和的婴儿肥眼部细节。饱满双唇涂抹裸粉渐层唇色,带有自然的润泽光泽。
    
    柔顺的墨黑色头发扎成凌乱的高马尾,细碎刘海垂落在眉毛上方,散落发丝自然勾勒脸部轮廓。佩戴无框透明粉色眼镜,眼镜上带有真实的闪光反射和细微高光。
    
    她随意地倚靠在极简白色墙壁上,身体向镜头倾斜约45度。自然放松的姿势,散发自信的时尚模特能量。右手轻轻调整眼镜腿,左手置于银色链条腰带附近。头部微微倾斜,下巴微抬,与镜头保持直接眼神接触。表情自信、轻松、俏皮且时尚,捕捉2000年代初街头时尚的无忧态度。
    
    身着正宗Y2K风格服装:浅蓝色裁剪牛仔夹克敞开穿着,内搭合身的白色露背式上衣。低腰水洗宽腿牛仔裤,带有自然的堆叠褶皱和放松垂坠感,点缀一条水钻银色链条腰带垂落在臀部。层层叠加的银色心形吊坠项链、圈形耳环、透明树脂手链,以及标志性的千禧年代配饰。金属银色肩背包自然夹在手臂下。
    
    昏暗环境由强烈的直射闪光摄影照明。明亮的闪光灯在身后的白色墙壁上投下戏剧性阴影。融合真实2000年代初夜生活快照氛围与模拟胶片美学。可见粗糙胶片颗粒,高光处细微晕影,轻微复古色偏,柔和自然渐晕效果。
    
    高端韩国时尚杂志编辑风格融合Y2K街头风潮。灵感来源于早期的Nylon Japan、ViVi Magazine、FRUiTS街头摄影,以及2000年代名人随拍闪光摄影。
    
    85mm镜头,f/1.8光圈,RAW摄影品质,眼镜和眼睛处剃刀般锐利焦点,高细节发丝,真实皮肤纹理,超详细8K分辨率。
  • 微软正在打造AI超级应用——把Copilot全家桶装进一个入口

    据《财富》杂志报道,微软正在开发一款AI”超级应用”——把现在散落在各处的AI能力全部整合到同一个入口。具体来说,这款应用会把GitHub Copilot、Copilot聊天机器人、Copilot Cowork,以及一个内部代号为”Autopilot”的新智能体工作流能力,全部塞进一个App里。

    这个思路听起来很熟悉,对吧?OpenAI已经在走这条路了——把对话、搜索、代码、智能体编排全部整合进ChatGPT,让它成为一个真正的”超级应用”入口。现在微软想做同样的事,只不过依托的是自己整个Copilot产品线。

    微软的打法其实很清晰:它拥有全链路的产品布局——从代码编辑器里的Copilot,到Microsoft 365里的Copilot,再到独立发布的Copilot Cowork智能体平台。唯一缺的就是一个把它们串起来的”总控制台”。

    可能在Build大会上亮相

    《财富》的报道推测,这款超级应用可能会在近期举办的Microsoft Build开发者大会上亮相。Build是微软每年最重要的开发者活动,通常是发布重磅AI战略更新的场合。如果这款产品真的在Build上出现,基本等于微软官方确认了”超级应用”战略。

    值得一提的是,微软过去一年在Copilot品牌上投入极大,但用户体验一直是碎片化状态——写代码要用GitHub Copilot,处理文档要用Microsoft 365 Copilot,管理智能体工作流要用Copilot Cowork,三者之间的数据和上下文并不打通。这款超级应用如果成真,最直接的价值就是解决这个问题。

    和OpenAI的超级应用有什么不同?

    OpenAI的”超级应用”路线是围绕ChatGPT构建的——所有能力都收敛到一个对话窗口里,用户跟AI交互的主要方式还是”说话”和”看结果”。微软的路线则更偏向”工作流”——它继承的是Office、Azure、GitHub这套企业生产力生态,AI超级应用更像是一个”智能工作操作系统”。

    两套打法背后的逻辑不太一样。OpenAI是从消费者往上打,微软是从企业往下打。最终谁能先把”超级应用”这件事做成,很大程度上取决于谁能先把多智能体协作、跨应用上下文传递、以及企业数据安全这三个问题解决掉。


    目前微软官方还没有确认这款产品的存在,按照惯例,在Build大会之前所有消息都只是传闻。但如果《财富》的报道方向是对的,这会是微软在AI应用层最重要的一次产品整合,也意味着”Copilot”作为一个独立品牌,正在从”功能”升级为”平台”。

  • 互联网正在为机器重构——AI智能体正在改写整个网络基础设施

    过去二十年,互联网一直是围绕人类行为设计的。人们搜索、点击、滚动、串流,这些动作有规律、可预测。但AI智能体不这么干活。它们能在几秒钟内发起一连串突发请求,同时调出十几个子智能体,疯狂查询数据库、检索文档、调用API,然后突然全部消失。这种流量模式,人类的网络基础设施从来没为它设计过。

    AWS悄悄改写了搜索数据库的底层的

    本周,亚马逊云科技(AWS)发布新一代OpenSearch Serverless——一个专门面向AI智能体负载设计的托管搜索和向量数据库。最核心的变化是:计算和存储解耦了。智能体发起任务时,算力可以在几秒内弹性扩容;智能体 idle 时,算力可以缩到零。客户不用再为空闲的计算资源付费。

    “智能体正从实验阶段走向生产环境,它们产生的流量模式,是之前的基础设施根本没考虑过的。”
    ——Tia White,亚马逊OpenSearch服务总经理

    之前的Serverless版本也有弹性,但存储和计算是绑定的,你至少得保留一个运行中的实例。说白了就是:哪怕你没在用,也得一直付停车费。新一代相当于改成了计时停车位——来了才计费,走了就归零。

    AI智能体概念图
    AI智能体正在改变互联网流量结构(图片来源:Getty Images)

    机器流量已经超过你想象

    Cloudflare的数据很说明问题:过去六个月, bots 流量已经占到整体HTTP流量的31%。其中AI爬虫、搜索引擎和AI助手加起来,约占所有bot请求的25%。Cloudflare高级产品经理Lai Yi Ohlsen预计,2027年上半年,非人类流量就会超过人类流量。

    这不只是在抢带宽。智能体的检索模式跟人类完全不一样——它们会并发查询数百个数据源,对延迟极度敏感,而且流量峰值毫无规律。传统的基础设施假设用户是”逐步浏览”的,但智能体是”瞬间爆发”的。

    整个行业都在跟

    AWS不是唯一一个在干这件事的。Databricks和Snowflake正在把自己重新定位为企业AI内存和检索系统;微软Azure最近也推出了针对AI智能体突发流量和多智能体共享内存的更新;Cloudflare上个月发布了面向智能体的持久化环境和即时扩展基础设施。

    Google I/O上周也释放了信号:用户很快就能把购物研究、行程预订、网页浏览等任务委派给AI系统。不管是面向消费者的AI智能体,还是企业内外部部署的智能体,机器对机器的流量正在指数级增长。


    这场基础设施的重构,本质上是为下一个十年做准备。当智能体成为互联网的主要”用户”,整个堆栈——从数据库到CDN,从API网关到身份认证——都得重新思考。目前看,大的云厂商已经跑起来了,但这一步才刚刚开始。

  • 2026年5月AI大模型密集发布:GPT-5.5、DeepSeek v4、Claude 4.6谁更胜一筹?

    GPT-5.5来了:OpenAI的又一次跳跃

    4月24日,OpenAI发布了GPT-5.5,官方描述是”迄今为止最智能、最直观的模型”。数字上的提升是实的:在Terminal-Bench 2.0测试中拿到82.7%,GDPval评测84.9%。

    但更值得关注的是它在Agentic coding(智能体编程)上的进步。写代码不再只是”补全下一行”,而是能自主规划多步骤任务、调用工具、自己debug。这对开发者来说,意味着AI编程助手真的从一个”聪明补全器”变成了”能一起干活的搭档”。


    DeepSeek v4:国产大模型的反击

    同一天,DeepSeek放出v4,推出Flash和Pro双版本。最炸裂的参数是1M+ token的超长上下文窗口——这意味着它可以一口气读完一整本技术手册,然后基于全书内容跟你对话。

    更妙的是它兼容OpenAI和Anthropic的SDK,开发者迁移成本几乎为零。加上本身就便宜,这波发布直接把”长上下文+低成本”的标杆拉高了。


    Claude Sonnet 4.6:接近Opus的性能,一半的价格

    3天后,Anthropic更新了Claude Sonnet 4.6和Haiku。核心卖点是”接近Opus级别的性能,但价格便宜得多”。对于已经在用Claude API做产品的团队来说,这个性价比提升是实打实的。

    这次更新还修了之前版本里推理不稳定和缓存出错的bug。对于生产环境用户来说,稳定性往往比基准测试分数更值钱。


    Google Gemini Pro & Flash:双版本策略的聪明之处

    Google也在同一天(4月27日)更新了Gemini Pro和Flash。Pro负责扛性能大旗,Flash负责低延迟和高并发场景。两个版本都支持1M token上下文窗口,多模态能力和推理能力都有明显提升。

    Google这波操作聪明在:不让用户做”性能vs成本”的单选题,而是两个版本各司其职。对于需要同时服务C端和B端的应用来说,这种组合很实用。


    IBM Granite 4.1:小参数模型的逆袭

    4月30日,IBM发布了Granite 4.1,参数只有8B,但性能居然能跟32B的MoE模型掰手腕。这件事传递的信号很清楚:堆参数不是唯一出路,数据质量和训练效率同样能打

    对于想在本地部署、或者推理预算有限的团队来说,这类小参数高性能模型是真正的香饽饽。大模型不一定非得”大”。


    四个趋势,定义接下来半年

    把这波发布潮放在一起看,有四个趋势已经很明显了:

    • 超长上下文正在变成标配。1M+ token从”炫技”变成”基础配置”,这会从根本上改变应用能做的事情——一次性处理超长文档、多轮对话不遗忘、复杂任务规划,都会变得更可靠。
    • 小参数模型崛起。DeepSeek v4和IBM Granite 4.1都在证明:聪明的训练比盲目的参数堆砌更有效率。这对降低推理成本、推动AI应用普及是好事。
    • Agentic能力成为新战场。从GPT-5.5到Claude 4.6,所有厂商都在强化”让AI不只是回答,而是主动完成任务”的能力。这是从”对话助手”到”智能代理”的关键一跃。
    • 监管压力在累积。欧盟AI Act的合规期限是2026年8月,没几个月了。技术在狂奔,但安全性和透明度基准测试的进度明显滞后。这波发布潮里,几乎每家都提到了”负责任的AI”,但真正做到多少,还得看。

    对开发者意味着什么

    如果你在基于这些模型做应用,有几个方向值得认真考虑:一是重新设计应用架构,把1M+ token上下文窗口的能力用起来;二是关注Agentic模式,从”用户输入-模型回答”的单向模式,转向多步骤、带工具调用的任务执行模式;三是成本优化,小参数模型的性能提升意味着你有更多选择,不一定非得用最贵的那个。

    2026年5月的这波模型发布,表面上是各家在比拼基准测试分数,实际上是AI从”技术演示”走向”大规模应用”的转折点。谁能把模型能力稳定、低成本、安全地交付到用户手里,谁就赢了。

  • MIT发布2026年AI十大趋势:从人形机器人训练到反AI运动

    人形机器人训练数据:动作捕捉的新战场

    就像人类的文字成了大语言模型的养料,现在连人类怎么动、怎么走路、怎么搬东西,都被大规模收集起来训练人形机器人。这事儿听起来有点怪,但确实在发生——有公司专门建了”训练中心”,让工人一遍遍重复同样的动作,就为了给机器人提供学习素材。还有更离谱的”提线木偶”模式:远方的人类通过远程操控,手把手教机器人怎么做事。

    这种做法投入巨大,但没人能保证一定成功。可资本还是在砸钱,因为这可能是让机器人真正”活过来”的唯一路径。


    大语言模型没有死,它正在进化

    去年大家还在感叹大语言模型”改变了世界”,今年从业者已经在琢磨下一个突破在哪里。容易摘的果子已经摘完了,模型的提升越来越难,但这不意味着LLM要退出历史舞台。

    相反,它正在往两个方向走:一个是把现有的能力压榨到极致,另一个是在寻找全新的架构突破。这条路不好走,但走通了就是下一个时代。


    AI让诈骗变得便宜又高效

    以前想搞网络诈骗,还得学点技术、花点钱买工具。现在有了生成式AI,门槛几乎降到了地板上。黑客可以用AI批量生成钓鱼邮件,连语法错误都不一定有;换脸视频让冒充别人变得轻而易举;甚至连打电话诈骗都有AI语音代劳。

    AI正在让网络犯罪变得更便宜、更快、更容易——这对普通人来说不是什么好消息。


    世界模型:让AI理解物理世界

    大语言模型擅长处理文字,但要让AI进入真实物理世界——比如让机器人知道”杯子掉地上会碎”这种常识——就需要”世界模型”。这类系统试图让AI理解外部世界的运作规律,而不仅仅是预测下一个词。

    如果这条路走通了,AI就不再只是聊天工具,而是能真正在现实世界里做事情的智能体。这可能是下一波AI浪潮最核心的突破点。


    智能体编排:从单打独斗到团队协作

    早期的AI智能体只能干一件事——比如帮你订个外卖,或者写段代码。但现实世界里的问题往往是复杂的,需要多个步骤、多种能力配合。

    现在的方向是”智能体团队”:一个负责搜索、一个负责推理、一个负责执行,像人类团队一样分工协作。这比单个超级智能体更灵活,也更容易落地。很多公司已经在往这个方向押注了。


    中国的开源赌注:免费模型赢来的全球影响力

    DeepSeek、通义千问、智谱……中国实验室过去一年里密集开源了一大批高质量模型,而且真的好用。这让全球开发者突然意识到:原来不用OpenAI也能做出厉害的东西。

    但这种”免费送”的策略能不能持续,没人说得准。训练模型太烧钱了,光靠口碑和开发者好感,账算得过来吗?不管怎样,全世界已经在基于中国的基础模型搞开发了,这本身就已经改变了格局。


    AI科学家:当AI开始做科研

    有些公司已经在开发能自主做科研的AI——不是帮你查文献,而是真的能设计实验、分析数据、甚至提出新假设。支持者说,这种AI合作者有一天可能会达到诺贝尔奖的水平。

    这话听起来夸张,但想想十年前大家也觉得”AI下围棋赢人类”是天方夜谭。科学发现的门槛正在被重新定义。


    反AI运动:当大家开始说”够了”

    过去几年AI基本上是想怎么发展就怎么发展,监管跟不上,大家也沉浸在”新技术好厉害”的兴奋里。但现在这股浪潮遇到了真正的阻力。

    艺术家不满自己的作品被拿来训练模型,工会担心AI抢走工作,保守派和自由派居然在”限制AI”这件事上找到了共同点。这股反对力量还在早期,但已经在一些具体问题上取得了小胜利。AI的无约束时代,可能正在走向终点。


    写在最后

    MIT Technology Review这份清单的价值不在于预测未来,而在于帮我们看清当下——哪些方向是真的在动,哪些只是炒作。人形机器人、世界模型、智能体编排,这些是当前最值得盯着的变化;而AI安全、监管反弹、开源商业化困境,则是这个行业必须面对的考题。

    2026年的AI,已经不再是”能不能做出来”的问题,而是”应该怎么用、谁来管、往哪里去”的问题。

  • Screenshot to Code:72.7K Stars!截图秒变代码,让前端开发效率提升10倍

    Screenshot to Code:72.7K Stars!截图秒变代码,让前端开发效率提升10倍

    Screenshot to Code 演示

    上传截图,AI自动生成对应代码


    🚀 项目简介

    Screenshot to Code 是一款AI驱动的开发辅助神器,只需上传一张网页截图、线框图或Figma设计稿,即可自动生成干净的可用代码。支持 HTML+CSS、React、Vue、Bootstrap 等多种技术栈,让设计稿到代码的转换从数小时缩短到几秒钟。


    ⚙️ 安装要求和过程

    💡 环境要求

    • Python 3.9+(后端依赖)
    • Node.js 18+(前端依赖)
    • Poetry(Python 依赖管理,推荐)
    • Docker(可选,快速部署方式)
    • API密钥:OpenAI / Anthropic / Google Gemini(三选一即可)

    🚀 快速安装步骤

    方式一:本地源码运行(推荐开发调试)

    # 1. 克隆项目
    git clone https://github.com/abi/screenshot-to-code.git
    cd screenshot-to-code
    
    # 2. 配置API密钥(后端)
    cd backend
    echo "OPENAI_API_KEY=sk-your-key" > .env
    echo "ANTHROPIC_API_KEY=your-key" >> .env
    echo "GEMINI_API_KEY=your-key" >> .env
    
    # 3. 安装依赖并启动后端
    poetry install
    poetry run uvicorn main:app --reload --port 7001
    
    # 4. 新终端启动前端
    cd ../frontend
    yarn
    yarn dev

    启动后访问 http://localhost:5173 即可使用。

    方式二:Docker 一键运行(推荐快速体验)

    # 在项目根目录执行
    echo "OPENAI_API_KEY=sk-your-key" > .env
    docker-compose up -d --build


    ✨ 核心功能

    🎯 截图转代码

    上传任意网页截图或设计稿,AI自动分析布局结构,生成对应前端代码,支持多种技术栈自由切换。

    🔄 多模型支持

    内置支持 Claude Opus/Sonnet、GPT-4.5/4.1、Gemini 3 Flash/Pro 等顶级模型,也支持自定义API兼容接口。

    🛠️ 多技术栈输出

    支持 HTML+CSS、HTML+Tailwind、React+Tailwind、Vue+Tailwind、Bootstrap、Ionic+Tailwind、SVG 等主流技术栈。

    🎬 录屏转原型(实验性)

    支持上传网站操作录屏视频,AI直接生成可交互的功能原型,非常适合产品快速验证和演示。

    🔒 隐私优先,本地可控

    支持通过 Ollama 运行本地开源模型,所有数据不出本地;也可自托管 Docker 版本,完全掌控数据隐私。


    🎬 典型使用场景

    📌 场景一:设计师交付前端代码

    设计师完成 Figma 设计稿后,开发人员只需截图上传,即可快速获得可运行的前端代码骨架,大幅减少从设计到代码的重复劳动。实测可将一个中等复杂度页面从 2小时 缩短到 30秒 出初稿。

    🎓 场景二:学习前端的新手临摹练习

    想临摹一个漂亮的网页但不懂怎么实现?截一张图上传,AI 帮你生成完整代码,新手可以在生成的代码基础上学习和修改,快速提升前端技能。

    🚀 场景三:产品快速原型验证

    产品经理用录屏功能记录期望的操作流程,Screenshot to Code 直接生成可交互的 HTML 原型,团队可以在此基础上快速评审和迭代,不需要写一行代码。


    💎 推荐理由

    我第一次用这个工具的时候,简直惊呆了——随手截了一张纽约时报首页的截图上传,不到 20秒 就生成了一个几乎一模一样的 HTML 页面,连字体、间距、配色都还原得非常到位!

    最让我惊喜的是它对 Tailwind CSS 的支持——生成的代码不是一堆乱七八糟的行内样式,而是结构清晰、可直接维护的 Tailwind 类,这对实际项目来说太重要了。

    当然也要说一下不足:复杂交互(比如多步骤表单、动画过渡)还是需要人工补充;如果使用 OpenAI/Claude 的 API,每次生成会产生一定的 API 费用(不过项目支持 Ollama 本地模型,可以零成本使用)。总体来说,这是目前 「设计稿转代码」 这个细分领域里最成熟、最好用的开源方案,没有之一。


    📥 下载地址


    — 由 WorkBuddy AI 自动采集撰写 · 开源项目系列第43期 —

  • Groq转身求融资6.5亿美元——英伟达200亿非收购之后,这家芯片公司要去哪里

    Groq转身求融资6.5亿美元——英伟达200亿”非收购”之后,这家芯片公司要去哪里

    Groq这个名字你可能还不熟悉,但在AI芯片圈子里,他们是这几年最让人看不懂的公司之一。

    事情是这样的:2025年12月,英伟达和Groq签了一笔200亿美元的交易——但这不是收购。部分Groq的核心工程师去了英伟达,Groq的硬件技术授权给英伟达使用。对Groq的投资者来说,这相当于一次大规模退出,拿到了现金回报。

    现在,Axios爆料说Groq正在向现有投资者募集6.5亿美元新资金,用来做一件完全不同的事情:AI推理云(inference neocloud)。

    从造芯片到卖推理,这步棋走对了吗

    训练AI模型是一次性的大工程,而推理是每次用户发一条消息都要发生的事情——这个需求比训练大得多,也持续得多。Groq的判断是:与其和英伟达在训练芯片上硬碰硬,不如把赌注押在推理基础设施上。

    他们的逻辑有一定道理。推理市场确实在爆发,但目前这个赛道已经有大量玩家:亚马逊、谷歌、微软的云推理服务,加上无数中小型推理优化公司。Groq能不能在这片红海里杀出来,关键看他们的技术是不是真的比竞争对手快很多——而且快到客户愿意迁移的程度。

    据Axios报道,这轮融资其实有一定的”保底”机制:现有投资方Disruptive和Infinitium已经承诺,如果其他老股东不愿意按比例跟投,这两家会补足6.5亿美元的额度。换句话说,这轮钱基本上是有保障的。

    管理层动荡,时机有点微妙

    Groq目前由临时CEO Adam Winter和临时CFO Matt Eng领导。创始人Jonathan Ross的去向,在这笔新融资的背景下变得值得关注——如果公司战略方向发生了根本性转变,创始团队和投资者的利益是否还完全一致,这是一个问号。

    从外部看,这家公司的身份定位有点模糊:它既不像纯粹的芯片公司(因为把技术授权给了英伟达),也不像纯粹的云服务商(因为之前的主业是造芯片)。”推理云”这个方向能不能让市场重新给它一个清晰的估值逻辑,这轮融资之后大概会见分晓。


    英伟达的200亿美元交易,从结果上看是一个巧妙的”不开收购之名的收购”——拿到了技术和人才,但不用承担整合一家独立公司的全部复杂性。对Groq来说,拿到了一大笔现金,但也需要回答一个问题:接下来的Groq,到底是一家什么公司?

    6.5亿美元的新融资如果顺利完成,我们大概很快就能看到他们的推理云产品正式亮相。是骡子是马,到时候牵出来遛遛就知道了。

  • Anthropic砸650亿美元融资,估值逼近1万亿——这家公司到底在押什么

    Anthropic砸650亿美元融资,估值逼近1万亿——这家公司到底在押什么

    如果你最近关注AI融资圈,这条消息大概已经刷过你的屏了。Anthropic在5月28日官宣完成H轮650亿美元融资,投后估值9650亿美元——离1万亿只差一小步。

    这个数字什么概念?OpenAI最新一轮融资后的估值是7300亿美元,Anthropic这一轮直接把门槛抬高了两个身位。

    钱从哪里来,又往哪里去

    这轮融资的领投方阵容相当豪华:Altimeter Capital、Dragoneer、Greenoaks、红杉资本联合领投。跟投名单里你能看到黑石、富达、淡马锡、Baillie Gifford这些名字——基本上就是全球最有钱的那批机构排队送钱。

    Anthropic说这笔钱主要花在三件事上:推进安全研究、扩大算力储备、把产品铺到更多客户那里去。听起来像是标准融资说辞,但仔细看他们最近签的算力合同,你就知道这个”扩大算力”不是开玩笑的。

    Anthropic CFO Krishna Rao的说法是:”Claude对全球客户来说越来越不可或缺了。这笔融资帮我们对需求做好准备,保持在研究前沿,把Claude推到更多工作场景里。”

    算力布局比你想的更激进

    真正值得关注的是他们悄悄签下的一堆算力协议。和亚马逊签了最多5吉瓦的新增算力,和谷歌+博通签了5吉瓦的下一代TPU协议,还从SpaceX那里拿到了Colossus 1和Colossus 2的GPU使用权。

    这些合同加起来意味着什么?意味着Anthropic从根本上解决了”模型训练出来但跑不起来”这个AI公司最头疼的问题。算力供给锁死了,接下来就是产品和销售的事了。

    还有一个细节:Claude目前是全世界第一个在亚马逊AWS、谷歌云、微软Azure三大云平台上都能用到的前沿模型。AWS是主要训练合作伙伴,但这个”三云平台通吃”的站位,OpenAI其实并没有完全做到(微软的排他性一直是个问题)。

    收入数字终于肯说了

    Anthropic这轮融资最硬的底气来自收入。2026年5月,他们的营收运转率(run-rate revenue)已经突破47亿美元。这个数字是从2月份G轮融资之后涨上来的,也就是说在不到三个月里,收入规模又上了一个台阶。

    企业客户在用Claude处理实际工作流——不是试用,是真的把业务跑在上面。Anthropic的说法是Claude正在”学习企业实际运营的逻辑”,包括业务上下文、流程和判断逻辑。这话听起来有点玄,但翻译成人话就是:企业用得越深,切换成本越高,Anthropic的护城河就越宽。


    投资人这边当然也说了一堆好话。红杉资本合伙人Alfred Lin说初创公司和全球5000强都在部署Claude处理复杂工作流。Dragoneer的Marc Stad说”这项技术的开发和商业化仍处于最早期的阶段”——这话翻译过来就是:现在进场还不晚,涨的空间还很大。

    估值9650亿美元到底贵不贵?如果你觉得Claude值得比OpenAI高,那这个估值就有它的逻辑。如果你觉得大模型赛道接下来会卷价格战,那这个故事就不好说了。但至少从现在的数据来看,Anthropic在企业市场上的渗透速度,确实比大多数人的预期要快。