手摇发电就能跑AI?这个离线盒子不需要互联网

手摇发电AI设备CrankGPT
Squeeze Labs开发的CrankGPT,完全离线、手摇供电的AI盒子

想象一下,你在一间没有电、没有网络的森林小屋里,突然想问AI一个问题。正常情况下,这不可能——AI需要庞大的数据中心、持续的电力、云端连接。但Squeeze Labs的一个两人小团队做了一件有意思的事:他们把AI装进了一个手摇发电的盒子里。

这个项目叫CrankGPT,是一个完全离线、不依赖电网的AI语音助手。整个装置的核心是一块Raspberry Pi 5开发板,配8GB内存和一个散热风扇。没有电池,没有云端,只有一个手摇发电机、一台小电脑,以及一堆在本地运行的小型语音和语言模型。

为什么要做这个

Squeeze Labs在项目说明里写了四条动机。第一条,一个东西要”聪明”,目前的前提是它插着墙上的插座、连着数据中心。CrankGPT是一个小小的反驳,证明这两件事都不一定是真的。

第二条,本地模型是隐私模型,既然不需要,为什么要把自己不想分享的东西给出去?第三条有点意思——他们写道,看到身边的人在把千瓦级电力和成千上万个token砸在那些小模型一样能完成的任务上,这触犯了他们欧洲人对”小型实用车”的审美直觉。第四条更简单:大家都在把东西做大,他们觉得把东西做小也有很多机会。

手摇发电,AI跑起来

硬件部分,他们选了Raspberry Pi 5,不是因为它是最强性能的单板计算机,而是因为它的可及性和软件生态很难被打败。Pi上跑着语音识别、语言模型和文本转语音,全部在CPU上本地运行,没有加速器。

电力部分最有意思。他们选了一款售价不贵的20W手摇发电机,原本是作为应急USB充电设备销售的。Pi的正常工作电流大约1.5A,但当它全力工作的时候,电流需求会大幅上升,导致发电机电压跌到Pi要求的4.8V以下。

你能通过摇把”感觉”到那个负载曲线:当LLM推理和语音合成一起跑的时候,摇把会明显变沉。

为了让Pi在完整推理栈启动时不掉电压,他们做了一块定制的电容板,用来平滑发电机的输出,充当一个短时(约20秒)的电力储备。

软件栈:把大模型塞进小盒子

软件部分,他们用了DietPi——一个极简的、精简掉的基于Debian的镜像,优先考虑快速启动时间。把不需要的无线电服务关掉之后,从Linux启动到可用用户空间只需要大约3秒。

语音管线的结构是经典的:自动语音识别(ASR)→ LLM → 文本转语音(TTS)。他们从零开始写了自己的边缘语音代理,优化目标是在RPi级别开发板上尽可能低的延迟。

LLM部分跑在llama.cpp上。他们偏好的模型是小型的Liquid AI LFM2变体(比如350M或1.2B),以及Gemma 3的1B版本。在Raspberry Pi 5上,LFM2.5 350M的token生成速度能达到约48.86 tok/s。

TTS部分,Piper以很大优势胜出。在Raspberry Pi 5上,Piper合成20个单词的测试语音只需要大约半秒,而Kokoro慢将近9倍。

实际体验:30秒后,你能和它对话

把所有这些放在一起,从你开始摇到你能和CrankGPT对话,大约需要30秒。启动时间包括:Pi 5冷启动约10-15秒;Linux启动到用户空间约3秒;语音代理启动约10-15秒。

延迟测量显示,使用Gemma 3 1B模型时,用户感知的首字节时间约2.9秒;使用LFM2.5 350M时,约0.8秒。这个速度足以让对话感觉接近实时。


CrankGPT目前是一个概念项目,不是商业产品。Squeeze Labs在页面底部留了一个联系邮箱,但你目前还买不到这个盒子。它更多是一个技术演示,一个对当前AI基础设施方向的提问:我们一定要把所有东西都送到云端、都插在墙上吗?

这个项目暗示了一个未来:随着模型变得更小、更高效,AI不一定需要 massive 基础设施。你的下一台AI助手,可能只需要你摇几下把手。

📎 原文来源:The Verge – This LLM in a box is powered by a hand crank

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注