Published on2026년 6월 15일브라우저에서 LLM을 — WebGPU + Gemma 로 온디바이스 채팅을 짜기pegboarddev-logwebgpullmgemmaon-device-ai브라우저 안에서 Gemma 4 (2B) 를 WebGPU로 굴리는 온디바이스 채팅을 짰다. 멀티스레드 WASM은 광고를 깨고 셀프 호스팅은 25 MiB 한계에 막혔다. WebGPU + Hugging Face CDN + Worker 격리 + 토큰 버짓 트리밍으로 정리하면서, 이전 ADR 하나가 *카테고리 한정으로* 뒤집혔다.