BitNet на Apple Silicon: Metal работает, CPU

Тестируем Microsoft BitNet b1.58 на M2. Metal даёт 12 t/s, CPU-only — мусор. Реальная ценность 1.58-bit — RAM, не скорость.

Microsoft обещает 1.58-битные LLM на CPU без GPU. README говорит «100B параметров на одном CPU при 5–7 токенах/сек». Мы проверили на реальном железе: M2 / 16 GB, BitNet-b1.58-2B-4T и Falcon3-7B-1.58bit.

Результат: через Metal — 12.13 t/s на 2B модели, связный выход. Добавляешь -ngl 0 (чистый CPU) — та же модель, тот же промпт — и получаешь «no/var receivedSED l mode74ll encouraged bre speaking removed brown flight». Скорость при этом выглядит нормально: 8.37 t/s. Если не читать выход — можно решить, что всё работает.

Falcon3-7B-1.58bit через Metal: когерентный выход, чистый instruction-following. Но 1.70 t/s — медленнее, чем человек читает. Для интерактивного чата на M2 пока не жизнеспособно.

Отдельная проблема: конвертер в bitnet.cpp не знает архитектуру BitNetForCausalLM. setup_env.py падает с NotImplementedError и на 2B-4T, и на Falcon3. Рабочий путь — скачать готовые GGUF из companion-репозиториев на HuggingFace.

Главный вывод: ценность 1.58-bit на Apple Silicon — не скорость, а RAM. 7B модель в 4 GB вместо 14 GB. Это значит — 7B помещается в 16 GB unified memory с запасом для ОС и приложений. Когда появится нативный 13–30B BitNet чекпоинт — это будет точка перелома для on-device.

Мы строим Jippy — персональный AI, который живёт на телефоне. Вся история edge-inference зависит от того, дойдут ли такие пути квантизации до production-grade. BitNet пока не готов для ARM CPU. Через Metal — уже да.

Полный writeup с цифрами и шагами для воспроизведения — на нашем Substack.

BitNet на Apple Silicon: Metal работает, CPU — нет