Видео от Neurogen

✴️ LiteRT-LM Google анонсировала production-готовый фреймворк для запуска больших языковых моделей на пользовательских устройствах. Эта технология сейчас питает Gemini Nano в Chrome, Chromebook Plus и Pixel Watch! 🔘Зачем? Offline-доступность - работает без интернета Молниеносная скорость - время до первого токена измеряется миллисекундами Экономичность - без затрат на API-вызовы Приватность - данные не покидают устройство 🔘Техническая архитектура Используется система Engine/Session. Engine(синглтон) управляет тяжелами ресурсами типо базовой модели и энкодеров, а Session(интерфейс) представляет отдельные задачи с собственным состоянием. Ключевые оптимизации: - Context Switching для переключения между задачами - Session Cloning для кэширования промптов - Copy-on-Write KV-Cache для эффективного использования памяти 🔘Где уже внедрен? Chrome Browser - Web AI API с Gemini Nano для сотен миллионов пользователей Chromebook Plus - помощь в работе с множеством вкладок и анализе сложных текстов Pixel Watch - Smart Replies и другие AI-функции на минимальных ресурсах Фреймворк предоставляет: - Кроссплатформенность: Android, Linux, macOS, Windows, Raspberry Pi - Аппаратное ускорение: CPU, GPU, NPU через LiteRT - Модульный дизайн: от высокоуровневых API до низкоуровневого C 🔘Стек Google AI Edge 1. LiteRT — базовый runtime для ML-моделей 2. LiteRT-LM — C фреймворк для LLM-пайплайнов 3. LLM Inference API — высокоуровневые нативные API LiteRT HuggingFace community () GitHub () Поддерживаются Gemma, Qwen и другие open-weight модели Google Developers Blog ()

2 views

839

369