MInference 1.0 by Microsoft pre-release В преддверии предстоящей ICML 2024 (Вена, 21-27 июля 2024 г

MInference 1.0 by Microsoft pre-release В преддверии предстоящей ICML 2024 (Вена, 21-27 июля 2024 г.) Microsoft опубликовала результаты исследования проекта MInference. Данный метод позволяет ускорить обработку длинных последовательностей за счет разреженных вычислений, применение уникальных шаблонов в матрицах. Методика MInference не требует изменений в настройках предварительного обучения. Проведенные исследователями Microsoft синтетические тесты метода на моделях LLaMA-3-1M, GLM4-1M, Yi-200K, Phi-3-128K и Qwen2-128K показывают сокращение задержек и ошибок при предварительном заполнении до 10 раз на A100 с сохранением точности. Discuss at Huggingface GitHub Arxiv Страница проекта MInference 1.0
Back to Top