OmniParser : инструмент для распознавания UI в структурированный формат от Microsoft
OmniParser : инструмент для распознавания UI в структурированный формат от Microsoft.
OmniParser - инструмент для анализа скриншотов пользовательского интерфейса, разработанный для улучшения работы агентов UI на основе LLM.
Он преобразует скриншоты в структурированный формат, выделяя интерактивные области и описывая функции элементов(кнопки, иконки, значки и т.д) и не требует исходного HTML или иерархии представлений.
OmniParser состоит из двух моделей:
Модель обнаружения интерактивных элементов, основанная на YOLOv8 и обученная на датасете из 67 тысяч скриншотов веб-страниц с аннотациями кликабельных областей.
Модель описания функций элементов UI, основанная на BLIP-2, обученная на 7 тысячах пар “элемент-описание“, созданных с помощью GPT-4o.
OmniParser был протестирован в бенчмарках ScreenSpot, Mind2Web и AITW, где превзошел агентов на основе GPT-4V и модели, обученные на данных графических интерфейсов (SeeClick, CogAgent и Fuyu).
OmniParser может испытывать трудности с распознаванием повторяющихся элементов, текста и с определением точных границ кликабельных областей.
На сегодняшний день занимает первое место в трендах среди 1078 938 моделей.
Локальная установка и запуск в Gradio UI :
conda create -n “omni“ python==
conda activate omni
pip install -r
python
Лицензирование: MIT License.
Страница проекта
Набор моделей
Arxiv
Github
1 view
17
3
2 weeks ago 00:00:39 1
OmniParser : инструмент для распознавания UI в структурированный формат от Microsoft
2 weeks ago 00:00:30 1
👨💻 Автоматизируем рутину с помощью нейросетей.
3 weeks ago 00:00:30 3
⚡️ Релизнулся УБИЙЦА Claude Computer Use — нейронка от Microsoft прямо сейчас управляет компьютером КАК ЧЕЛОВЕК.