HomeFlorence-2: Открытая модель компьютерного зрения от MicrosoftБлогFlorence-2: Открытая модель компьютерного зрения от Microsoft

Florence-2: Открытая модель компьютерного зрения от Microsoft

Florence-2: Мультифункциональная модель компьютерного зрения от Microsoft с открытым исходным кодом

Ключевые особенности:

  • Упрощенная и эффективная: Компактная модель, демонстрирующая результаты, сопоставимые с более крупными моделями.
  • Широкий спектр задач: Отлично справляется с созданием описаний для изображений, обнаружением объектов, привязкой объектов к тексту и сегментацией.
  • Открытый исходный код: Доступна для использования и модификации под лицензией MIT.
  • Мощный набор данных: Обучена на обширном наборе данных FLD-5B, содержащем 126 миллионов изображений и 5,4 миллиарда визуальных аннотаций.
  • Простота использования: Можно попробовать через HF Space или Google Colab.

Преимущества единого представления:

  • Универсальность: Способность решать разнообразные задачи компьютерного зрения с различным уровнем детализации и семантическим значением.
  • Эффективность: Использование одной модели для нескольких задач позволяет сократить вычислительные ресурсы и время обучения.
  • Повышенная точность: Единое представление позволяет модели лучше понимать взаимосвязи между различными задачами, что может привести к повышению точности результатов.

Как начать работу:

  1. Посетите HF Space или Google Colab.
  2. Загрузите свои изображения или используйте предоставленные примеры.
  3. Выберите нужную задачу (создание описаний, обнаружение объектов и т.д.).
  4. Получите результаты и проанализируйте их.

 

Рисунок 1. Уровень детализации и семантической гранулярности для каждой задачи. Источник: Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks.

Авторы Florence-2 решили, что вместо создания отдельных моделей для каждой задачи, они обучат одну модель, которая сможет выполнять более 10 задач одновременно. Для этого им понадобился новый набор данных.

Создание всестороннего набора данных

Сейчас нет крупных, объединённых наборов данных. Существующие наборы данных охватывают ограниченные задачи для отдельных изображений. Например, SA-1B содержит только маски, а COCO, хотя и поддерживает больше задач, всё равно слишком мал.

Рисунок 2. Сравнение размеров и всесторонности текущих наборов данных.

Ручная разметка данных дорого стоит, поэтому авторы автоматизировали процесс с помощью существующих моделей. Так появился набор данных FLD-5B, который содержит 126 миллионов изображений и 5 миллиардов аннотаций, включая боксы, маски и различные описания. Все изображения взяты из других наборов данных компьютерного зрения.

Рисунок 3. Пример изображения и его аннотаций в наборе данных FLD-5B.

FLD-5B пока недоступен для публики, но его выпуск анонсирован на CVPR 2024.

Таблица 1. Сводка по размеру, уровню детализации и семантической гранулярности лучших наборов данных.

Архитектура модели

Модель принимает изображения и запросы на выполнение задач в виде текста и генерирует текстовые ответы. Она использует DaViT vision encoder для преобразования изображений в визуальные токены. Эти токены объединяются с текстовыми токенами, созданными BERT, и обрабатываются многомодальным энкодером-декодером на основе трансформеров для создания ответа.

Рисунок 4. Обзор архитектуры Florence-2.

Для задач, связанных с определенными областями изображения, токены местоположения, представляющие координаты, добавляются в словарь токенизатора.

Возможности Florence-2 меньше и точнее своих предшественников. Серия Florence-2 состоит из двух моделей: Florence-2-base и Florence-2-large, содержащих 0,23 миллиарда и 0,77 миллиарда параметров соответственно. Такой размер позволяет использовать их даже на мобильных устройствах.

Несмотря на небольшой размер, Florence-2 достигает лучших результатов нулевого подхода, чем Kosmos-2, который имеет 1,6 миллиарда параметров.

Применение для бизнеса и примеры использования

Florence-2 может применяться в разных сферах бизнеса, предоставляя инструменты для анализа изображений и автоматизации.
Розничная торговля: Автоматическое создание описаний товаров для интернет-магазинов, что позволяет значительно ускорить процесс добавления новых товаров на сайт.

Безопасность: Обнаружение и идентификация объектов на видео с камер наблюдения в реальном времени, что помогает улучшить безопасность и быстро реагировать на инциденты.

Медицина: Анализ медицинских изображений, таких как рентгеновские снимки или МРТ, для помощи врачам в диагностике заболеваний и выявлении аномалий.

Агентства недвижимости: Создание автоматических описаний для фотографий недвижимости, что облегчает работу риэлторов и делает объявления более привлекательными.

 

 visio.by ©  All Rights Reserved.