Резюме и 1. Введение
Связанные работы
MaGGIe
3.1. Эффективное маскированное управляемое извлечение экземпляров
3.2. Временная согласованность матовых признаков
Наборы данных для извлечения экземпляров
4.1. Извлечение экземпляров изображений и 4.2. Извлечение экземпляров видео
Эксперименты
5.1. Предварительное обучение на данных изображений
5.2. Обучение на видеоданных
Обсуждение и ссылки
\ Дополнительный материал
Детали архитектуры
Извлечение изображений
8.1. Генерация и подготовка набора данных
8.2. Детали обучения
8.3. Количественные детали
8.4. Дополнительные качественные результаты на естественных изображениях
Извлечение видео
9.1. Генерация набора данных
9.2. Детали обучения
9.3. Количественные детали
9.4. Дополнительные качественные результаты
Этот раздел расширяет процесс извлечения изображений, предоставляя дополнительную информацию о генерации набора данных и всесторонние сравнения с существующими методами. Мы углубляемся в создание наборов данных I-HIM50K и M-HIM2K, предлагаем подробный количественный анализ и представляем дополнительные качественные результаты, чтобы подчеркнуть эффективность нашего подхода.
Набор данных I-HIM50K был синтезирован из набора данных HHM50K [50], который известен своей обширной коллекцией матовых изображений людей. Мы использовали модель MaskRCNN [14] Resnet-50 FPN 3x, обученную на наборе данных COCO, для фильтрации изображений с одним человеком, в результате чего получилось подмножество из 35 053 изображений. Следуя методологии InstMatt [49], эти изображения были скомпонованы на разнообразных фонах из набора данных BG20K [29], создавая многоэкземплярные сценарии с 2-5 субъектами на изображение. Субъекты были изменены в размере и расположены для сохранения реалистичного масштаба и избежания чрезмерного перекрытия, о чем свидетельствует IoU экземпляров, не превышающий 30%. Этот процесс дал 49 737 изображений в среднем по 2,28 экземпляра на изображение. Во время обучения маски управления генерировались путем бинаризации альфа-матов и применения операций случайного исключения, расширения и эрозии. Примеры изображений из I-HIM50K показаны на рис. 10.
\ Набор данных M-HIM2K был разработан для проверки устойчивости модели к различным качествам масок. Он включает десять масок на экземпляр, сгенерированных с использованием различных моделей MaskRCNN. Дополнительная информация о моделях, используемых для этого процесса генерации, показана в таблице 8. Маски были сопоставлены с экземплярами на основе наивысшего IoU с эталонными альфа-матами, обеспечивая минимальный порог IoU в 70%. Маски, которые не соответствовали этому порогу, были искусственно сгенерированы из эталонных данных. Этот процесс привел к созданию комплексного набора из 134 240 масок, из которых 117 660 для композитных и 16 600 для естественных изображений, обеспечивая надежный эталон для оценки маскированного управляемого извлечения экземпляров. Полный набор данных I-HIM50K и M-HIM2K будет выпущен после принятия этой работы.
\ 
\ 
\
:::info Авторы:
(1) Chuong Huynh, University of Maryland, College Park (chuonghm@cs.umd.edu);
(2) Seoung Wug Oh, Adobe Research (seoh,jolee@adobe.com);
(3) Abhinav Shrivastava, University of Maryland, College Park (abhinav@cs.umd.edu);
(4) Joon-Young Lee, Adobe Research (jolee@adobe.com).
:::
:::info Эта статья доступна на arxiv под лицензией CC by 4.0 Deed (Attribution 4.0 International).
:::
\

