MaGGIe destaca-se na renderização de cabelo e separação de instâncias em imagens naturais, superando MGM e InstMatt em cenários complexos e de múltiplas instâncias.MaGGIe destaca-se na renderização de cabelo e separação de instâncias em imagens naturais, superando MGM e InstMatt em cenários complexos e de múltiplas instâncias.

Matting robusto guiado por máscara: gerir entradas ruidosas e versatilidade de objetos

2025/12/21 02:00

Abstrato e 1. Introdução

  1. Trabalhos Relacionados

  2. MaGGIe

    3.1. Matting de Instância Guiado por Máscara Eficiente

    3.2. Consistência Temporal Feature-Matte

  3. Conjuntos de Dados de Matting de Instância

    4.1. Matting de Instância de Imagem e 4.2. Matting de Instância de Vídeo

  4. Experiências

    5.1. Pré-treino em dados de imagem

    5.2. Treino em dados de vídeo

  5. Discussão e Referências

\ Material Suplementar

  1. Detalhes da arquitetura

  2. Matting de imagem

    8.1. Geração e preparação do conjunto de dados

    8.2. Detalhes do treino

    8.3. Detalhes quantitativos

    8.4. Mais resultados qualitativos em imagens naturais

  3. Matting de vídeo

    9.1. Geração do conjunto de dados

    9.2. Detalhes do treino

    9.3. Detalhes quantitativos

    9.4. Mais resultados qualitativos

8.4. Mais resultados qualitativos em imagens naturais

A Fig. 13 demonstra o desempenho do nosso modelo em cenários desafiantes, particularmente na renderização precisa de regiões de cabelo. A nossa framework supera consistentemente o MGM⋆ na preservação de detalhes, especialmente em interações complexas de instâncias. Em comparação com o InstMatt, o nosso modelo apresenta separação de instâncias superior e precisão de detalhes em regiões ambíguas.

\ A Fig. 14 e a Fig. 15 ilustram o desempenho do nosso modelo e trabalhos anteriores em casos extremos envolvendo múltiplas instâncias. Enquanto o MGM⋆ tem dificuldades com ruído e precisão em cenários de instâncias densas, o nosso modelo mantém alta precisão. O InstMatt, sem dados de treino adicionais, apresenta limitações nestas configurações complexas.

\ A robustez da nossa abordagem guiada por máscara é ainda mais demonstrada na Fig. 16. Aqui, destacamos os desafios enfrentados pelas variantes MGM e SparseMat na previsão de partes ausentes nas entradas de máscara, que o nosso modelo resolve. No entanto, é importante notar que o nosso modelo não foi concebido como uma rede de segmentação de instâncias humanas. Como mostrado na Fig. 17, a nossa framework adere à orientação de entrada, garantindo previsão precisa de alpha matte mesmo com múltiplas instâncias na mesma máscara.

\ Por fim, a Fig. 12 e a Fig. 11 enfatizam as capacidades de generalização do nosso modelo. O modelo extrai com precisão tanto sujeitos humanos como outros objetos dos fundos, demonstrando a sua versatilidade em vários cenários e tipos de objetos.

\ Todos os exemplos são imagens da Internet sem ground-truth e a máscara do r101fpn400e é usada como orientação.

\ Figura 13. O nosso modelo produz alpha matte altamente detalhado em imagens naturais. Os nossos resultados mostram que é preciso e comparável com métodos anteriores agnósticos de instância e com consciência de instância, sem custos computacionais dispendiosos. Quadrados vermelhos ampliam as regiões de detalhe para cada instância. (Melhor visualizado a cores e com zoom digital).

\ Figura 14. As nossas frameworks separam precisamente instâncias num caso extremo com muitas instâncias. Enquanto o MGM frequentemente causa sobreposição entre instâncias e o MGM⋆ contém ruídos, o nosso produz resultados equiparáveis com o InstMatt treinado no conjunto de dados externo. A seta vermelha indica os erros. (Melhor visualizado a cores e com zoom digital).

\ Figura 15. As nossas frameworks separam precisamente instâncias numa única passagem. A solução proposta mostra resultados comparáveis com o InstMatt e MGM sem executar a previsão/refinamento cinco vezes. A seta vermelha indica os erros. (Melhor visualizado a cores e com zoom digital).

\ Figura 16. Ao contrário do MGM e SparseMat, o nosso modelo é robusto à máscara de orientação de entrada. Com a cabeça de atenção, o nosso modelo produz resultados mais estáveis para entradas de máscara sem refinamento complexo entre instâncias como o InstMatt. A seta vermelha indica os erros. (Melhor visualizado a cores e com zoom digital).

\ Figura 17. A nossa solução funciona corretamente com orientações de máscara de múltiplas instâncias. Quando existem múltiplas instâncias numa máscara de orientação, ainda produzimos o alpha matte de união correto para essas instâncias. A seta vermelha indica os erros ou a região ampliada na caixa vermelha. (Melhor visualizado a cores e com zoom digital).

\ Tabela 12. Detalhes dos resultados quantitativos em HIM2K+M-HIM2K (Extensão da Tabela 5). Cinzento indica o peso público sem retreino.

\ Tabela 12. Detalhes dos resultados quantitativos em HIM2K+M-HIM2K (Extensão da Tabela 5). Cinzento indica o peso público sem retreino. (Continuação)

\ Tabela 12. Detalhes dos resultados quantitativos em HIM2K+M-HIM2K (Extensão da Tabela 5). Cinzento indica o peso público sem retreino. (Continuação)

\ Tabela 12. Detalhes dos resultados quantitativos em HIM2K+M-HIM2K (Extensão da Tabela 5). Cinzento indica o peso público sem retreino. (Continuação)

\ Tabela 13. A eficácia dos módulos de consistência temporal propostos em V-HIM60 (Extensão da Tabela 6). A combinação de Conv-GRU bidirecional e fusão forward-backward alcança o melhor desempenho geral nos três conjuntos de teste. Negrito destaca o melhor para cada nível.

\

:::info Autores:

(1) Chuong Huynh, University of Maryland, College Park (chuonghm@cs.umd.edu);

(2) Seoung Wug Oh, Adobe Research (seoh,jolee@adobe.com);

(3) Abhinav Shrivastava, University of Maryland, College Park (abhinav@cs.umd.edu);

(4) Joon-Young Lee, Adobe Research (jolee@adobe.com).

:::


:::info Este artigo está disponível no arxiv sob licença CC by 4.0 Deed (Attribution 4.0 International).

:::

\

Oportunidade de mercado
Logo de Mask Network
Cotação Mask Network (MASK)
$0.5644
$0.5644$0.5644
+0.33%
USD
Gráfico de preço em tempo real de Mask Network (MASK)
Isenção de responsabilidade: Os artigos republicados neste site são provenientes de plataformas públicas e são fornecidos apenas para fins informativos. Eles não refletem necessariamente a opinião da MEXC. Todos os direitos permanecem com os autores originais. Se você acredita que algum conteúdo infringe direitos de terceiros, entre em contato pelo e-mail service@support.mexc.com para solicitar a remoção. A MEXC não oferece garantias quanto à precisão, integridade ou atualidade das informações e não se responsabiliza por quaisquer ações tomadas com base no conteúdo fornecido. O conteúdo não constitui aconselhamento financeiro, jurídico ou profissional, nem deve ser considerado uma recomendação ou endosso por parte da MEXC.