MaGGIe présente les ensembles de données I-HIM50K et M-HIM2K, comprenant plus de 180 000 masques humains synthétisés pour évaluer la robustesse du matting d'instance.MaGGIe présente les ensembles de données I-HIM50K et M-HIM2K, comprenant plus de 180 000 masques humains synthétisés pour évaluer la robustesse du matting d'instance.

Synthèse de données de matting humain multi-instances avec MaskRCNN et BG20K

Abstrait et 1. Introduction

  1. Travaux connexes

  2. MaGGIe

    3.1. Matting d'instance guidé par masque efficace

    3.2. Cohérence temporelle Feature-Matte

  3. Ensembles de données de matting d'instance

    4.1. Matting d'instance d'image et 4.2. Matting d'instance vidéo

  4. Expériences

    5.1. Pré-entraînement sur les données d'image

    5.2. Entraînement sur les données vidéo

  5. Discussion et Références

\ Matériel supplémentaire

  1. Détails de l'architecture

  2. Matting d'image

    8.1. Génération et préparation de l'ensemble de données

    8.2. Détails de l'entraînement

    8.3. Détails quantitatifs

    8.4. Plus de résultats qualitatifs sur les images naturelles

  3. Matting vidéo

    9.1. Génération de l'ensemble de données

    9.2. Détails de l'entraînement

    9.3. Détails quantitatifs

    9.4. Plus de résultats qualitatifs

8. Matting d'image

Cette section développe le processus de matting d'image, fournissant des informations supplémentaires sur la génération de l'ensemble de données et des comparaisons complètes avec les méthodes existantes. Nous examinons en détail la création des ensembles de données I-HIM50K et M-HIM2K, offrons des analyses quantitatives détaillées et présentons d'autres résultats qualitatifs pour souligner l'efficacité de notre approche.

8.1. Génération et préparation de l'ensemble de données

L'ensemble de données I-HIM50K a été synthétisé à partir de l'ensemble de données HHM50K [50], qui est connu pour sa vaste collection de mattes d'images humaines. Nous avons utilisé un modèle MaskRCNN [14] Resnet-50 FPN 3x, entraîné sur l'ensemble de données COCO, pour filtrer les images à une seule personne, résultant en un sous-ensemble de 35 053 images. Suivant la méthodologie InstMatt [49], ces images ont été composées sur des arrière-plans divers provenant de l'ensemble de données BG20K [29], créant des scénarios multi-instances avec 2 à 5 sujets par image. Les sujets ont été redimensionnés et positionnés pour maintenir une échelle réaliste et éviter un chevauchement excessif, comme indiqué par des IoU d'instance ne dépassant pas 30 %. Ce processus a généré 49 737 images, avec une moyenne de 2,28 instances par image. Pendant l'entraînement, les masques de guidage ont été générés en binarisant les mattes alpha et en appliquant des opérations aléatoires de dropout, dilatation et érosion. Des exemples d'images de I-HIM50K sont affichés dans la Fig. 10.

\ L'ensemble de données M-HIM2K a été conçu pour tester la robustesse du modèle face à des qualités de masque variables. Il comprend dix masques par instance, générés à l'aide de différents modèles MaskRCNN. Plus d'informations sur les modèles utilisés pour ce processus de génération sont présentées dans le Tableau 8. Les masques ont été associés aux instances en fonction de l'IoU le plus élevé avec les mattes alpha de référence, garantissant un seuil IoU minimum de 70 %. Les masques qui ne respectaient pas ce seuil ont été générés artificiellement à partir de la référence. Ce processus a abouti à un ensemble complet de 134 240 masques, avec 117 660 pour les images composites et 16 600 pour les images naturelles, fournissant un benchmark robuste pour l'évaluation du matting d'instance guidé par masque. L'ensemble de données complet I-HIM50K et M-HIM2K sera publié après l'acceptation de ce travail.

\ Figure 10. Exemples de l'ensemble de données I-HIM50K. (Meilleur rendu en couleur).

\ Tableau 8. Dix modèles avec une qualité de masque variable sont utilisés dans MHIM2K. Les modèles MaskRCNN proviennent de detectron2 entraînés sur COCO avec différents paramètres.

\

:::info Auteurs :

(1) Chuong Huynh, University of Maryland, College Park (chuonghm@cs.umd.edu) ;

(2) Seoung Wug Oh, Adobe Research (seoh,jolee@adobe.com) ;

(3) Abhinav Shrivastava, University of Maryland, College Park (abhinav@cs.umd.edu) ;

(4) Joon-Young Lee, Adobe Research (jolee@adobe.com).

:::


:::info Cet article est disponible sur arxiv sous licence CC by 4.0 Deed (Attribution 4.0 International).

:::

\

Opportunité de marché
Logo de Multichain
Cours Multichain(MULTI)
$0.03876
$0.03876$0.03876
+1.12%
USD
Graphique du prix de Multichain (MULTI) en temps réel
Clause de non-responsabilité : les articles republiés sur ce site proviennent de plateformes publiques et sont fournis à titre informatif uniquement. Ils ne reflètent pas nécessairement les opinions de MEXC. Tous les droits restent la propriété des auteurs d'origine. Si vous estimez qu'un contenu porte atteinte aux droits d'un tiers, veuillez contacter service@support.mexc.com pour demander sa suppression. MEXC ne garantit ni l'exactitude, ni l'exhaustivité, ni l'actualité des contenus, et décline toute responsabilité quant aux actions entreprises sur la base des informations fournies. Ces contenus ne constituent pas des conseils financiers, juridiques ou professionnels, et ne doivent pas être interprétés comme une recommandation ou une approbation de la part de MEXC.