Données synthétiques : combler le fossé de l’occlusion avec Grand Theft Auto

Des chercheurs de l’Université de l’Illinois ont créé un nouvel ensemble de données de vision par ordinateur qui utilise des images synthétiques générées par un moteur de jeu Grand Theft Auto pour aider à résoudre l’un des obstacles les plus épineux de la segmentation sémantique : reconnaître les objets qui ne sont que partiellement visibles dans les images et vidéos sources.

À cette fin, comme décrit dans l’article, les chercheurs ont utilisé le moteur de jeu vidéo GTA-V pour générer un ensemble de données synthétiques qui non seulement présente un nombre record d’instances d’occlusion, mais qui présente une segmentation et un étiquetage sémantiques parfaits, et des comptes pour des informations temporelles d’une manière qui n’est pas abordée par des ensembles de données open source similaires.

Compréhension complète de la scène

La vidéo ci-dessous, publiée comme support de recherche, illustre les avantages d’une compréhension 3D complète d’une scène, dans la mesure où les objets obscurcis sont connus et exposés dans la scène en toutes circonstances, permettant au système d’évaluation d’apprendre à associer des vues partiellement occluses. avec l’objet entier (étiqueté).

Source : http://sailvos.web.illinois.edu/_site/index.html

L’ensemble de données résultant, appelé SAIL-VOS 3D, est revendiqué par les auteurs comme le premier ensemble de données de maillage vidéo synthétique avec annotation image par image, segmentation au niveau de l’instance, profondeur de la vérité terrain pour les vues de scène et annotations 2D délimitées par des cadres de délimitation.

Source (Cliquez pour agrandir)

Les annotations de SAIL-VOS 3D incluent la profondeur, la segmentation modale et amodale au niveau de l’instance, les étiquettes sémantiques et les maillages 3D. Les données comprennent 484 vidéos totalisant 237 611 images à une résolution de 1280 × 800, y compris les transitions de prise de vue.

Ci-dessus, les cadres CGI d'origine ;  deuxième ligne, segmentation au niveau de l'instance ;  troisième rangée, la segmentation amodale, qui illustre la profondeur de la compréhension de la scène et la transparence disponibles dans les données.  La source

Ci-dessus, les cadres CGI d’origine ; deuxième ligne, segmentation au niveau de l’instance ; troisième rangée, la segmentation amodale, qui illustre la profondeur de la compréhension de la scène et la transparence disponibles dans les données. Source (Cliquez pour agrandir)

L’ensemble se décompose en 6 807 clips avec une moyenne de 34,6 images chacun, et les données sont annotées avec 3 460 213 instances d’objets provenant de 3 576 modèles de maillage dans le moteur de jeu GTA-V. Ceux-ci sont affectés à un total de 178 catégories sémantiques.

Reconstruction de maillage et étiquetage automatisé

Étant donné que les recherches ultérieures sur les ensembles de données sont susceptibles de se produire sur des images du monde réel, les maillages de SAIL-VOS 3D sont générés par le cadre d’apprentissage automatique, plutôt que dérivés du moteur GTA-V.

Avec une compréhension programmatique et essentiellement « holographique » de l'ensemble de la représentation de la scène, l'imagerie 3D SAIL-VOS peut synthétiser des représentations d'objets habituellement cachés par des occlusions, tels que le bras du personnage tourné vers l'extérieur, d'une manière qui serait autrement dépendent de nombreuses instances représentatives dans des séquences du monde réel.  Source : https://arxiv.org/pdf/2105.08612.pdf

Avec une compréhension programmatique et essentiellement « holographique » de l’ensemble de la représentation de la scène, l’imagerie 3D SAIL-VOS peut synthétiser des représentations d’objets habituellement cachés par des occlusions, tels que le bras du personnage tourné vers l’extérieur, d’une manière qui serait autrement dépendent de nombreuses instances représentatives dans des séquences du monde réel. (Cliquez pour agrandir) Source : https://arxiv.org/pdf/2105.08612.pdf

Étant donné que chaque objet du monde GTA-V contient un identifiant unique, SAIL-VOS les récupère à partir du moteur de rendu à l’aide de la bibliothèque de crochets de script GTA-V. Cela résout le problème de la réacquisition du sujet s’il quitte temporairement le champ de vision, car l’étiquetage est persistant et fiable. Il y a 162 objets disponibles dans l’environnement, que les chercheurs ont mappés à un nombre correspondant de classes.

Une variété de scènes et d’objets

De nombreux objets du moteur GTA-V sont de nature commune et, par conséquent, l’inventaire SAIL-VOS contient 60% des classes présentes dans l’ensemble de données MS-COCO 2014 fréquemment utilisé de Microsoft.

L'ensemble de données SAIL-VOS comprend une grande variété de scènes intérieures et extérieures dans différentes conditions météorologiques, avec des personnages portant des vêtements variés.

L’ensemble de données SAIL-VOS comprend une grande variété de scènes intérieures et extérieures dans différentes conditions météorologiques, avec des personnages portant des vêtements variés. (Cliquez pour agrandir)

Applicabilité

Pour assurer la compatibilité avec l’ensemble de la recherche dans ce domaine, et pour confirmer que cette approche synthétique peut bénéficier à des projets non synthétiques, les chercheurs ont évalué l’ensemble de données en utilisant l’approche de détection par trame utilisée pour MS-COCO et l’objet visuel PASCAL 2012 Classes (VOC) Challenge, avec une précision moyenne comme métrique.

Les chercheurs ont découvert que la pré-formation sur l’ensemble de données SAIL-VOS améliore les performances d’Intersection over Union (IoU) de 19%, avec une amélioration correspondante des performances de VideoMatch, de 55% à 74% sur les données invisibles.

Cependant, dans les cas d’occlusion extrême, il y a eu des occasions où toutes les anciennes méthodes sont restées incapables d’identifier un objet ou une personne, bien que les chercheurs aient prévu que cela pourrait être résolu à l’avenir en examinant les images adjacentes pour établir le raisonnement du masque amodal. .

Dans les deux images de droite, les algorithmes de segmentation traditionnels n'ont pas réussi à identifier la silhouette féminine à partir de la partie très limitée de sa tête qui est visible.  Des innovations ultérieures avec l'évaluation du flux optique peuvent améliorer ces résultats.

Dans les deux images de droite, les algorithmes de segmentation traditionnels n’ont pas réussi à identifier la silhouette féminine à partir de la partie très limitée de sa tête qui est visible. Des innovations ultérieures avec l’évaluation du flux optique peuvent améliorer ces résultats. (Cliquez pour agrandir)

Laisser un commentaire