Rendu neuronal: jusqu’où pouvez-vous aller en termes d’entrée?

Hier, de nouveaux travaux extraordinaires sur la synthèse d’images neuronales ont attiré l’attention et l’imagination d’Internet, alors que des chercheurs d’Intel ont révélé un nouvelle méthode pour améliorer le réalisme des images synthétiques.

Le système, comme démontré dans une vidéo d’Intel, intervient directement dans le pipeline d’images du jeu vidéo Grand Theft Auto V et améliore automatiquement les images grâce à un algorithme de synthèse d’images formé sur un réseau neuronal convolutif (CNN), en utilisant des images du monde réel. à partir de l’ensemble de données Mapillary, et permutant l’éclairage et la texture moins réalistes du moteur de jeu GTA.

Les commentateurs, dans un large éventail de réactions dans des communautés telles que Reddit et Hacker News, avancent non seulement que le rendu neuronal de ce type pourrait effectivement remplacer la sortie moins photoréaliste des moteurs de jeux traditionnels et des CGI de niveau VFX, mais que ce processus pourrait être réalisé avec une entrée beaucoup plus basique que ce qui a été démontré dans la démo Intel GTA5 – créant efficacement des entrées proxy «marionnettes» avec des sorties massivement réalistes.

Ensembles de données couplés

Le principe a été illustré par une nouvelle génération de systèmes GAN et encodeurs / décodeurs au cours des trois dernières années, comme le GauGAN de NVIDIA, qui génère des images scéniques photoréalistes à partir de barbouillettes brutes.

En fait, ce principe renverse l’utilisation conventionnelle de la segmentation sémantique en vision par ordinateur d’une méthode passive qui permet aux systèmes de machine d’identifier et d’isoler les objets observés dans une entrée créative, où l’utilisateur «  peint  » une fausse carte de segmentation sémantique et le système génère des images cohérentes. avec les relations qu’il comprend après avoir déjà classé et segmenté un domaine particulier, comme le paysage.

Un cadre d'apprentissage automatique applique la segmentation sémantique à diverses scènes extérieures, fournissant le paradigme architectural qui permet le développement de systèmes interactifs, où l'utilisateur peint un bloc de segmentation sémantique et le système remplit le bloc avec des images appropriées à partir d'un ensemble de données spécifique au domaine, tel que Ensemble de vue de rue mapillaire d'Allemagne, utilisé dans la démo de rendu neuronal GTA5 d'Intel.  Source: http://ais.informatik.uni-freiburg.de/publications/papers/valada17icra.pdf

Un cadre d’apprentissage automatique applique la segmentation sémantique à diverses scènes extérieures, fournissant le paradigme architectural qui permet le développement de systèmes interactifs, où l’utilisateur peint un bloc de segmentation sémantique et le système remplit le bloc avec des images appropriées à partir d’un ensemble de données spécifique au domaine, tel que Ensemble de vue de rue mapillaire d’Allemagne, utilisé dans la démo de rendu neuronal GTA5 d’Intel. Source: http://ais.informatik.uni-freiburg.de/publications/papers/valada17icra.pdf

Les systèmes de synthèse d’images de jeux de données appariés fonctionnent en corrélant les étiquettes sémantiques sur deux jeux de données: un jeu d’images riche et complet, soit généré à partir d’images du monde réel (comme avec le jeu Mapillary utilisé pour améliorer GTA5 dans la démo Intel d’hier) ou à partir d’images synthétiques, comme les images CGI.

Exemples de jeux de données appariés pour un système de synthèse d'images conçu pour créer des caractères neuronaux à partir de croquis maladroits.  Sur la gauche, des échantillons de l'ensemble de données CGI.  Milieu, échantillons correspondants de l'ensemble de données «sketch».  À droite, des rendus neuronaux qui ont traduit des esquisses en images de haute qualité.  Source: https://www.youtube.com/watch?v=miLIwQ7yPkA

Exemples de jeux de données appariés pour un système de synthèse d’images conçu pour créer des caractères neuronaux à partir de croquis maladroits. Sur la gauche, des échantillons de l’ensemble de données CGI. Milieu, échantillons correspondants de l’ensemble de données «sketch». À droite, des rendus neuronaux qui ont traduit des esquisses en images de haute qualité. Source: https://www.youtube.com/watch?v=miLIwQ7yPkA

Les environnements extérieurs sont relativement simples lors de la création de transformations de jeux de données appariés de ce type, car les protubérances sont généralement assez limitées, la topographie a une plage de variance limitée qui peut être capturée de manière exhaustive dans un ensemble de données, et nous n’avons pas à gérer la création de personnes artificielles. , ou négocier la Uncanny Valley (encore).

Inversion des cartes de segmentation

Google a développé une version animée du schéma GauGAN, appelée Infinite Nature, capable d’halluciner délibérément des paysages fictifs continus et sans fin en traduisant de fausses cartes sémantiques en images photoréalistes via le système de remplissage SPADE de NVIDIA:

Source: https://www.youtube.com/watch?v=oXUf6anNAtc

Source: https://www.youtube.com/watch?v=oXUf6anNAtc

Cependant, Infinite Nature utilise une seule image comme point de départ et utilise SPADE simplement pour peindre les sections manquantes dans des images successives, tandis que SPADE crée lui-même des transformations d’image directement à partir de cartes de segmentation.

Source: https://nvlabs.github.io/SPADE/

Source: https://nvlabs.github.io/SPADE/

C’est cette capacité qui semble avoir ému les admirateurs du système Intel Image Enhancement – la possibilité de dériver des images photoréalistes de très haute qualité, même en temps réel (éventuellement), à partir d’une entrée extrêmement brute.

Remplacement des textures et de l’éclairage par le rendu neuronal

Dans le cas de l’entrée GTA5, certains se sont demandé si l’une des textures procédurales et bitmap coûteuses en calcul et l’éclairage de la sortie du moteur de jeu allait vraiment être nécessaire dans les futurs systèmes de rendu neuronal, ou s’il serait possible de transformer bas résolution, entrée de niveau filaire dans une vidéo photoréaliste qui surpasse les capacités d’ombrage, de texturation et d’éclairage des moteurs de jeu, créant des scènes hyperréalistes à partir d’une entrée proxy «d’espace réservé».

Il peut sembler évident que les facettes générées par le jeu telles que les reflets, les textures et d’autres types de détails environnementaux sont des sources d’informations essentielles pour un système de rendu neuronal du type démontré par Intel. Pourtant, cela fait quelques années depuis que UNIT (UNsupervised Image-to-image Translation Networks) de NVIDIA a démontré que seul le domaine est important, et que même des aspects radicaux tels que «  nuit ou jour  » sont essentiellement des problèmes à gérer par le transfert de style:

En termes d’entrée requise, cela laisse potentiellement le moteur de jeu n’ayant qu’à générer des simulations de géométrie de base et de physique, car le moteur de rendu neuronal peut sur-peindre tous les autres aspects en synthétisant les images souhaitées à partir de l’ensemble de données capturé, en utilisant des cartes sémantiques comme interprétation. couche.

Le système d'Intel améliore une image complètement finie et rendue à partir de GTA5, en ajoutant une segmentation et des cartes de profondeur évaluées - deux facettes qui pourraient potentiellement être fournies directement par un moteur de jeu dépouillé.  Source: https://www.youtube.com/watch?v=P1IcaBn3ej0

Le système d’Intel améliore une image complètement finie et rendue à partir de GTA5, en ajoutant une segmentation et des cartes de profondeur évaluées – deux facettes qui pourraient potentiellement être fournies directement par un moteur de jeu dépouillé. Source: https://www.youtube.com/watch?v=P1IcaBn3ej0

L’approche de rendu neuronal d’Intel implique l’analyse d’images complètement rendues à partir des tampons GTA5, et le système neuronal a la charge supplémentaire de créer à la fois les cartes de profondeur et les cartes de segmentation. Étant donné que les cartes de profondeur sont implicitement disponibles dans les pipelines 3D traditionnels (et sont moins exigeantes à générer que la texturation, le lancer de rayons ou l’illumination globale), il pourrait être préférable d’utiliser les ressources pour laisser le moteur de jeu les gérer.

Entrée épurée pour un moteur de rendu neuronal

L’implémentation actuelle du réseau d’amélioration d’image Intel peut donc impliquer beaucoup de cycles de calcul redondants, car le moteur de jeu génère une texturation et un éclairage coûteux en calcul dont le moteur de rendu neuronal n’a pas vraiment besoin. Le système semble avoir été conçu de cette manière non pas parce qu’il s’agit nécessairement d’une approche optimale, mais parce qu’il est plus facile d’adapter un moteur de rendu neuronal à un pipeline existant que de créer un nouveau moteur de jeu optimisé pour une approche de rendu neuronal.

L’utilisation la plus économique des ressources dans un système de jeu de cette nature pourrait être la cooptation complète du GPU par le système de rendu neuronal, avec l’entrée proxy simplifiée gérée par le CPU.

De plus, le moteur de jeu pourrait facilement produire lui-même des cartes de segmentation représentatives, en désactivant tous les ombrages et éclairages dans sa sortie. De plus, il pourrait fournir une vidéo à une résolution bien inférieure à celle qui lui est normalement requise, car la vidéo n’aurait besoin que d’être largement représentative du contenu, les détails haute résolution étant gérés par le moteur neuronal, ce qui libèrerait davantage les ressources de calcul locales.

Rendu neuronal dans VFX

Le rendu neuronal à partir de cartes de segmentation artificielle semble également être une technologie prometteuse pour VFX, avec la possibilité de traduire directement des vidéogrammes très basiques directement en séquences d’effets visuels finis, en générant des ensembles de données spécifiques au domaine tirés soit de modèles ou d’images synthétiques (CGI).

Un système de rendu neuronal hypothétique, où une couverture étendue de chaque objet cible est abstraite dans un ensemble de données contributif, et où des cartes de segmentation générées artificiellement sont utilisées comme base pour une sortie photoréaliste pleine résolution.  Source: https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/

Un système de rendu neuronal hypothétique, où une couverture étendue de chaque objet cible est abstraite dans un ensemble de données contributif, et où des cartes de segmentation générées artificiellement sont utilisées comme base pour une sortie photoréaliste pleine résolution. Source: https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/

Le développement et l’adoption de tels systèmes déplaceraient le lieu de l’effort artistique d’un flux de travail interprétatif à un flux de travail représentatif et feraient passer la collecte de données axée sur le domaine d’un rôle de soutien à un rôle central dans les arts visuels.

Laisser un commentaire