Le photorealisme est l'objectif principal de l'infographie depuis un demi-siècle. En 1977, Newell et Blinn ont passé en revue une décennie de travaux sur ce problème. Au cours des quatre décennies suivantes, des progrès substantiels ont été réalisés, grâce notamment à la simulation physique du transport de la lumière, à la représentation raisonnée de l'apparence des matériaux et à la modélisation photogrammétrique. Intel Labs, un centre de recherche de l'entreprise technologique du même nom, a créé un nouveau processus d'amélioration des images et l'a présenté en utilisant GTA5 (Grand Theft Auto 5). Selon un ancien membre de l'équipe, le processus convertit les séquences standard du jeu en images presque photo-réalistes à l'aide d'une procédure complexe impliquant l’intelligence artificielle.Ces techniques et leurs approximations ont été intégrées dans des pipelines de rendu en temps réel, ce qui a permis d'améliorer considérablement le réalisme des jeux vidéo. Néanmoins, un regard sur les jeux en temps réel les plus sophistiqués révèle que le photoréalisme n'a pas été atteint. Une différence ineffable dans l'apparence de la simulation de la réalité. Ces dernières années, un ensemble complémentaire de techniques a été développé dans les domaines de la vision par ordinateur et de l'apprentissage automatique. Ces techniques, basées sur l'apprentissage profond, les réseaux convolutifs et l'apprentissage contradictoire, permettent de contourner les problèmes de simulation. Au lieu de cela, les images sont synthétisées par des réseaux convolutifs formés sur de grands ensembles de données. Ces techniques ont été utilisées pour synthétiser des images représentant un domaine, pour convertir des cartes d'étiquettes sémantiques en images photographiques.
Pour tenter de combler l'écart d'apparence entre les photos et les images réelles. Les images synthétisées par ces approches capturent des aspects de l'apparence photographique qui échappent souvent même à l'analyse des images réelles. D'un autre côté, ces approches sont largement déconnectées des pipelines de rendu qui alimentent les jeux vidéo. Le point de départ est un ensemble de tampons intermédiaires (G-buffers) produits par les moteurs de jeux pendant le processus de rendu. Ces tampons fournissent des informations détaillées sur la géométrie, les matériaux et l'éclairage de la scène. Intel entraîne les réseaux convolutifs avec ces entrées auxiliaires pour améliorer le réalisme des images.
Une vidéo montée par Intel présente des comparaisons côte à côte entre le monde standard de GTA 5 et la version améliorée, générée par Intel Labs. L'image améliorée est particulièrement impressionnante en termes de détails : elle rend les reflets des vitres des voitures, la brillance de la peinture, l'herbe luxuriante dans les champs auparavant marron et les feuilles des arbres dénudés.
L'arme secrète de l'équipe d'Intel est en fait un processus de vérification qui s'exécute à la fin de l'amélioration de chaque image individuelle. Cette vérification mesure la précision de chaque image par rapport à une image réelle afin de s'assurer que le processus continue de répondre à un certain niveau de qualité photoréaliste. La vidéo décrit en détail le fonctionnement du processus et fournit même quelques aides visuelles pour le rendre plus clair.
« Nous présentons une approche visant à améliorer le réalisme des images synthétiques. Les images sont améliorées par un réseau convolutif qui exploite les représentations intermédiaires produites par les pipelines de rendu conventionnels. Le réseau est entraîné via un nouvel objectif contradictoire, qui fournit une supervision forte à plusieurs niveaux », a déclaré Intel. « Nous analysons les distributions de la disposition des scènes dans des ensembles de données couramment utilisés et constatons qu'elles diffèrent de manière importante.
Nous supposons que c'est l'une des causes des artefacts importants que l'on peut observer dans les résultats de nombreuses méthodes antérieures. Pour y remédier, nous proposons une nouvelle stratégie d'échantillonnage des patchs d'image. Nous introduisons également de multiples améliorations architecturales dans les modules de réseaux profonds utilisés pour l'amélioration du photoréalisme », ajoute l’entreprise.
Intel Labs cherche également à éliminer les artefacts qui peuvent être observés dans les résultats des approches d'apprentissage profond antérieures qui souvent hallucinent les objets. À cette fin, Intel Labs analyse les ensembles de données qui sont couramment utilisés pour l'amélioration du photoréalisme. Le laboratoire révèle que la disposition des scènes diffère d'une manière qui peut expliquer les artefacts couramment observés dans les travaux antérieurs.
Selon Intel, en combinant toutes les contributions, l’approche d’Intel...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.