Ces techniques et leurs approximations ont été intégrées dans des pipelines de rendu en temps réel, ce qui a permis d'améliorer considérablement le réalisme des jeux vidéo. Néanmoins, un regard sur les jeux en temps réel les plus sophistiqués révèle que le photoréalisme n'a pas été atteint. Une différence ineffable dans l'apparence de la simulation de la réalité. Ces dernières années, un ensemble complémentaire de techniques a été développé dans les domaines de la vision par ordinateur et de l'apprentissage automatique. Ces techniques, basées sur l'apprentissage profond, les réseaux convolutifs et l'apprentissage contradictoire, permettent de contourner les problèmes de simulation. Au lieu de cela, les images sont synthétisées par des réseaux convolutifs formés sur de grands ensembles de données. Ces techniques ont été utilisées pour synthétiser des images représentant un domaine, pour convertir des cartes d'étiquettes sémantiques en images photographiques.
Pour tenter de combler l'écart d'apparence entre les photos et les images réelles. Les images synthétisées par ces approches capturent des aspects de l'apparence photographique qui échappent souvent même à l'analyse des images réelles. D'un autre côté, ces approches sont largement déconnectées des pipelines de rendu qui alimentent les jeux vidéo. Le point de départ est un ensemble de tampons intermédiaires (G-buffers) produits par les moteurs de jeux pendant le processus de rendu. Ces tampons fournissent des informations détaillées sur la géométrie, les matériaux et l'éclairage de la scène. Intel entraîne les réseaux convolutifs avec ces entrées auxiliaires pour améliorer le réalisme des images.
Une vidéo montée par Intel présente des comparaisons côte à côte entre le monde standard de GTA 5 et la version améliorée, générée par Intel Labs. L'image améliorée est particulièrement impressionnante en termes de détails : elle rend les reflets des vitres des voitures, la brillance de la peinture, l'herbe luxuriante dans les champs auparavant marron et les feuilles des arbres dénudés.
L'arme secrète de l'équipe d'Intel est en fait un processus de vérification qui s'exécute à la fin de l'amélioration de chaque image individuelle. Cette vérification mesure la précision de chaque image par rapport à une image réelle afin de s'assurer que le processus continue de répondre à un certain niveau de qualité photoréaliste. La vidéo décrit en détail le fonctionnement du processus et fournit même quelques aides visuelles pour le rendre plus clair.
« Nous présentons une approche visant à améliorer le réalisme des images synthétiques. Les images sont améliorées par un réseau convolutif qui exploite les représentations intermédiaires produites par les pipelines de rendu conventionnels. Le réseau est entraîné via un nouvel objectif contradictoire, qui fournit une supervision forte à plusieurs niveaux », a déclaré Intel. « Nous analysons les distributions de la disposition des scènes dans des ensembles de données couramment utilisés et constatons qu'elles diffèrent de manière importante.
Nous supposons que c'est l'une des causes des artefacts importants que l'on peut observer dans les résultats de nombreuses méthodes antérieures. Pour y remédier, nous proposons une nouvelle stratégie d'échantillonnage des patchs d'image. Nous introduisons également de multiples améliorations architecturales dans les modules de réseaux profonds utilisés pour l'amélioration du photoréalisme », ajoute l’entreprise.
Intel Labs cherche également à éliminer les artefacts qui peuvent être observés dans les résultats des approches d'apprentissage profond antérieures qui souvent hallucinent les objets. À cette fin, Intel Labs analyse les ensembles de données qui sont couramment utilisés pour l'amélioration du photoréalisme. Le laboratoire révèle que la disposition des scènes diffère d'une manière qui peut expliquer les artefacts couramment observés dans les travaux antérieurs.
Selon Intel, en combinant toutes les contributions, l’approche d’Intel Labs améliore de manière significative le photoréalisme du rendu d’images. Elle peut ajouter du brillant aux voitures, verdir les collines desséchées et reconstruire les routes. L'entraînement avec différentes collections d'images du monde réel ou Mapillary Vistas permet d'exprimer les styles visuels correspondants dans la sortie.
L’ analyse suggère en outre que les métriques standard confondent les différences de style et de contenu. Motivés par cette observation, Intel Labs développe une nouvelle famille de métriques qui atténuent l'effet de l'inadéquation de la disposition des scènes et permettent une évaluation plus fine du réalisme à plusieurs niveaux. « Nous comparons l'approche présentée à un large éventail de bases solides qui représentent diverses perspectives sur l'amélioration du photoréalisme. Nous réalisons également une expérience perceptuelle pour évaluer le photoréalisme. Les résultats indiquent que notre approche produit systématiquement les résultats les plus réalistes », déclare Intel. « Dans toutes les expériences, notre approche surpasse toutes les lignes de base et établit un nouvel état de l'art dans l'amélioration du photoréalisme ».
Comparaison avec les travaux antérieurs
Pour la comparaison avec les travaux antérieurs, Intel Labs a sélectionné un certain nombre de références qui représentent plusieurs lignes pouvant être appliquées à l'amélioration du photoréalisme. Pour les méthodes qui nécessitent des étiquettes de segmentation sémantique en entrée, nous fournissons des cartes des images synthétiques et réelles prédites par MSeg, le même réseau de segmentation qui est utilisé dans le discriminateur de la méthode.
L’approche d’Intel Labs vise à améliorer considérablement le réalisme des rendus d’images. Intel indique que dans l'ensemble, son approche produit des améliorations de haute qualité qui sont géométriquement et sémantiquement cohérentes avec les images d'entrée tout en correspondant au style de l'ensemble de jeu de données. Cette méthode intègre des approches basées sur l'apprentissage avec pipelines de rendu en temps réel classiques. L'inférence avec cette approche dans sa mise en œuvre actuelle non optimisée prend une demi-seconde sur un GPU Geforce RTX 3090.
- Transfert de couleur : comparaison avec les travaux classiques sur le transfert de couleurs. Une évaluation des travaux de Reinhard et al. (transfert de couleur) et le transfert de distribution de couleur (CDT) de Pitie et al ont été effectués par Intel Labs. Les modifications apportées par ces méthodes sont limitées aux couleurs des pixels individuels. Si cela empêche l'amélioration des textures, cela évite également l'introduction d'artefacts communs à des approches plus agressives basées sur l'apprentissage, ce qui permet de garder les images résultantes assez proches de l'entrée originale. Par conséquent, les améliorations les plus importantes peuvent être observées dans les bas niveaux (sKVD1-2 et sKVD2-2)
- transfert de style de photo : Intel Labs compare une solution à forme fermée pour le transfert rapide de style photographique (PhotoWCT) et l'état de l'art, basé sur l'apprentissage profond. Les deux approches de transfert de style photographique nécessitent une image de style et des cartes de segmentation sémantique pour l'image source et l'image de style. Alors que les méthodes de transfert de couleur appliquent des transformations aux couleurs des pixels individuels, les méthodes de transfert de style photo effectuent des transformations dans des espaces de caractéristiques plus élevés, guidés par des segmentations sémantiques, et modifient ainsi plus fortement les images. Cependant, les méthodes de transfert de style de photo reposent sur une image de style favorable qui correspond à l'image synthétique d'entrée. Lorsque l'image d'entrée change pendant l'exploration interactive d'un environnement synthétique, le transfert de style photographique peut produire des changements de couleur irréalistes ou instabilité temporelle
; - synthèse d'image conditionnelle : Intel Labs a comparé avec une approche représentative de la synthèse d'image conditionnelle, SPADE, car elle domine les approches précédentes. Il utilise un modèle préentraîné pour la synthèse des scènes de rue urbaines, fourni par les auteurs. Le modèle est préentraîné sur la base de la segmentation de Cityscapes, qui est compatible avec GTA. SPADE est considérablement moins performant que les autres méthodes. Cela peut s'expliquer par deux facteurs. Premièrement, synthétiser une photo à partir d'une carte de segmentation sémantique est plus difficile que de modifier une image donnée. Deuxièmement, puisque SPADE a été entraîné à synthétiser des images à partir de l'ensemble de données Cityscapes, le changement de distribution dans les dispositions de la scène entre Cityscapes et GTA entraîne ce modèle bien au-delà de sa distribution d'entraînement.
Pour conclure, l’approche d’Intel Labs apporte une amélioration considérable du réalisme des rendus d’images. Intuitivement, cette méthode obtient des résultats cohérents pour les objets et les scènes qui ont des correspondances claires dans le jeu de données réel. La méthode d’Intel méthode excelle pour les textures de routes, les voitures et la végétation. Les objets et les scènes qui sont moins courants dans les images réelles (par exemple, les piétons en gros plan) sont modifiés de manière moins convaincante.
Et vous ?
Quel est votre avis sur le sujet ?
Voir aussi :
Des élus envisagent de bannir le jeu vidéo GTA après la recrudescence du carjacking, évoquant des similitudes entre les vols de voiture et les actions que les joueurs peuvent effectuer dans le jeu
Rockstar remercie le joueur de GTA Online qui a corrigé les problèmes de temps de chargement, une mise à jour officielle a été publiée et une prime de 10 000 $ versée
Jeux vidéo : certains estiment que travailler dans ce secteur ne fait pas rêver, mais des développeurs de mod viennent d'entrer dans la cour des grands avec Enderal, le mod de The Elder Scrolls V
Two-Take autorise à nouveau la création de mods pour GTA avec l'outil OpenIV, sous la pression des joueurs