
mais le modèle de Microsoft est limité et génère des images avec une résolution très faible
Microsoft a dévoilé le modèle de langage « Muse » capable de générer des images, des scènes et des scénarios pour le développement de jeux vidéo. L'entreprise décrit Muse comme le premier « modèle d'action mondiale et humaine » (WHAM) et estime qu'il constitue une « percée » dans le domaine de l'idéation de jeux vidéo. Muse a été entraîné sur un ensemble de données équivalent à sept années de gameplay du titre Xbox Bleeding Edge. Il se base ensuite sur ces données pour générer de nouveaux scénarios de jeu. Microsoft a déclaré que Muse est disponible sur Hugging Face et Azure AI Foundry, et de futures expériences d'IA interactives sont prévues.
Modèle d'action mondiale et humaine : qu'est-ce que cela signifie ?
Selon Microsoft, à l'avenir, vous jouerez peut-être contre l'IA. Non, pas sur le champ de bataille, mais dans des jeux qui utilisent l'IA pour simuler le jeu lui-même. L'entreprise a mis au point le modèle d'IA WHAM (World and Human Action Model) ou « Muse » qui teste les jeux dès le début du cycle de développement en utilisant l'IA à la place des joueurs humains. Microsoft a présenté le nouveau modèle d'IA dans un billet de blogue détaillé publié le 19 février.
Les joueurs savent qu'une IA réaliste est capable de transformer un bon jeu en quelque chose d'extraordinaire, comme les anciens jeux F.E.A.R. qui modélisaient de manière réaliste la réaction des soldats face à un joueur hostile et armé. Le modèle WHAM adopte l'approche inverse : il tente de déterminer comment les joueurs humains réagiront dans une situation donnée, jusqu'à un cadre ou une configuration spécifique au sein de l'univers de jeu existant.
L'objectif de WHAM n'est pas d'améliorer nécessairement la façon dont les PNJ ou les monstres du jeu réagissaient aux joueurs. Au contraire, WHAM a été développé pour faire en sorte qu'un jeu soit « agréable à jouer » - ni trop dur, ni trop facile, avec des interactions qui semblent réalistes. C'est quelque chose qui nécessite normalement des heures et des heures de bêta-test et d'évaluation de la façon dont les joueurs interagissent avec l'environnement.
Microsoft affirme que WHAM a été conçu pour automatiser ce processus. « Nous pensons qu'il existe une opportunité unique d'utiliser la technologie pour permettre aux créateurs de faire des choses qu'ils n'ont jamais faites auparavant », a déclaré Phil Spencer, directeur de la division Xbox de Microsoft.
Simuler des jeux vidéo avec le nouveau modèle WHAM de Microsoft
Le modèle WHAM de Microsoft est baptisé « Muse ». Pour développer Muse, Microsoft a utilisé environ 500 000 sessions de jeu anonymisées (sur les sept cartes du jeu) provenant de Bleeding Edge de Ninja Theory, un jeu de combat multijoueur 4×4 que Ninja Theory a lancé en 2020, mais dont le développement a été interrompu moins d'un an plus tard. Chaque image de la session a été réduite à une résolution de 300×180, puis encodée en 540 jetons d'IA.
De même, chaque mouvement de la manette Xbox, y compris les boutons, a été réduit à 16 entrées différentes en fonction de la direction du stick et de l'entrée du bouton. Ninja Theory est un studio de développement britannique de jeux vidéo basé à Cambridge en Angleterre. Il appartient à Microsoft.
Microsoft a encodé tout le gameplay dans un modèle de 1,6 milliard de paramètres, condensant ainsi sept années entières de jeu en un seul transformateur. L'entreprise a également développé des modèles plus petits basés sur une seule carte, Skygarden, avec des images 128×128 utilisées à la place, avec des paramètres allant de 15 millions à 894 millions. Cette approche permet de renforcer les capacités du modèle Muse et d'améliorer ses performances.
(Dans le domaine des grands modèles de langage, un plus grand nombre de paramètres génère généralement des résultats plus réalistes, au prix de ressources informatiques supplémentaires.) Microsoft a ensuite construit un prototype, connu sous le nom de « WHAM Demonstrator », qui est une sorte de chatbot d'IA basé sur le modèle WHAM. Dans ce cas, l'utilisateur peut « placer » le joueur d'IA sur une carte, en relation avec divers objets autour de lui.
Lorsqu'il était activé, le démonstrateur esquissait la manière dont le joueur « humain » était susceptible de réagir. Dans ce cas, le développeur pouvait exécuter et réexécuter le démonstrateur pour voir différents résultats, puis sélectionner un résultat pour continuer à voir comment l'IA « humaine » réagirait.
Quelques avantages et cas d'utilisation potentiels du modèle WHAM
Microsoft se vante du fait que les sorties de WHAM peuvent rester globalement cohérentes pendant deux minutes sans s'effondrer, les séquences simulées s'alignant bien sur les séquences réelles, même lorsque des éléments et des environnements entrent et sortent du champ de vision. Il s'agit d'une amélioration par rapport à la « mémoire à long terme » du modèle concurrent Genie 2 de Google, qui n'offre qu'une minute d'images cohérentes.
Microsoft a aussi testé la capacité du modèle WHAM à répondre à un ensemble varié d'entrées aléatoires que l'on ne trouve pas dans ses données d'apprentissage. Les tests du modèle WHAM ont montré des réponses globalement appropriées à de nombreuses séquences d'entrée différentes basées sur des annotations humaines des séquences résultantes, même si les meilleurs modèles étaient un peu en deçà de la « base de référence humaine ».
Les résultats de l'étude portant sur le modèle WHAM (Muse) ont été publiés dans la revue scientifique Nature le mercredi 19 février 2025. Microsoft a également publié le démonstrateur WHAM sur Hugging Face, une plateforme permettant aux utilisateurs de tester les modèles d'IA générative.
Le résultat le plus intéressant des tests pourrait toutefois concerner la persistance des objets dans le jeu. Microsoft a fourni des exemples de développeurs insérant des images de nouveaux objets ou personnages dans des séquences de jeu préexistantes. Le modèle WHAM pourrait alors incorporer cette nouvelle image dans les images générées par la suite, avec des réponses appropriées à l'entrée du joueur ou aux mouvements de la caméra.
Avec seulement cinq images modifiées, le nouvel objet « persistait » de manière appropriée dans les images suivantes dans 85 à 98 % des cas. Microsoft a déclaré que WHAM constitue une « percée » dans le domaine de l'idéation de jeux vidéo, mais les résultats montrent qu'il reste encore du chemin à parcourir.
WHAM souffre de nombreuses limites malgré les progrès annoncés
Si l'on trace une ligne entre WHAM et l'avenir, on arrive à un jeu généré de plus en plus en temps réel par l'IA. Selon Fatima Kardar, vice-présidente de Microsoft chargée de l'IA dans les jeux, c'est là que Microsoft espère aller. Google a déjà fait la démonstration de mondes de jeux cohérents générés par l'IA.
Malgré les améliorations dont Microsoft se targue dans son modèle WHAM, l'entreprise déclare qu'elle considère toujours le prototypage brutal par les développeurs de jeux comme le principal cas d'utilisation actuel. Les développeurs peuvent tester un prototype du démonstrateur WHAM sur Azure AI Foundry pour voir comment le système peut générer de nouvelles séquences de jeu interactives à partir de quelques images vidéo seulement.
Mais ne vous faites donc pas d'illusions sur une nouvelle vague de jeux générés par l'IA dans un avenir proche. Le prototype de l'outil WHAM est encore limité à une résolution très floue de 300×180 (comparable à l'écran de la Nintendo DS d'origine) à 10 images par seconde, bien en deçà de la ligne de base jouable pour les jeux vidéo modernes. Ce qui indique que l'outil de Microsoft a encore un long chemin à parcourir pour s'imposer dans le domaine.
Et malgré toutes les améliorations annoncées en matière de cohérence et de persistance, la plupart des objets présentés ont toujours une qualité éthérée et onirique, même dans les séquences à faible résolution du modèle WHAM. Comme le montrent les vidéos, le personnage du joueur, en particulier, a tendance à se transformer et à s'étirer comme un métamorphe plutôt que comme un modèle de joueur serré avec un squelette solide et cohérent.
Mais Microsoft espère que WHAM constitue un premier pas vers un avenir où l'IA pourra créer des expériences interactives haut de gamme en un clin d'œil. « J'espère que cela vous donnera une idée de ce à quoi nous pourrions penser lorsque nous commencerons à travailler sur des expériences interactives générées à la volée par ces modèles d'IA générative capables de fonctionner en temps réel », a déclaré Katja Hoffman, de Microsoft Research.
Sources : rapport de l'étude, Microsoft, World and Human Action Model (WHAM)
Et vous ?




Voir aussi



Vous avez lu gratuitement 7 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.