
Modèle d'action mondiale et humaine : qu'est-ce que cela signifie ?
Selon Microsoft, à l'avenir, vous jouerez peut-être contre l'IA. Non, pas sur le champ de bataille, mais dans des jeux qui utilisent l'IA pour simuler le jeu lui-même. L'entreprise a mis au point le modèle d'IA WHAM (World and Human Action Model) ou « Muse » qui teste les jeux dès le début du cycle de développement en utilisant l'IA à la place des joueurs humains. Microsoft a présenté le nouveau modèle d'IA dans un billet de blogue détaillé publié le 19 février.
Les joueurs savent qu'une IA réaliste est capable de transformer un bon jeu en quelque chose d'extraordinaire, comme les anciens jeux F.E.A.R. qui modélisaient de manière réaliste la réaction des soldats face à un joueur hostile et armé. Le modèle WHAM adopte l'approche inverse : il tente de déterminer comment les joueurs humains réagiront dans une situation donnée, jusqu'à un cadre ou une configuration spécifique au sein de l'univers de jeu existant.
L'objectif de WHAM n'est pas d'améliorer nécessairement la façon dont les PNJ ou les monstres du jeu réagissaient aux joueurs. Au contraire, WHAM a été développé pour faire en sorte qu'un jeu soit « agréable à jouer » - ni trop dur, ni trop facile, avec des interactions qui semblent réalistes. C'est quelque chose qui nécessite normalement des heures et des heures de bêta-test et d'évaluation de la façon dont les joueurs interagissent avec l'environnement.
Microsoft affirme que WHAM a été conçu pour automatiser ce processus. « Nous pensons qu'il existe une opportunité unique d'utiliser la technologie pour permettre aux créateurs de faire des choses qu'ils n'ont jamais faites auparavant », a déclaré Phil Spencer, directeur de la division Xbox de Microsoft.
Simuler des jeux vidéo avec le nouveau modèle WHAM de Microsoft
Le modèle WHAM de Microsoft est baptisé « Muse ». Pour développer Muse, Microsoft a utilisé environ 500 000 sessions de jeu anonymisées (sur les sept cartes du jeu) provenant de Bleeding Edge de Ninja Theory, un jeu de combat multijoueur 4×4 que Ninja Theory a lancé en 2020, mais dont le développement a été interrompu moins d'un an plus tard. Chaque image de la session a été réduite à une résolution de 300×180, puis encodée en 540 jetons d'IA.
De même, chaque mouvement de la manette Xbox, y compris les boutons, a été réduit à 16 entrées différentes en fonction de la direction du stick et de l'entrée du bouton. Ninja Theory est un studio de développement britannique de jeux vidéo basé à Cambridge en Angleterre. Il appartient à Microsoft.
Microsoft a encodé tout le gameplay dans un modèle de 1,6 milliard de paramètres, condensant ainsi sept années entières de jeu en un seul transformateur. L'entreprise a également développé des modèles plus petits basés sur une seule carte, Skygarden, avec des images 128×128 utilisées à la place, avec des paramètres allant de 15 millions à 894 millions. Cette approche permet de renforcer les capacités du modèle Muse et d'améliorer ses performances.
(Dans le domaine des grands modèles de langage, un plus grand nombre de paramètres génère généralement des résultats plus réalistes, au prix de ressources informatiques supplémentaires.) Microsoft a ensuite construit un prototype, connu sous le nom de « WHAM Demonstrator », qui est une sorte de chatbot d'IA basé sur le modèle WHAM. Dans ce cas, l'utilisateur peut « placer » le joueur d'IA sur une carte, en relation avec divers objets autour de lui.
Lorsqu'il était activé, le démonstrateur esquissait la manière dont le joueur « humain » était susceptible de réagir. Dans ce cas, le développeur pouvait exécuter et réexécuter le démonstrateur pour voir différents résultats, puis sélectionner un résultat pour continuer à voir comment l'IA « humaine » réagirait.
Quelques avantages et cas d'utilisation potentiels du modèle WHAM
Microsoft se vante du fait que les sorties de WHAM peuvent rester globalement cohérentes pendant deux minutes sans s'effondrer, les séquences simulées s'alignant bien sur les séquences réelles, même lorsque des éléments et des environnements entrent et sortent du champ de vision. Il s'agit d'une amélioration par rapport à la « mémoire à long terme » du modèle concurrent Genie 2 de Google, qui n'offre qu'une minute d'images cohérentes.
Microsoft a aussi testé la capacité du modèle WHAM à répondre à un ensemble varié d'entrées aléatoires que l'on ne trouve pas dans ses données d'apprentissage. Les tests du modèle WHAM ont montré des réponses globalement appropriées à de nombreuses séquences d'entrée différentes basées sur des annotations humaines des séquences résultantes, même si les meilleurs modèles étaient un peu en deçà de la « base de référence humaine ».
Les résultats de l'étude portant sur le modèle WHAM (Muse) ont été publiés dans la revue scientifique Nature le mercredi 19 février 2025. Microsoft a également publié le démonstrateur WHAM sur Hugging Face, une plateforme permettant aux utilisateurs de tester les modèles d'IA générative.
Le résultat le plus intéressant des tests pourrait toutefois concerner la persistance des objets dans le jeu. Microsoft a fourni des exemples de développeurs insérant des images de nouveaux objets ou personnages dans des séquences de jeu préexistantes. Le modèle WHAM pourrait alors incorporer cette nouvelle image dans les images générées par la suite, avec des réponses appropriées à l'entrée du joueur ou aux mouvements de la caméra.
Avec seulement cinq images modifiées, le nouvel objet « persistait » de manière appropriée dans les images suivantes dans 85 à 98 % des cas. Microsoft a déclaré que WHAM constitue une « percée » dans le domaine de l'idéation de jeux vidéo, mais les résultats montrent qu'il reste encore du chemin à parcourir.
WHAM souffre de nombreuses limites malgré les progrès annoncés
Si l'on trace une ligne entre WHAM et l'avenir, on arrive à un jeu généré de plus en plus en temps réel par l'IA. Selon Fatima Kardar, vice-présidente de Microsoft chargée de l'IA dans les jeux, c'est là que Microsoft espère aller. Google a déjà fait la démonstration de mondes de jeux cohérents générés par l'IA.
Malgré les améliorations dont Microsoft se targue dans son modèle WHAM, l'entreprise déclare qu'elle considère toujours le prototypage brutal par les d...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.