Des rapports révèlent que Niantic crée des modèles d'IA géospatiale pour aider les ordinateurs à naviguer dans des espaces réels, et utilise les données Pokémon Go des joueurs pour l'aider. Niantic a discrètement annoncé ses projets d'IA et a déclaré que son modèle aiderait à positionner la réalité augmentée (AR) comme "le système d'exploitation du monde".
"Le LGM [Large Geospatial Model] permettra aux ordinateurs non seulement de percevoir et de comprendre les espaces physiques, mais aussi d'interagir avec eux d'une nouvelle manière, constituant ainsi un élément essentiel des lunettes de réalité augmentée et d'autres domaines, notamment la robotique, la création de contenu et les systèmes autonomes", selon Niantic, ajoutant : "Alors que nous passons des téléphones à la technologie portable liée au monde réel, l'intelligence spatiale deviendra le futur système d'exploitation du monde."
Niantic a déclaré avoir construit son système de positionnement visuel à partir d'images et de vidéos envoyées par des utilisateurs du monde entier, dans le cadre d'une fonctionnalité où les utilisateurs s'inscrivent volontairement pour capturer des informations de localisation et aider Niantic à développer de nouveaux produits de réalité augmentée. Cependant, Niantic a également déclaré qu'elle utilisait des informations de localisation précises, telles que celles qu'elle recueille auprès des utilisateurs de Pokemon Go, pour créer des scénarios dans lesquels les joueurs peuvent interagir avec des objets numériques dans des lieux réels de manière asynchrone.
Une lecture attentive de la politique de confidentialité de Niantic montre que les utilisateurs n'ont pas la possibilité de désactiver les données de localisation - ce qui n'est pas surprenant, puisque Pokemon Go est un jeu basé sur la localisation - mais qu'ils n'ont pas non plus de recours pour déterminer comment Niantic utilise ces données. Niantic indique ce qu'elle partage avec des fournisseurs extérieurs et quelles informations personnelles elle ne fournit jamais à des fournisseurs tiers, mais elle ne divulgue pas ce qu'elle fait avec les données qu'elle recueille, y compris les données de localisation.
La politique semble également considérer les données de localisation comme distinctes des données personnelles - des informations telles que le nom, la date d'anniversaire, l'adresse ISP et l'adresse électronique d'un utilisateur - de sorte qu'il est possible que Niantic regroupe les données de localisation sans inclure les noms et autres données personnelles et les partage avec d'autres fournisseurs.
Quoi qu'il en soit, Niantic affirme développer ce modèle géospatial depuis 2019, bien que cette annonce semble être la première fois que l'entreprise est transparente sur la façon dont elle utilise les données de localisation.
Voici l'annonce de Niantic:
Chez Niantic, nous sommes les pionniers du concept de grand modèle géospatial qui utilisera l'apprentissage automatique à grande échelle pour comprendre une scène et la relier à des millions d'autres scènes dans le monde.
Lorsque vous observez une structure familière, qu'il s'agisse d'une église, d'une statue ou d'une place publique, il est assez facile d'imaginer à quoi elle pourrait ressembler sous d'autres angles, même si vous ne l'avez pas vue sous toutes ses coutures. En tant qu'êtres humains, nous avons une "compréhension spatiale" qui nous permet de compléter ces détails en nous basant sur d'innombrables scènes similaires que nous avons déjà rencontrées. Mais pour les machines, cette tâche est extraordinairement difficile. Même les modèles d'IA les plus avancés peinent aujourd'hui à visualiser et à déduire les parties manquantes d'une scène, ou à imaginer un lieu sous un nouvel angle. Cette situation est sur le point de changer : L'intelligence spatiale est la prochaine frontière des modèles d'IA.
Dans le cadre du système de positionnement visuel (VPS) de Niantic, nous avons entraîné plus de 50 millions de réseaux neuronaux, avec plus de 150 000 milliards de paramètres, ce qui nous a permis d'opérer dans plus d'un million de lieux. Dans notre vision d'un grand modèle géospatial (LGM), chacun de ces réseaux locaux contribuerait à un grand modèle global, mettant en œuvre une compréhension partagée des emplacements géographiques et comprenant des endroits qui n'ont pas encore été entièrement scannés.
Le LGM permettra aux ordinateurs non seulement de percevoir et de comprendre les espaces physiques, mais aussi d'interagir avec eux d'une nouvelle manière, constituant ainsi un élément essentiel des lunettes AR et d'autres domaines, notamment la robotique, la création de contenu et les systèmes autonomes. Alors que nous passons du téléphone à la technologie portable liée au monde réel, l'intelligence spatiale deviendra le futur système d'exploitation du monde.
Lorsque vous observez une structure familière, qu'il s'agisse d'une église, d'une statue ou d'une place publique, il est assez facile d'imaginer à quoi elle pourrait ressembler sous d'autres angles, même si vous ne l'avez pas vue sous toutes ses coutures. En tant qu'êtres humains, nous avons une "compréhension spatiale" qui nous permet de compléter ces détails en nous basant sur d'innombrables scènes similaires que nous avons déjà rencontrées. Mais pour les machines, cette tâche est extraordinairement difficile. Même les modèles d'IA les plus avancés peinent aujourd'hui à visualiser et à déduire les parties manquantes d'une scène, ou à imaginer un lieu sous un nouvel angle. Cette situation est sur le point de changer : L'intelligence spatiale est la prochaine frontière des modèles d'IA.
Dans le cadre du système de positionnement visuel (VPS) de Niantic, nous avons entraîné plus de 50 millions de réseaux neuronaux, avec plus de 150 000 milliards de paramètres, ce qui nous a permis d'opérer dans plus d'un million de lieux. Dans notre vision d'un grand modèle géospatial (LGM), chacun de ces réseaux locaux contribuerait à un grand modèle global, mettant en œuvre une compréhension partagée des emplacements géographiques et comprenant des endroits qui n'ont pas encore été entièrement scannés.
Le LGM permettra aux ordinateurs non seulement de percevoir et de comprendre les espaces physiques, mais aussi d'interagir avec eux d'une nouvelle manière, constituant ainsi un élément essentiel des lunettes AR et d'autres domaines, notamment la robotique, la création de contenu et les systèmes autonomes. Alors que nous passons du téléphone à la technologie portable liée au monde réel, l'intelligence spatiale deviendra le futur système d'exploitation du monde.
Qu'est ce qu'un grand modèle géospatial ?
Les grands modèles de langage (LLM) ont un impact indéniable sur la vie quotidienne et dans de multiples secteurs d'activité. Entraînés sur des collections de textes à l'échelle de l'internet, les LLM peuvent comprendre et générer du langage écrit d'une manière qui remet en question la compréhension de l'intelligence.
Selon Niantic, les grands modèles géospatiaux aideront les ordinateurs à percevoir, comprendre et naviguer dans le monde physique d'une manière qui semblera tout aussi avancée. Analogues aux LLM, les modèles géospatiaux sont construits à partir de grandes quantités de données brutes : des milliards d'images du monde, toutes ancrées à des endroits précis du globe, sont distillées dans un grand modèle qui permet de comprendre l'espace, les structures et les interactions physiques en fonction de l'endroit où elles se trouvent.
Le passage de modèles textuels à des modèles basés sur des données 3D reflète la trajectoire plus générale de la croissance de l'IA au cours des dernières années : de la compréhension et de la génération du langage à l'interprétation et à la création d'images statiques et animées (modèles de vision 2D) et, avec l'augmentation des efforts de recherche actuels, à la modélisation de l'apparence 3D des objets (modèles de vision 3D).
Les modèles géospatiaux vont plus loin que les modèles de vision 3D, car ils capturent des entités 3D ancrées dans des lieux géographiques spécifiques et dotées d'une qualité métrique. Contrairement aux modèles génératifs 3D typiques, qui produisent des actifs sans échelle, un grand modèle géospatial est lié à l'espace métrique, ce qui garantit des estimations précises en unités d'échelle métrique. Ces entités représentent donc des cartes de la prochaine génération, plutôt que des actifs 3D arbitraires.
Alors qu'un modèle de vision 3D peut être capable de créer et de comprendre une scène 3D, un modèle géospatial comprend comment cette scène est liée à des millions d'autres scènes, géographiquement, dans le monde entier. Un modèle géospatial met en œuvre une forme d'intelligence géospatiale, où le modèle apprend de ses observations précédentes et est capable de transférer ses connaissances à de nouveaux endroits, même si ceux-ci ne sont observés que partiellement.
Bien qu'il faille encore plusieurs années avant que les lunettes AR avec des graphiques 3D ne soient commercialisées en masse, il existe des possibilités d'intégrer des modèles géospatiaux à des lunettes à affichage audio ou 2D. Ces modèles pourraient guider les utilisateurs dans le monde, répondre à des questions, fournir des recommandations personnalisées, aider à la navigation et améliorer les interactions dans le monde réel.
Les grands modèles de langage pourraient être intégrés de manière à ce que la compréhension et l'espace se rejoignent, donnant aux gens la possibilité d'être mieux informés et de s'impliquer davantage dans leur environnement et leur quartier. L'intelligence géospatiale, telle qu'elle émerge d'un grand modèle géospatial, pourrait également permettre de générer, de compléter ou de manipuler des représentations 3D du monde afin de contribuer à la construction de la prochaine génération d'expériences de réalité augmentée.
Au-delà des jeux, les grands modèles géospatiaux auront des applications étendues, allant de la planification et de la conception spatiale à la logistique, en passant par l'engagement du public et la collaboration à distance.
Comment Niantic construit son grand modèle géospatial ?
Au cours des cinq dernières années, Niantic s'est concentré sur la mise au point de son système de positionnement visuel (VPS), qui utilise une seule image d'un téléphone pour déterminer sa position et son orientation à l'aide d'une carte en 3D construite à partir de personnes qui scannent des endroits intéressants dans ses jeux et dans Scaniverse.
Avec le VPS, les utilisateurs peuvent se positionner dans le monde avec une précision de l'ordre du centimètre, selon Niantic. Cela signifie qu'ils pourraient voir le contenu numérique placé dans l'environnement physique avec précision et réalisme. Ce contenu est persistant, c'est-à-dire qu'il reste dans un lieu après que vous l'avez quitté et qu'il peut être partagé avec d'autres personnes.
Le VPS de Niantic est construit à partir de scans d'utilisateurs, pris sous différentes perspectives et à différents moments de la journée, à de nombreuses reprises au cours des années, et avec des informations de positionnement attachées, créant ainsi une compréhension détaillée du monde. Ces données sont uniques car elles sont prises du point de vue d'un piéton et incluent des endroits inaccessibles aux voitures.
Niantic partage ses progrés :
Aujourd'hui, nous disposons de 10 millions de lieux scannés dans le monde, dont plus d'un million sont activés et disponibles pour être utilisés avec notre service VPS. Nous recevons environ un million de nouveaux scans chaque semaine, chacun contenant des centaines d'images discrètes.
Dans le cadre du VPS, nous construisons des cartes visuelles classiques en 3D en utilisant des techniques de structure à partir du mouvement, mais aussi un nouveau type de carte neuronale pour chaque lieu. Ces modèles neuronaux, basés sur nos articles de recherche ACE (2023) et ACE Zero (2024), ne représentent plus les lieux à l'aide de structures de données 3D classiques, mais les encodent implicitement dans les paramètres apprenables d'un réseau neuronal. Ces réseaux peuvent rapidement compresser des milliers d'images cartographiques en une représentation neuronale allégée. À partir d'une nouvelle image d'interrogation, ils offrent un positionnement précis de cet emplacement avec une précision de l'ordre du centimètre.
Niantic a formé plus de 50 millions de réseaux neuronaux à ce jour, et plusieurs réseaux peuvent contribuer à un seul emplacement. Tous ces réseaux combinés comprennent plus de 150 billions de paramètres optimisés à l'aide de l'apprentissage automatique.
Dans le cadre du VPS, nous construisons des cartes visuelles classiques en 3D en utilisant des techniques de structure à partir du mouvement, mais aussi un nouveau type de carte neuronale pour chaque lieu. Ces modèles neuronaux, basés sur nos articles de recherche ACE (2023) et ACE Zero (2024), ne représentent plus les lieux à l'aide de structures de données 3D classiques, mais les encodent implicitement dans les paramètres apprenables d'un réseau neuronal. Ces réseaux peuvent rapidement compresser des milliers d'images cartographiques en une représentation neuronale allégée. À partir d'une nouvelle image d'interrogation, ils offrent un positionnement précis de cet emplacement avec une précision de l'ordre du centimètre.
Niantic a formé plus de 50 millions de réseaux neuronaux à ce jour, et plusieurs réseaux peuvent contribuer à un seul emplacement. Tous ces réseaux combinés comprennent plus de 150 billions de paramètres optimisés à l'aide de l'apprentissage automatique.
Des systèmes locaux à la compréhension partagée
La carte neuronale actuelle de Niantic seait un modèle géospatial viable, actif et utilisable dès à présent dans le cadre du VPS. Niantic affirme également qu'elle est très certainement "grande". Cependant, la vision de la société d'un "grand modèle géospatial" irait au-delà du système actuel de cartes locales indépendantes.
Niantic commente :
Un modèle entièrement local pourrait ne pas couvrir complètement leurs emplacements respectifs. Quelle que soit la quantité de données disponibles à l'échelle mondiale, celles-ci seront souvent rares au niveau local. Le principal mode d'échec d'un modèle local est son incapacité à extrapoler au-delà de ce qu'il a déjà vu et de l'endroit où il l'a vu. Par conséquent, les modèles locaux ne peuvent positionner que des vues de caméra similaires à celles avec lesquelles ils ont déjà été formés.
Imaginez-vous derrière une église. Supposons que le modèle local le plus proche n'ait vu que l'entrée principale de cette église et qu'il ne soit donc pas en mesure de vous indiquer où vous vous trouvez. Le modèle n'a jamais vu l'arrière du bâtiment. Mais à l'échelle mondiale, nous avons vu beaucoup d'églises, des milliers d'églises, toutes représentées par leurs modèles locaux respectifs dans d'autres endroits du monde. Aucune église n'est identique, mais beaucoup partagent des caractéristiques communes. Un LGM est un moyen d'accéder à cette connaissance distribuée.
Imaginez-vous derrière une église. Supposons que le modèle local le plus proche n'ait vu que l'entrée principale de cette église et qu'il ne soit donc pas en mesure de vous indiquer où vous vous trouvez. Le modèle n'a jamais vu l'arrière du bâtiment. Mais à l'échelle mondiale, nous avons vu beaucoup d'églises, des milliers d'églises, toutes représentées par leurs modèles locaux respectifs dans d'autres endroits du monde. Aucune église n'est identique, mais beaucoup partagent des caractéristiques communes. Un LGM est un moyen d'accéder à cette connaissance distribuée.
Par conséquent, le LGM permet un positionnement, même à partir de points de vue et d'angles que le VPS n'a jamais vus. Le modèle global met en œuvre une compréhension centralisée du monde, entièrement dérivée de données géospatiales et visuelles. Le LGM extrapole localement en interpolant globalement.
Une compréhension semblable à celle de l'homme
Le processus décrit ci-dessus est similaire à la manière dont les humains perçoivent et imaginent le monde. En tant qu'êtres humains, nous reconnaissons naturellement quelque chose que nous avons déjà vu, même sous un angle différent.
Par exemple, il nous faut relativement peu d'efforts pour retrouver notre chemin dans les rues sinueuses d'une vieille ville européenne. Nous identifions tous les bons carrefours alors que nous ne les avons vus qu'une seule fois et dans la direction opposée. Cela demande un niveau de compréhension du monde physique et des espaces culturels qui nous est naturel, mais qui est extrêmement difficile à atteindre avec la technologie classique de vision industrielle.
Il faut connaître certaines lois fondamentales de la nature : le monde est composé d'objets constitués de matière solide, qui ont donc un recto et un verso. L'apparence change en fonction de l'heure de la journée et de la saison. Elle requiert également une quantité considérable de connaissances culturelles : la forme de nombreux objets fabriqués par l'homme suit des règles spécifiques de symétrie ou d'autres types génériques d'agencement - qui dépendent souvent de la région géographique.
Niantic commente :
Alors que les premières recherches sur la vision par ordinateur ont tenté de déchiffrer certaines de ces règles afin de les coder en dur dans des systèmes conçus à la main, il est désormais admis qu'un degré de compréhension aussi élevé que celui auquel nous aspirons ne peut être atteint de manière réaliste que par l'apprentissage automatique à grande échelle. C'est ce que nous visons avec notre LGM. Nous avons eu un premier aperçu des capacités impressionnantes de positionnement des caméras qui émergent de nos données dans notre récent document de recherche MicKey (2024). MicKey est un réseau neuronal capable de positionner deux vues de caméra l'une par rapport à l'autre, même en cas de changement radical de point de vue.
MicKey peut même gérer des plans opposés qui nécessiteraient un effort de la part d'un humain pour les comprendre. MicKey a été entraîné sur une infime partie de nos données, données que nous avons mises à la disposition de la communauté universitaire afin d'encourager ce type de recherche. MicKey est limité à des entrées à deux vues et a été entraîné sur un nombre relativement faible de données, mais il représente tout de même une preuve de concept en ce qui concerne le potentiel d'un LGM. De toute évidence, pour réaliser l'intelligence géospatiale telle qu'elle est décrite dans ce texte, un immense afflux de données géospatiales est nécessaire - un type de données auquel peu d'organisations ont accès. Par conséquent, Niantic est dans une position unique pour ouvrir la voie à la réalisation d'un grand modèle géospatial, soutenu par plus d'un million de scans de lieux du monde réel fournis par les utilisateurs que nous recevons chaque semaine.
MicKey peut même gérer des plans opposés qui nécessiteraient un effort de la part d'un humain pour les comprendre. MicKey a été entraîné sur une infime partie de nos données, données que nous avons mises à la disposition de la communauté universitaire afin d'encourager ce type de recherche. MicKey est limité à des entrées à deux vues et a été entraîné sur un nombre relativement faible de données, mais il représente tout de même une preuve de concept en ce qui concerne le potentiel d'un LGM. De toute évidence, pour réaliser l'intelligence géospatiale telle qu'elle est décrite dans ce texte, un immense afflux de données géospatiales est nécessaire - un type de données auquel peu d'organisations ont accès. Par conséquent, Niantic est dans une position unique pour ouvrir la voie à la réalisation d'un grand modèle géospatial, soutenu par plus d'un million de scans de lieux du monde réel fournis par les utilisateurs que nous recevons chaque semaine.
Vers des modèles de base complémentaires
Un LGM sera utile pour plus que le simple positionnement. Pour bien résoudre le problème du positionnement, le LGM doit encoder de riches informations géométriques, esthétiques et culturelles dans des caractéristiques au niveau de la scène. Ces caractéristiques permettront de nouveaux modes de représentation, de manipulation et de création de scènes. Les grands modèles d'IA polyvalents comme le LGM, qui sont utiles pour une multitude d'applications en aval, sont communément appelés "modèles de base" (foundation models).
Différents types de modèles de base se complètent. Les LLM interagiront avec des modèles multimodaux qui, à leur tour, communiqueront avec les LGM. Ces systèmes, en travaillant ensemble, donneront un sens au monde d'une manière qu'aucun modèle ne peut atteindre seul. Cette interconnexion est l'avenir de l'informatique spatiale - des systèmes intelligents qui perçoivent, comprennent et agissent sur le monde physique.
Niantic conclut son annonce :
Alors que nous nous dirigeons vers des modèles plus évolutifs, l'objectif de Niantic reste de mener le développement d'un grand modèle géospatial qui fonctionne partout où nous pouvons offrir des expériences nouvelles, amusantes et enrichissantes à nos utilisateurs. Et, comme nous l'avons indiqué, au-delà des jeux, les grands modèles géospatiaux auront de nombreuses applications, notamment dans les domaines de la planification et de la conception spatiales, de la logistique, de l'engagement du public et de la collaboration à distance.
Le passage des LLM aux LGM est une autre étape de l'évolution de l'IA. Avec la généralisation des dispositifs portables tels que les lunettes AR, le futur système d'exploitation du monde dépendra de la fusion des réalités physiques et numériques pour créer un système d'informatique spatiale qui placera l'homme au centre.
Le passage des LLM aux LGM est une autre étape de l'évolution de l'IA. Avec la généralisation des dispositifs portables tels que les lunettes AR, le futur système d'exploitation du monde dépendra de la fusion des réalités physiques et numériques pour créer un système d'informatique spatiale qui placera l'homme au centre.
Cette annonce marque un tournant dans la vie de Niantic. En effet, en 2023, l'entreprise n'était pas au meilleur de sa forme financièrement. Des rapports révélaient une croissance insuffisante qui a conduit au licenciement de 230 employés et à l'annulation du développement de deux jeux. En se recentrant sur Pokemon Go et en exploitant les données de localisation collectées, l'avenir de Niantic semble bien meilleur.
Source : Niantic
Et vous ?
Pensez-vous que cette annonce est crédible ou pertinente ?
Quel est votre avis sur le sujet ?
Voir aussi :
Niantic, l'éditeur de Pokémon Go, montre les progrès qu'il a réalisé en matière de réalité augmentée et donne un aperçu des possibilités aux devs
Les entreprises d'IA sont-elles à court de données pour entraîner leurs modèles après avoir englouti l'ensemble de l'Internet ? Un rapport alerte sur une potentielle pénurie de données
L'IA générative débarque sur Google Maps, Google Earth et Waze afin d'améliorer ses activités de cartographie en s'appuyant sur Gemini, le rival de ChatGPT