L'importance d'un SDK basé sur le cloud pour la robotique peut ne pas sembler flamboyante, mais elle est absolument cruciale pour faire avancer le secteur. Si vous êtes dans des cercles technologiques, vous entendrez parler des plateformes cloud quotidiennement, ce qui suscite rarement l'imagination. Pourtant, pour les robots humanoïdes et les opérateurs dans le monde physique, un kit d'outils de simulation cloud est une nécessité fondamentale pour tout développeur cherchant à faire évoluer sa formation. Des simulations précises du monde virtuel sont l'une des marchandises les plus recherchées dans la robotique en ce moment. Les chercheurs mènent d'innombrables expériences pour déterminer quelles combinaisons de données réelles et synthétiques génèrent les résultats les plus précis pour les tâches de formation. Oui, des entreprises comme Tesla ont un énorme avantage grâce aux données de réseau neuronal qu'elles ont collectées auprès de leurs flottes, bien que ces données ne soient que des informations brutes jusqu'à ce qu'elles soient mises en pratique à travers des simulations de formation réalistes. Pour tout le monde, acquérir ce niveau de données ou même le matériel pour le faire n'est tout simplement pas une option à moins d'être une entreprise massivement financée. C'est là que la simulation cloud entre en jeu. En déplaçant la formation et les tests des robots dans des environnements virtuels basés sur le cloud, n'importe qui peut accéder à la puissance de calcul nécessaire et à l'échelle. Une plateforme cloud peut centraliser le partage de ces simulations, résultats et données. Vous abstraisez essentiellement l'accès fermé dont disposent ces entreprises milliardaires, les composants matériels étendus utilisés dans les laboratoires et amenez les ensembles de données à la lumière publique où les contributions open source deviennent un +EV global pour l'innovation. Ce modèle commercial prouve déjà son efficacité avec l'initiative open source LeRobot de Hugging Face qui s'associe à Nvidia pour connecter leurs frameworks afin que les chercheurs puissent partager des modèles, des ensembles de données et des environnements de simulation sur le cloud. L'objectif final est de créer un flywheel de données, car les gens contribuent des données de simulation et des politiques entraînées à des dépôts ouverts, cela accélère les progrès des autres, générant à son tour plus de données accessibles au niveau mondial. Beaucoup de travail est consacré à cela en fermant l'écart "sim to real". Les simulateurs ont souvent échoué à reproduire la réalité, les robots apprenaient des comportements dans un monde virtuel qui ne se transféraient pas dans le monde réel, car la physique ou les visuels n'étaient pas assez précis. Cet écart se réduit maintenant rapidement grâce à une meilleure fidélité de simulation et à des approches de formation hybrides. La plupart des derniers modèles fondamentaux en robotique (comme Isaac GROOT de NVIDIA et Helix VLA de Figure) utilisent une architecture à double système qui imite la cognition humaine. Il en va de même pour la façon dont ils entraînent les données dans les simulations mondiales. Une partie du modèle est entraînée sur des données de démonstration humaine du monde réel, tandis qu'une autre partie est entraînée sur une énorme quantité de données synthétiques générées via des simulateurs de haute fidélité. En combinant la formation physique et simulée, le modèle apprend des compétences précises qui se généralisent mieux. Les données réelles fournissent la vérité en IA, tandis que les données simulées offrent l'échelle et la variété qu'il est impraticable de rassembler dans le monde physique. Les développeurs peuvent même affiner ou post-entraîner des modèles avec des données réelles ou synthétiques supplémentaires pour des tâches spécifiques, rendant le pipeline de formation extrêmement flexible. Helix VLA de Figures, qui utilise l'approche Système 1/Système 2, est entraîné sur seulement des centaines d'heures téléopérées (augmentées par la simulation et le marquage intelligent), Helix peut gérer de nouvelles tâches ménagères par le biais du langage naturel sans codage personnalisé. Cela démontre comment les modèles multimodaux et la formation synthétique réduisent considérablement les besoins en données. @codecopenflow applique le même principe avec Octo, un VLA ouvert intégré dans son SDK Optr, permettant une perception multi-caméras et un contrôle guidé par le langage avec des ensembles de données beaucoup plus petits et un calcul réduit. ...