La importancia de un SDK basado en la nube para la robótica puede no sonar llamativa, pero es absolutamente crucial para avanzar en el sector. Si estás en círculos tecnológicos, escucharás sobre plataformas en la nube a diario, que rara vez despiertan la imaginación. Sin embargo, para los robots humanoides y los operadores en el mundo físico, un kit de herramientas de simulación en la nube es una necesidad fundamental para cualquier desarrollador que intente escalar su entrenamiento. Las simulaciones precisas del mundo virtual son una de las mercancías más buscadas en la robótica en este momento. Los investigadores están realizando experimentos interminables para determinar qué combinaciones de datos reales y sintéticos generan los resultados más precisos para las tareas de entrenamiento. Sí, empresas como Tesla tienen una gran ventaja gracias a los datos de redes neuronales que han recopilado de sus flotas, aunque estos datos son simplemente información en bruto hasta que se ponen en práctica a través de simulaciones de entrenamiento realistas. Para todos los demás, adquirir ese nivel de datos o incluso el hardware para alimentarlo simplemente no es una opción a menos que seas una empresa con un gran financiamiento. Aquí es donde entra la simulación en la nube. Al mover el entrenamiento y las pruebas de robots a entornos virtuales basados en la nube, cualquiera puede acceder a la computación necesaria y escalar. Una plataforma en la nube puede centralizar el intercambio de esas simulaciones, resultados y datos. Esencialmente, estás abstraiendo el acceso cerrado que estas empresas de mil millones de dólares tienen, los extensos componentes de hardware utilizados en laboratorios y llevando conjuntos de datos a la luz pública donde las contribuciones de código abierto se convierten en un +EV general para la innovación. Este modelo de negocio ya se está demostrando con la iniciativa de código abierto LeRobot de Hugging Face, que se asocia con Nvidia para conectar sus marcos y permitir que los investigadores compartan modelos, conjuntos de datos y entornos de simulación en la nube. El objetivo final es crear un ciclo de datos, ya que las personas contribuyen con datos de simulación y políticas entrenadas a repositorios abiertos, acelera el progreso de otros, generando a su vez más datos accesibles globalmente. Se está canalizando mucho trabajo en esto a través del cierre de la brecha "sim a real". Los simuladores a menudo no alcanzaban la realidad, los robots aprendían comportamientos en un mundo virtual que no se transferían al mundo real, porque la física o los visuales no eran lo suficientemente precisos. Esa brecha ahora se está cerrando rápidamente gracias a una mejor fidelidad de simulación y enfoques de entrenamiento híbridos. La mayoría de los últimos modelos fundamentales en robótica (como el Isaac GROOT de NVIDIA y el Helix VLA de Figure) utilizan una arquitectura de sistema dual que imita la cognición humana. Lo mismo se aplica a cómo están entrenando datos en simulaciones del mundo. Una parte del modelo se entrena con datos de demostración humana del mundo real, mientras que otra parte se entrena con una gran cantidad de datos sintéticos generados a través de simuladores de alta fidelidad. Al combinar el entrenamiento físico y simulado, el modelo aprende habilidades precisas que se generalizan mejor. Los datos reales proporcionan verdad en la IA, mientras que los datos simulados proporcionan la escala y variedad que es impráctico reunir en el mundo físico. Los desarrolladores incluso pueden ajustar o post-entrenar modelos con datos reales o sintéticos adicionales para tareas específicas, haciendo que el pipeline de entrenamiento sea extremadamente flexible. El Helix VLA de Figures, que utiliza el enfoque de Sistema 1/Sistema 2, se entrena solo con cientos de horas de teleoperación (aumentadas por simulación y etiquetado inteligente), Helix puede manejar nuevas tareas domésticas a través del lenguaje natural sin codificación personalizada. Demostrando cómo los modelos multimodales y el entrenamiento sintético reducen drásticamente las necesidades de datos. @codecopenflow está aplicando el mismo principio con Octo, un VLA abierto integrado en su SDK Optr, que permite la percepción de múltiples cámaras y control guiado por lenguaje con conjuntos de datos mucho más pequeños y menor computación. ...