OK-Robot de Meta realiza pick-and-drop sin disparar en entornos invisibles
Allá haber ha sido mucho avances dentro lenguaje-vision modelos (VLM) eso puede fósforo natural lengua consultas tiene objetos dentro A visual escena. Y investigadores están experimento con cómo estos modelos puede estar aplicado tiene robótica sistemas, cual están siempre con retraso dentro generalizar su habilidades.
A nuevo papel por investigadores tiene Meta AI Y Nuevo york Universidad presente A basado en el conocimiento abierto marco eso trajo pre-entrenado máquina aprendiendo (ML) modelos juntos tiene crear A robótica sistema eso puede llevar a cabo Tareas dentro invisible ambientes. Llamado OK-Robot, EL marco conjunto VLM con planificación del movimiento Y manipulación de objetos modelos tiene llevar a cabo elige y suelta operaciones sin entrenamiento.
Robótica sistemas están generalmente diseñado tiene estar desplegada dentro previamente visto entornos Y están pobre tiene generalizar su capacidades más allá de Ubicaciones O ellos haber ha sido cualificado. Este limitación Este en particular problemática dentro configuraciones O datos Este extraño, semejante como no estructurado casas.
Allá haber ha sido impresionante avances dentro individual Componentes necesario para robótica sistemas. VLM están bien tiene correspondiente a lengua instrucciones tiene visual objetos. TIENE EL incluso tiempo, robótica HABILIDADES para navegación Y para ingresar haber progresó importantemente. Sin embargo, robótica sistemas eso combinar moderno visión modelos con específico del robot primitivos siempre llevar a cabo mal.
"Fabricación progreso seguro Este problema necesita A cuidadoso Y sombra marco eso los dos integrado VLM Y robótica los primitivos, entonces que estar flexible suficiente tiene integrar más reciente modelos como ellos están desarrollado por EL VLM Y robótica comunidad," EL investigadores escribir dentro su papel.
![](https://venturebeat.com/wp-content/uploads /2024/01/image.jpeg?resize=1600%2C1089&strip=all)
OK-Robot módulos (fuente: arxiv)
OK-Robot conjunto estado del arte VLM con poderoso robótica primitivos tiene llevar a cabo elige y suelta Tareas dentro invisible ambientes. EL modelos usado dentro EL sistema están cualificado seguro grande, en público disponible conjuntos de datos.
OK-Robot conjunto tres primario subsistemas: A vocabulario abierto objeto navegación módulo, A RGB-D para ingresar módulo Y A gota heurístico sistema. Cuando poner dentro A nuevo Casa, OK-Robot necesita A manual análisis de EL interior, cual puede estar captura con A iPhone solicitud eso acepta A secuencia de RGB-D fotos como EL usuario se desplaza alrededor EL Edificio. EL sistema usos EL fotos Y EL cámara establecido Y posiciones tiene crear A 3D medio ambiente mapa.
EL sistema proceso cada imagen con A visión transformador (Vidas) modelo tiene extracto información a proposito objetos. EL objeto Y medio ambiente información están trajo juntos tiene crear A semántica objeto memoria módulo.
Dado A natural lengua pedido para cosecha A objeto, EL memoria módulo calculado EL integración de EL rápido Y partidos Él con EL objeto con EL más cercano semántica representación. OK-Robot entonces usos navegación algoritmos tiene encontrar EL mejor camino tiene EL ubicación de EL objeto dentro A camino eso proporciona EL robot con habitación tiene manipular EL objeto sin provocador colisiones.
Finalmente, EL robot usos A RGB-D cámara, A objeto segmentación modelo Y A pre-entrenado para ingresar modelo tiene llevar EL objeto...
![OK-Robot de Meta realiza pick-and-drop sin disparar en entornos invisibles](https://venturebeat.com/wp-content/uploads/2024/01/Screenshot-2024-01-29-at-2.31.38 PM.png?w=1200&strip=all)
Allá haber ha sido mucho avances dentro lenguaje-vision modelos (VLM) eso puede fósforo natural lengua consultas tiene objetos dentro A visual escena. Y investigadores están experimento con cómo estos modelos puede estar aplicado tiene robótica sistemas, cual están siempre con retraso dentro generalizar su habilidades.
A nuevo papel por investigadores tiene Meta AI Y Nuevo york Universidad presente A basado en el conocimiento abierto marco eso trajo pre-entrenado máquina aprendiendo (ML) modelos juntos tiene crear A robótica sistema eso puede llevar a cabo Tareas dentro invisible ambientes. Llamado OK-Robot, EL marco conjunto VLM con planificación del movimiento Y manipulación de objetos modelos tiene llevar a cabo elige y suelta operaciones sin entrenamiento.
Robótica sistemas están generalmente diseñado tiene estar desplegada dentro previamente visto entornos Y están pobre tiene generalizar su capacidades más allá de Ubicaciones O ellos haber ha sido cualificado. Este limitación Este en particular problemática dentro configuraciones O datos Este extraño, semejante como no estructurado casas.
Allá haber ha sido impresionante avances dentro individual Componentes necesario para robótica sistemas. VLM están bien tiene correspondiente a lengua instrucciones tiene visual objetos. TIENE EL incluso tiempo, robótica HABILIDADES para navegación Y para ingresar haber progresó importantemente. Sin embargo, robótica sistemas eso combinar moderno visión modelos con específico del robot primitivos siempre llevar a cabo mal.
"Fabricación progreso seguro Este problema necesita A cuidadoso Y sombra marco eso los dos integrado VLM Y robótica los primitivos, entonces que estar flexible suficiente tiene integrar más reciente modelos como ellos están desarrollado por EL VLM Y robótica comunidad," EL investigadores escribir dentro su papel.
![](https://venturebeat.com/wp-content/uploads /2024/01/image.jpeg?resize=1600%2C1089&strip=all)
OK-Robot módulos (fuente: arxiv)
OK-Robot conjunto estado del arte VLM con poderoso robótica primitivos tiene llevar a cabo elige y suelta Tareas dentro invisible ambientes. EL modelos usado dentro EL sistema están cualificado seguro grande, en público disponible conjuntos de datos.
OK-Robot conjunto tres primario subsistemas: A vocabulario abierto objeto navegación módulo, A RGB-D para ingresar módulo Y A gota heurístico sistema. Cuando poner dentro A nuevo Casa, OK-Robot necesita A manual análisis de EL interior, cual puede estar captura con A iPhone solicitud eso acepta A secuencia de RGB-D fotos como EL usuario se desplaza alrededor EL Edificio. EL sistema usos EL fotos Y EL cámara establecido Y posiciones tiene crear A 3D medio ambiente mapa.
EL sistema proceso cada imagen con A visión transformador (Vidas) modelo tiene extracto información a proposito objetos. EL objeto Y medio ambiente información están trajo juntos tiene crear A semántica objeto memoria módulo.
Dado A natural lengua pedido para cosecha A objeto, EL memoria módulo calculado EL integración de EL rápido Y partidos Él con EL objeto con EL más cercano semántica representación. OK-Robot entonces usos navegación algoritmos tiene encontrar EL mejor camino tiene EL ubicación de EL objeto dentro A camino eso proporciona EL robot con habitación tiene manipular EL objeto sin provocador colisiones.
Finalmente, EL robot usos A RGB-D cámara, A objeto segmentación modelo Y A pre-entrenado para ingresar modelo tiene llevar EL objeto...
What's Your Reaction?
![like](https://vidianews.com/assets/img/reactions/like.png)
![dislike](https://vidianews.com/assets/img/reactions/dislike.png)
![love](https://vidianews.com/assets/img/reactions/love.png)
![funny](https://vidianews.com/assets/img/reactions/funny.png)
![angry](https://vidianews.com/assets/img/reactions/angry.png)
![sad](https://vidianews.com/assets/img/reactions/sad.png)
![wow](https://vidianews.com/assets/img/reactions/wow.png)