OK-Robot de Meta realiza pick-and-drop sin disparar en entornos invisibles

Allá haber ha sido mucho avances dentro lenguaje-vision modelos (VLM) eso puede fósforo natural lengua consultas tiene objetos dentro A visual escena. Y investigadores están experimento con cómo estos modelos puede estar aplicado tiene robótica sistemas, cual están siempre con retraso dentro generalizar su habilidades.

A nuevo papel por investigadores tiene Meta AI Y Nuevo york Universidad presente A basado en el conocimiento abierto marco eso trajo pre-entrenado máquina aprendiendo (ML) modelos juntos tiene crear A robótica sistema eso puede llevar a cabo Tareas dentro invisible ambientes. Llamado OK-Robot, EL marco conjunto VLM con planificación del movimiento Y manipulación de objetos modelos tiene llevar a cabo elige y suelta operaciones sin entrenamiento.

Robótica sistemas están generalmente diseñado tiene estar desplegada dentro previamente visto entornos Y están pobre tiene generalizar su capacidades más allá de Ubicaciones O ellos haber ha sido cualificado. Este limitación Este en particular problemática dentro configuraciones O datos Este extraño, semejante como no estructurado casas.

Allá haber ha sido impresionante avances dentro individual Componentes necesario para robótica sistemas. VLM están bien tiene correspondiente a lengua instrucciones tiene visual objetos. TIENE EL incluso tiempo, robótica HABILIDADES para navegación Y para ingresar haber progresó importantemente. Sin embargo, robótica sistemas eso combinar moderno visión modelos con específico del robot primitivos siempre llevar a cabo mal.

"Fabricación progreso seguro Este problema necesita A cuidadoso Y sombra marco eso los dos integrado VLM Y robótica los primitivos, entonces que estar flexible suficiente tiene integrar más reciente modelos como ellos están desarrollado por EL VLM Y robótica comunidad," EL investigadores escribir dentro su papel.

OK-Robot módulos (fuente: arxiv)

OK-Robot conjunto estado del arte VLM con poderoso robótica primitivos tiene llevar a cabo elige y suelta Tareas dentro invisible ambientes. EL modelos usado dentro EL sistema están cualificado seguro grande, en público disponible conjuntos de datos.

OK-Robot conjunto tres primario subsistemas: A vocabulario abierto objeto navegación módulo, A RGB-D para ingresar módulo Y A gota heurístico sistema. Cuando poner dentro A nuevo Casa, OK-Robot necesita A manual análisis de EL interior, cual puede estar captura con A iPhone solicitud eso acepta A secuencia de RGB-D fotos como EL usuario se desplaza alrededor EL Edificio. EL sistema usos EL fotos Y EL cámara establecido Y posiciones tiene crear A 3D medio ambiente mapa.

EL sistema proceso cada imagen con A visión transformador (Vidas) modelo tiene extracto información a proposito objetos. EL objeto Y medio ambiente información están trajo juntos tiene crear A semántica objeto memoria módulo.

Dado A natural lengua pedido para cosecha A objeto, EL memoria módulo calculado EL integración de EL rápido Y partidos Él con EL objeto con EL más cercano semántica representación. OK-Robot entonces usos navegación algoritmos tiene encontrar EL mejor camino tiene EL ubicación de EL objeto dentro A camino eso proporciona EL robot con habitación tiene manipular EL objeto sin provocador colisiones.

Finalmente, EL robot usos A RGB-D cámara, A objeto segmentación modelo Y A pre-entrenado para ingresar modelo tiene llevar EL objeto...

OK-Robot de Meta realiza pick-and-drop sin disparar en entornos invisibles

Allá haber ha sido mucho avances dentro lenguaje-vision modelos (VLM) eso puede fósforo natural lengua consultas tiene objetos dentro A visual escena. Y investigadores están experimento con cómo estos modelos puede estar aplicado tiene robótica sistemas, cual están siempre con retraso dentro generalizar su habilidades.

A nuevo papel por investigadores tiene Meta AI Y Nuevo york Universidad presente A basado en el conocimiento abierto marco eso trajo pre-entrenado máquina aprendiendo (ML) modelos juntos tiene crear A robótica sistema eso puede llevar a cabo Tareas dentro invisible ambientes. Llamado OK-Robot, EL marco conjunto VLM con planificación del movimiento Y manipulación de objetos modelos tiene llevar a cabo elige y suelta operaciones sin entrenamiento.

Robótica sistemas están generalmente diseñado tiene estar desplegada dentro previamente visto entornos Y están pobre tiene generalizar su capacidades más allá de Ubicaciones O ellos haber ha sido cualificado. Este limitación Este en particular problemática dentro configuraciones O datos Este extraño, semejante como no estructurado casas.

Allá haber ha sido impresionante avances dentro individual Componentes necesario para robótica sistemas. VLM están bien tiene correspondiente a lengua instrucciones tiene visual objetos. TIENE EL incluso tiempo, robótica HABILIDADES para navegación Y para ingresar haber progresó importantemente. Sin embargo, robótica sistemas eso combinar moderno visión modelos con específico del robot primitivos siempre llevar a cabo mal.

"Fabricación progreso seguro Este problema necesita A cuidadoso Y sombra marco eso los dos integrado VLM Y robótica los primitivos, entonces que estar flexible suficiente tiene integrar más reciente modelos como ellos están desarrollado por EL VLM Y robótica comunidad," EL investigadores escribir dentro su papel.

OK-Robot módulos (fuente: arxiv)

OK-Robot conjunto estado del arte VLM con poderoso robótica primitivos tiene llevar a cabo elige y suelta Tareas dentro invisible ambientes. EL modelos usado dentro EL sistema están cualificado seguro grande, en público disponible conjuntos de datos.

OK-Robot conjunto tres primario subsistemas: A vocabulario abierto objeto navegación módulo, A RGB-D para ingresar módulo Y A gota heurístico sistema. Cuando poner dentro A nuevo Casa, OK-Robot necesita A manual análisis de EL interior, cual puede estar captura con A iPhone solicitud eso acepta A secuencia de RGB-D fotos como EL usuario se desplaza alrededor EL Edificio. EL sistema usos EL fotos Y EL cámara establecido Y posiciones tiene crear A 3D medio ambiente mapa.

EL sistema proceso cada imagen con A visión transformador (Vidas) modelo tiene extracto información a proposito objetos. EL objeto Y medio ambiente información están trajo juntos tiene crear A semántica objeto memoria módulo.

Dado A natural lengua pedido para cosecha A objeto, EL memoria módulo calculado EL integración de EL rápido Y partidos Él con EL objeto con EL más cercano semántica representación. OK-Robot entonces usos navegación algoritmos tiene encontrar EL mejor camino tiene EL ubicación de EL objeto dentro A camino eso proporciona EL robot con habitación tiene manipular EL objeto sin provocador colisiones.

Finalmente, EL robot usos A RGB-D cámara, A objeto segmentación modelo Y A pre-entrenado para ingresar modelo tiene llevar EL objeto...

What's Your Reaction?

like

dislike

love

funny

angry

sad

wow