Por qué la IA distribuida es clave para ampliar los límites de la innovación en IA

El futuro de la IA está distribuido, dijo Ion Stoica, cofundador, presidente ejecutivo y presidente de Anyscale el primer día de VB Transform. Y eso es porque la complejidad del modelo no muestra signos de desaceleración.

"Durante los últimos dos años, los requisitos computacionales para entrenar un modelo avanzado, según el conjunto de datos, han aumentado entre 10 y 35 veces cada 18 meses", dijo.

Hace apenas cinco años, los modelos más grandes se decidieron por una sola GPU; Un avance rápido hasta hoy y solo para ajustarse a los parámetros de los modelos más avanzados requiere cientos o incluso miles de GPU. PaLM, o Pathway Language Model de Google, tiene 530 mil millones de parámetros, y eso es solo alrededor de la mitad del más grande, con más de 1 billón de parámetros. La empresa utiliza más de 6000 GPU para entrenar lo último.

Incluso si estos modelos dejaran de crecer y las GPU siguieran avanzando al mismo ritmo rápido que en años anteriores, todavía pasarían unos 19 años antes de que fueran lo suficientemente sofisticados para ejecutar estos modelos de vanguardia en una sola GPU. , agregó Stoica.

“Básicamente, es una brecha enorme y creciente mes a mes entre las demandas de las aplicaciones de aprendizaje automático y las capacidades de un solo procesador o un solo servidor”, declaró. “No hay otra forma de soportar estas cargas de trabajo que distribuirlas. Es así de simple. Escribir estas aplicaciones distribuidas es difícil. De hecho, es aún más difícil que antes".
Los desafíos únicos de escalar aplicaciones y cargas de trabajo
La creación de una aplicación de aprendizaje automático implica varios pasos, desde el etiquetado y el preprocesamiento de datos hasta el entrenamiento, el ajuste de hiperparámetros, la transmisión, el aprendizaje por refuerzo, etc., y cada una de estas etapas debe evolucionar. Por lo general, cada paso requiere un sistema distribuido diferente. Para construir canalizaciones o aplicaciones de aprendizaje automático de extremo a extremo, ahora es necesario ensamblar estos sistemas, pero también administrar cada uno de ellos. Y también requiere desarrollo en una variedad de API. Todo esto agrega una enorme complejidad a un proyecto de IA/ML.

La misión del proyecto de código abierto Ray Distributed Computing y Anyscale es facilitar el escalado de estas cargas de trabajo informáticas distribuidas, dijo Stoica.

"Con Ray, tratamos de proporcionar un marco informático en el que se pueden crear estas aplicaciones de principio a fin", dijo. "W Anyscale proporciona esencialmente un Ray alojado y administrado y, por supuesto, funciones y herramientas de seguridad para facilitar el desarrollo, la implementación y la administración de estas aplicaciones".
Informática híbrida con estado y sin estado
La empresa lanzó recientemente un producto sin servidor, que elimina las funciones requeridas, eliminando la necesidad de preocuparse por dónde se ejecutarán esas funciones y aliviando la carga de los desarrolladores y programadores a medida que evolucionan. Pero con una infraestructura transparente, las funciones tienen una funcionalidad limitada (realizan cálculos, escriben datos en S3, por ejemplo, y luego desaparecen), pero muchas aplicaciones requieren operadores con estado.

Por ejemplo, el entrenamiento, que requiere una gran cantidad de datos, se volvería demasiado costoso si se volviera a escribir en S3 después de cada iteración, o si simplemente se moviera de la memoria de la GPU a la memoria de la máquina, debido a la sobrecarga de obtener el datos y luego, por lo general, serializar y deserializar esos datos.

"Ray, desde el primer día, también se creó en torno a este tipo de operadores que pueden persistir y actualizar el estado continuamente, lo que en la jerga de la ingeniería de software llamamos "actores"", dijo. "Ray siempre ha apoyado este modo dual de este tipo de computación sin estado y con estado".
¿En qué entradas está la implementación de la IA?
Es tentador decir que la implementación de la IA finalmente ha llegado a la etapa de caminar, impulsada en el viaje de transformación de la IA por la reciente aceleración del crecimiento digital, pero no es así. Solo hemos visto la punta del iceberg, dijo Estoica. Todavía existe una brecha entre el tamaño del mercado actual y la oportunidad, similar al estado de Big Data hace unos 10 años.

"Se necesita tiempo, porque el tiempo [requerido] no solo se dedica a desarrollar herramientas", dijo. “Es capacitar a la gente. Especialistas en formación. Se tarda aún más. Si observa los grandes datos y lo que sucedió, hace ocho años muchas universidades comenzaron a ofrecer títulos en ciencia de datos. Y, por supuesto, ahora hay muchos cursos, cursos de IA, pero creo que verá más y más cursos de IA y datos aplicados, desde...

Negocio Jul 22, 2022 0 48 Add to Reading List

Por qué la IA distribuida es clave para ampliar los límites de la innovación en IA

El futuro de la IA está distribuido, dijo Ion Stoica, cofundador, presidente ejecutivo y presidente de Anyscale el primer día de VB Transform. Y eso es porque la complejidad del modelo no muestra signos de desaceleración.

"Durante los últimos dos años, los requisitos computacionales para entrenar un modelo avanzado, según el conjunto de datos, han aumentado entre 10 y 35 veces cada 18 meses", dijo.

Hace apenas cinco años, los modelos más grandes se decidieron por una sola GPU; Un avance rápido hasta hoy y solo para ajustarse a los parámetros de los modelos más avanzados requiere cientos o incluso miles de GPU. PaLM, o Pathway Language Model de Google, tiene 530 mil millones de parámetros, y eso es solo alrededor de la mitad del más grande, con más de 1 billón de parámetros. La empresa utiliza más de 6000 GPU para entrenar lo último.

Incluso si estos modelos dejaran de crecer y las GPU siguieran avanzando al mismo ritmo rápido que en años anteriores, todavía pasarían unos 19 años antes de que fueran lo suficientemente sofisticados para ejecutar estos modelos de vanguardia en una sola GPU. , agregó Stoica.

“Básicamente, es una brecha enorme y creciente mes a mes entre las demandas de las aplicaciones de aprendizaje automático y las capacidades de un solo procesador o un solo servidor”, declaró. “No hay otra forma de soportar estas cargas de trabajo que distribuirlas. Es así de simple. Escribir estas aplicaciones distribuidas es difícil. De hecho, es aún más difícil que antes".

Los desafíos únicos de escalar aplicaciones y cargas de trabajo

La creación de una aplicación de aprendizaje automático implica varios pasos, desde el etiquetado y el preprocesamiento de datos hasta el entrenamiento, el ajuste de hiperparámetros, la transmisión, el aprendizaje por refuerzo, etc., y cada una de estas etapas debe evolucionar. Por lo general, cada paso requiere un sistema distribuido diferente. Para construir canalizaciones o aplicaciones de aprendizaje automático de extremo a extremo, ahora es necesario ensamblar estos sistemas, pero también administrar cada uno de ellos. Y también requiere desarrollo en una variedad de API. Todo esto agrega una enorme complejidad a un proyecto de IA/ML.

La misión del proyecto de código abierto Ray Distributed Computing y Anyscale es facilitar el escalado de estas cargas de trabajo informáticas distribuidas, dijo Stoica.

"Con Ray, tratamos de proporcionar un marco informático en el que se pueden crear estas aplicaciones de principio a fin", dijo. "W Anyscale proporciona esencialmente un Ray alojado y administrado y, por supuesto, funciones y herramientas de seguridad para facilitar el desarrollo, la implementación y la administración de estas aplicaciones".

Informática híbrida con estado y sin estado

La empresa lanzó recientemente un producto sin servidor, que elimina las funciones requeridas, eliminando la necesidad de preocuparse por dónde se ejecutarán esas funciones y aliviando la carga de los desarrolladores y programadores a medida que evolucionan. Pero con una infraestructura transparente, las funciones tienen una funcionalidad limitada (realizan cálculos, escriben datos en S3, por ejemplo, y luego desaparecen), pero muchas aplicaciones requieren operadores con estado.

Por ejemplo, el entrenamiento, que requiere una gran cantidad de datos, se volvería demasiado costoso si se volviera a escribir en S3 después de cada iteración, o si simplemente se moviera de la memoria de la GPU a la memoria de la máquina, debido a la sobrecarga de obtener el datos y luego, por lo general, serializar y deserializar esos datos.

"Ray, desde el primer día, también se creó en torno a este tipo de operadores que pueden persistir y actualizar el estado continuamente, lo que en la jerga de la ingeniería de software llamamos "actores"", dijo. "Ray siempre ha apoyado este modo dual de este tipo de computación sin estado y con estado".

¿En qué entradas está la implementación de la IA?

Es tentador decir que la implementación de la IA finalmente ha llegado a la etapa de caminar, impulsada en el viaje de transformación de la IA por la reciente aceleración del crecimiento digital, pero no es así. Solo hemos visto la punta del iceberg, dijo Estoica. Todavía existe una brecha entre el tamaño del mercado actual y la oportunidad, similar al estado de Big Data hace unos 10 años.

"Se necesita tiempo, porque el tiempo [requerido] no solo se dedica a desarrollar herramientas", dijo. “Es capacitar a la gente. Especialistas en formación. Se tarda aún más. Si observa los grandes datos y lo que sucedió, hace ocho años muchas universidades comenzaron a ofrecer títulos en ciencia de datos. Y, por supuesto, ahora hay muchos cursos, cursos de IA, pero creo que verá más y más cursos de IA y datos aplicados, desde...