Cómo funcionan realmente los chatbots y los modelos de lenguaje extenso, o LLM

Aprender cómo funciona un "modelo de lenguaje grande".
VideoCreditCredit...Ilustraciones de Mathieu Labrecque
< em class="css-2fg4z9 e1gzwzxm0">En la segunda de nuestra serie de cinco partes, Te explicaré cómo funciona realmente la tecnología.
Las inteligencias artificiales que impulsan ChatGPT, el chatbot Bing de Microsoft y Bard de Google pueden dirigir conversaciones humanas y escribir prosa natural y fluida sobre una variedad infinita de temas. Ils peuvent également effectuer des tâches complexes, de l'écriture de code à la planification de la fête d'anniversaire d'un enfant.
Mais comment tout cela fonctionne-t -Él ? Para responder eso, debemos echar un vistazo bajo el capó de lo que se llama un gran modelo de lenguaje: el tipo de I.A. quién impulsa estos sistemas.
Los Modelos de Lenguaje Grande, o L.L.M., son relativamente nuevos en A.I. escenario. Los primeros aparecieron hace unos cinco años y no eran muy buenos. Pero hoy pueden escribir correos electrónicos, presentaciones y memorandos y enseñarte un idioma extranjero. Seguro que aparecerán aún más funciones en los meses y años venideros a medida que la tecnología mejore y Silicon Valley se esfuerce por sacar provecho.
I Te guiaré para configurar un gran modelo de lenguaje desde cero, manteniendo las cosas simples y omitiendo muchas matemáticas complicadas. Imaginemos que estamos tratando de construir un L.L.M. para ayudarle a responder a sus correos electrónicos. Lo llamaremos MailBot.
Paso 1: establezca un objetivo
Todo sistema de IA necesita un objetivo. Los investigadores llaman a esto una función objetiva. Puede ser simple, por ejemplo, "ganar tantos juegos de ajedrez como sea posible", o complicado, como "predecir las formas tridimensionales de las proteínas, usando solo sus secuencias de aminoácidos".
La mayoría de los grandes modelos de lenguaje tienen la misma función objetivo básica: dada una secuencia de texto, adivina qué viene después. Le daremos a MailBot objetivos más específicos más adelante, pero sigamos con eso por ahora.
Paso 2: recopile una gran cantidad de datos
A continuación, debemos reunir los datos de capacitación que le enseñarán a MailBot a escribir. Idealmente, crearemos un depósito colosal de texto, lo que generalmente significa miles de millones de páginas extraídas de Internet, como publicaciones de blogs, tweets, artículos de Wikipedia y noticias.
Para comenzar, utilizaremos bibliotecas de datos gratuitas y disponibles públicamente, como el repositorio de datos web de Common Crawl. Pero también querremos agregar nuestra propia salsa secreta, en forma de datos patentados o especializados. Tal vez tengamos una licencia para texto en idiomas extranjeros, de modo que MailBot aprenda a redactar correos electrónicos en francés o español además de inglés. En general, cuantos más datos tengamos y más diversas las fuentes, mejor será nuestro modelo.
Antes de que podamos incluir los datos en nuestro modelo, debemos descomponerlo en unidades llamadas tokens, que pueden ser palabras, frases o incluso caracteres individuales. Convertir el texto en fragmentos más pequeños ayuda a un modelo a analizarlo más fácilmente.

Tecnología Mar 29, 2023 0 17 Add to Reading List

Cómo funcionan realmente los chatbots y los modelos de lenguaje extenso, o LLM

Aprender cómo funciona un "modelo de lenguaje grande".

< em class="css-2fg4z9 e1gzwzxm0">En la segunda de nuestra serie de cinco partes, Te explicaré cómo funciona realmente la tecnología.

Las inteligencias artificiales que impulsan ChatGPT, el chatbot Bing de Microsoft y Bard de Google pueden dirigir conversaciones humanas y escribir prosa natural y fluida sobre una variedad infinita de temas. Ils peuvent également effectuer des tâches complexes, de l'écriture de code à la planification de la fête d'anniversaire d'un enfant.

Mais comment tout cela fonctionne-t -Él ? Para responder eso, debemos echar un vistazo bajo el capó de lo que se llama un gran modelo de lenguaje: el tipo de I.A. quién impulsa estos sistemas.

Los Modelos de Lenguaje Grande, o L.L.M., son relativamente nuevos en A.I. escenario. Los primeros aparecieron hace unos cinco años y no eran muy buenos. Pero hoy pueden escribir correos electrónicos, presentaciones y memorandos y enseñarte un idioma extranjero. Seguro que aparecerán aún más funciones en los meses y años venideros a medida que la tecnología mejore y Silicon Valley se esfuerce por sacar provecho.

I Te guiaré para configurar un gran modelo de lenguaje desde cero, manteniendo las cosas simples y omitiendo muchas matemáticas complicadas. Imaginemos que estamos tratando de construir un L.L.M. para ayudarle a responder a sus correos electrónicos. Lo llamaremos MailBot.

Paso 1: establezca un objetivo

Todo sistema de IA necesita un objetivo. Los investigadores llaman a esto una función objetiva. Puede ser simple, por ejemplo, "ganar tantos juegos de ajedrez como sea posible", o complicado, como "predecir las formas tridimensionales de las proteínas, usando solo sus secuencias de aminoácidos".

La mayoría de los grandes modelos de lenguaje tienen la misma función objetivo básica: dada una secuencia de texto, adivina qué viene después. Le daremos a MailBot objetivos más específicos más adelante, pero sigamos con eso por ahora.

Paso 2: recopile una gran cantidad de datos

A continuación, debemos reunir los datos de capacitación que le enseñarán a MailBot a escribir. Idealmente, crearemos un depósito colosal de texto, lo que generalmente significa miles de millones de páginas extraídas de Internet, como publicaciones de blogs, tweets, artículos de Wikipedia y noticias.

Para comenzar, utilizaremos bibliotecas de datos gratuitas y disponibles públicamente, como el repositorio de datos web de Common Crawl. Pero también querremos agregar nuestra propia salsa secreta, en forma de datos patentados o especializados. Tal vez tengamos una licencia para texto en idiomas extranjeros, de modo que MailBot aprenda a redactar correos electrónicos en francés o español además de inglés. En general, cuantos más datos tengamos y más diversas las fuentes, mejor será nuestro modelo.

Antes de que podamos incluir los datos en nuestro modelo, debemos descomponerlo en unidades llamadas tokens, que pueden ser palabras, frases o incluso caracteres individuales. Convertir el texto en fragmentos más pequeños ayuda a un modelo a analizarlo más fácilmente.