Permítanos mostrarle cómo funciona GPT - Uso de Jane Austen

El corazón de un programa de IA como ChatGPT es algo llamado gran modelo de lenguaje: un algoritmo que imita la forma del lenguaje escrito.

Aunque el funcionamiento interno de estos algoritmos es notoriamente opaco, la idea básica detrás de ellos es sorprendentemente simple. Se entrenan desplazándose a través de montañas de texto de Internet, adivinando repetidamente las siguientes letras y luego comparándose con la realidad.

Para mostrarle cómo es este proceso, hemos entrenado seis pequeños modelos de lenguaje desde cero. Elegimos uno capacitado en las obras completas de Jane Austen, pero puede elegir un camino diferente seleccionando una opción a continuación. (Y puedes cambiar de opinión más tarde).

Antes de entrenar: galimatías

Inicialmente, BabyGPT produce un texto como este:

1/10

"Tienes que decidir por ti mismo", dijo Elizabeth.

Los modelos de lenguaje más grandes se entrenan en más de un terabyte de texto de Internet, que contiene cientos de miles de millones de palabras. Su entrenamiento cuesta millones de dólares e involucra cálculos que toman semanas o incluso meses en cientos de computadoras especializadas.

BabyGPT es del tamaño de una hormiga en comparación. Lo entrenamos durante aproximadamente una hora en una computadora portátil con solo unos pocos megabytes de texto, lo suficientemente pequeño como para adjuntarlo a un correo electrónico.

A diferencia de los modelos más grandes, que comienzan su entrenamiento con un amplio vocabulario, BabyGPT aún no conoce ninguna palabra. Hace sus conjeturas una letra a la vez, lo que hace que sea un poco más fácil para nosotros ver lo que está aprendiendo.

Inicialmente, sus conjeturas son completamente aleatorias e incluyen muchos caracteres especiales: '?kZhc,TK996') sería una gran contraseña, pero está lejos de ser algo parecido a Jane Austen o Shakespeare. BabyGPT aún tiene que aprender qué letras se usan comúnmente en inglés o qué palabras existen.

Así es como suelen comenzar los modelos de lenguaje: adivinan al azar y producen galimatías. Pero aprenden de sus errores y con el tiempo sus conjeturas mejoran. Durante muchos, muchos ciclos de entrenamiento, los modelos de lenguaje pueden aprender a escribir. Aprenden modelos estadísticos que juntan palabras en oraciones y párrafos.

Después de 250 turnos: letras en inglés

Después de 250 ciclos de entrenamiento, alrededor de 30 segundos de procesamiento en una computadora portátil moderna, BabyGPT ha aprendido su ABC y está comenzando a conversar:

1/10

"Tienes que decidir por ti mismo", dijo Elizabeth.

En particular, nuestro modelo aprendió qué letras se usan con más frecuencia en el texto. Verás mucho la letra "e" porque es la letra más común en inglés.

Si miras de cerca, encontrarás que él también ha aprendido algunas palabritas: yo, para, el, tú, etc.

Tiene poco vocabulario, pero eso no le impide inventar palabras como alingedimpe, ratlabus y mandiered.

Obviamente, estas suposiciones no son muy buenas. Pero, y esta es la clave de cómo aprende un modelo de lenguaje, BabyGPT mantiene una puntuación precisa sobre la gravedad de sus conjeturas.

Con cada ronda de formación, revisa el texto original, unas pocas palabras a la vez, y compara sus conjeturas para la siguiente letra con lo que realmente sigue. Luego calcula una puntuación, llamada "pérdida", que mide la diferencia entre sus predicciones y el texto real. Una pérdida de cero significaría que sus conjeturas todavía coincidían correctamente con la siguiente letra. Cuanto menor sea la pérdida, más cerca estarán sus conjeturas del texto.

Permítanos mostrarle cómo funciona GPT - Uso de Jane Austen

El corazón de un programa de IA como ChatGPT es algo llamado gran modelo de lenguaje: un algoritmo que imita la forma del lenguaje escrito.

Aunque el funcionamiento interno de estos algoritmos es notoriamente opaco, la idea básica detrás de ellos es sorprendentemente simple. Se entrenan desplazándose a través de montañas de texto de Internet, adivinando repetidamente las siguientes letras y luego comparándose con la realidad.

Para mostrarle cómo es este proceso, hemos entrenado seis pequeños modelos de lenguaje desde cero. Elegimos uno capacitado en las obras completas de Jane Austen, pero puede elegir un camino diferente seleccionando una opción a continuación. (Y puedes cambiar de opinión más tarde).

Antes de entrenar: galimatías

Inicialmente, BabyGPT produce un texto como este:

1/10

"Tienes que decidir por ti mismo", dijo Elizabeth.

Los modelos de lenguaje más grandes se entrenan en más de un terabyte de texto de Internet, que contiene cientos de miles de millones de palabras. Su entrenamiento cuesta millones de dólares e involucra cálculos que toman semanas o incluso meses en cientos de computadoras especializadas.

BabyGPT es del tamaño de una hormiga en comparación. Lo entrenamos durante aproximadamente una hora en una computadora portátil con solo unos pocos megabytes de texto, lo suficientemente pequeño como para adjuntarlo a un correo electrónico.

A diferencia de los modelos más grandes, que comienzan su entrenamiento con un amplio vocabulario, BabyGPT aún no conoce ninguna palabra. Hace sus conjeturas una letra a la vez, lo que hace que sea un poco más fácil para nosotros ver lo que está aprendiendo.

Inicialmente, sus conjeturas son completamente aleatorias e incluyen muchos caracteres especiales: '?kZhc,TK996') sería una gran contraseña, pero está lejos de ser algo parecido a Jane Austen o Shakespeare. BabyGPT aún tiene que aprender qué letras se usan comúnmente en inglés o qué palabras existen.

Así es como suelen comenzar los modelos de lenguaje: adivinan al azar y producen galimatías. Pero aprenden de sus errores y con el tiempo sus conjeturas mejoran. Durante muchos, muchos ciclos de entrenamiento, los modelos de lenguaje pueden aprender a escribir. Aprenden modelos estadísticos que juntan palabras en oraciones y párrafos.

Después de 250 turnos: letras en inglés

Después de 250 ciclos de entrenamiento, alrededor de 30 segundos de procesamiento en una computadora portátil moderna, BabyGPT ha aprendido su ABC y está comenzando a conversar:

1/10

"Tienes que decidir por ti mismo", dijo Elizabeth.

En particular, nuestro modelo aprendió qué letras se usan con más frecuencia en el texto. Verás mucho la letra "e" porque es la letra más común en inglés.

Si miras de cerca, encontrarás que él también ha aprendido algunas palabritas: yo, para, el, tú, etc.

Tiene poco vocabulario, pero eso no le impide inventar palabras como alingedimpe, ratlabus y mandiered.

Obviamente, estas suposiciones no son muy buenas. Pero, y esta es la clave de cómo aprende un modelo de lenguaje, BabyGPT mantiene una puntuación precisa sobre la gravedad de sus conjeturas.

Con cada ronda de formación, revisa el texto original, unas pocas palabras a la vez, y compara sus conjeturas para la siguiente letra con lo que realmente sigue. Luego calcula una puntuación, llamada "pérdida", que mide la diferencia entre sus predicciones y el texto real. Una pérdida de cero significaría que sus conjeturas todavía coincidían correctamente con la siguiente letra. Cuanto menor sea la pérdida, más cerca estarán sus conjeturas del texto.

What's Your Reaction?

like

dislike

love

funny

angry

sad

wow