Por qué los exámenes destinados a humanos pueden no ser buenos puntos de referencia para LLM como GPT-4

Únase a altos ejecutivos en San Francisco los días 11 y 12 de julio para conocer cómo los líderes están integrando y optimizando las inversiones en IA para lograr el éxito. Más información

A medida que las empresas de tecnología continúan implementando modelos de lenguaje extenso (LLM) con resultados impresionantes, se vuelve cada vez más difícil medir sus verdaderas capacidades. Según un informe técnico publicado por OpenAI, GPT-4 obtiene una puntuación impresionante en los exámenes de barra, las pruebas de matemáticas SAT y los exámenes de lectura y escritura.

Sin embargo, las pruebas diseñadas para humanos pueden no ser buenos puntos de referencia para medir las habilidades de LLM. Los modelos lingüísticos abarcan el conocimiento de formas complejas, a veces produciendo resultados que igualan o superan el desempeño humano promedio. Sin embargo, la forma en que obtienen el conocimiento y lo utilizan a menudo es incompatible con la de los humanos. Esto puede hacer que saquemos conclusiones equivocadas de los resultados de las pruebas.

Para LLM como GPT-4, el éxito del examen radica en los datos de entrenamiento

Arvind Narayanan, profesor de informática en la Universidad de Princeton, y Saash Kapoor, Ph.D. exámenes de licencia profesional.

Uno de esos problemas es la "contaminación de datos de entrenamiento". Esto ocurre cuando un modelo entrenado se prueba con los datos con los que fue entrenado. Con demasiado entrenamiento, un modelo puede memorizar sus ejemplos de entrenamiento y hacerlo bien, dando la impresión de que ha aprendido la tarea. Pero fallará en nuevos ejemplos.

Evento

Transformar 2023

Únase a nosotros en San Francisco los días 11 y 12 de julio, donde los altos ejecutivos hablarán sobre cómo han integrado y optimizado las inversiones en IA para lograr el éxito y cómo evitar errores comunes.

Regístrate ahora

Los ingenieros de aprendizaje automático se esfuerzan por separar sus datos de entrenamiento y prueba. Pero con los LLM, las cosas se complican porque el corpus de capacitación es tan grande que es difícil garantizar que sus pruebas de muestra no se incluyan de alguna manera en los datos de capacitación.

"Los modelos de lenguaje se entrenan en prácticamente todo el texto en Internet, por lo que incluso si los datos de prueba exactos no están en el corpus de entrenamiento, habrá algo muy parecido", dijo Narayanan a VentureBeat. "Entonces, cuando vemos que un LLM se está desempeñando bien en un examen o en un desafío de programación, no está claro cuánto de ese desempeño se debe a la memorización versus al razonamiento".

Por ejemplo, un experimento mostró que GPT-4 funcionó muy bien en los desafíos de programación de Codeforces creados antes de 2021, cuando se recopilaron sus datos de entrenamiento. Su rendimiento se redujo drásticamente en ediciones más recientes. Narayanan descubrió que, en algunos casos, cuando GPT-4 recibía el título de una edición de Codeforces, podía producir el enlace al concurso donde aparecía.

En otro

Por qué los exámenes destinados a humanos pueden no ser buenos puntos de referencia para LLM como GPT-4

Únase a altos ejecutivos en San Francisco los días 11 y 12 de julio para conocer cómo los líderes están integrando y optimizando las inversiones en IA para lograr el éxito. Más información

A medida que las empresas de tecnología continúan implementando modelos de lenguaje extenso (LLM) con resultados impresionantes, se vuelve cada vez más difícil medir sus verdaderas capacidades. Según un informe técnico publicado por OpenAI, GPT-4 obtiene una puntuación impresionante en los exámenes de barra, las pruebas de matemáticas SAT y los exámenes de lectura y escritura.

Sin embargo, las pruebas diseñadas para humanos pueden no ser buenos puntos de referencia para medir las habilidades de LLM. Los modelos lingüísticos abarcan el conocimiento de formas complejas, a veces produciendo resultados que igualan o superan el desempeño humano promedio. Sin embargo, la forma en que obtienen el conocimiento y lo utilizan a menudo es incompatible con la de los humanos. Esto puede hacer que saquemos conclusiones equivocadas de los resultados de las pruebas.

Para LLM como GPT-4, el éxito del examen radica en los datos de entrenamiento

Arvind Narayanan, profesor de informática en la Universidad de Princeton, y Saash Kapoor, Ph.D. exámenes de licencia profesional.

Uno de esos problemas es la "contaminación de datos de entrenamiento". Esto ocurre cuando un modelo entrenado se prueba con los datos con los que fue entrenado. Con demasiado entrenamiento, un modelo puede memorizar sus ejemplos de entrenamiento y hacerlo bien, dando la impresión de que ha aprendido la tarea. Pero fallará en nuevos ejemplos.

Evento

Transformar 2023

Únase a nosotros en San Francisco los días 11 y 12 de julio, donde los altos ejecutivos hablarán sobre cómo han integrado y optimizado las inversiones en IA para lograr el éxito y cómo evitar errores comunes.

Regístrate ahora

Los ingenieros de aprendizaje automático se esfuerzan por separar sus datos de entrenamiento y prueba. Pero con los LLM, las cosas se complican porque el corpus de capacitación es tan grande que es difícil garantizar que sus pruebas de muestra no se incluyan de alguna manera en los datos de capacitación.

"Los modelos de lenguaje se entrenan en prácticamente todo el texto en Internet, por lo que incluso si los datos de prueba exactos no están en el corpus de entrenamiento, habrá algo muy parecido", dijo Narayanan a VentureBeat. "Entonces, cuando vemos que un LLM se está desempeñando bien en un examen o en un desafío de programación, no está claro cuánto de ese desempeño se debe a la memorización versus al razonamiento".

Por ejemplo, un experimento mostró que GPT-4 funcionó muy bien en los desafíos de programación de Codeforces creados antes de 2021, cuando se recopilaron sus datos de entrenamiento. Su rendimiento se redujo drásticamente en ediciones más recientes. Narayanan descubrió que, en algunos casos, cuando GPT-4 recibía el título de una edición de Codeforces, podía producir el enlace al concurso donde aparecía.

En otro

What's Your Reaction?

like

dislike

love

funny

angry

sad

wow