Construyendo una PNL inclusiva

Consulte todas las sesiones bajo demanda de Smart Security Summit aquí.

Millones de hablantes de inglés estándar disfrutan de los beneficios que ofrecen los modelos de procesamiento de lenguaje natural (NLP) todos los días.

Pero para los hablantes de inglés vernáculo afroamericano (AAVE), la tecnología como los sistemas de GPS activados por voz, las PDA y el software de texto a voz suelen ser problemáticos, ya que los grandes modelos de PNL a menudo no pueden comprender o generar palabras en AAVE. . Peor aún, los modelos a menudo se entrenan con datos extraídos de la web y es probable que integren los sesgos raciales y las asociaciones estereotipadas que proliferan en línea.

Cuando las empresas utilizan estos modelos sesgados para ayudar a tomar decisiones de alto riesgo, los hablantes de AAVE pueden verse excluidos injustamente de las redes sociales, se les niega de manera inapropiada el acceso a la vivienda o a las oportunidades de préstamo, o son tratados injustamente por la policía o la justicia. sistemas

Durante los últimos 18 meses, la especialista en aprendizaje automático (ML) Jazmia Henry se ha centrado en encontrar una manera de integrar AAVE de manera responsable en los modelos de lenguaje. Como becaria del Instituto Stanford para la Inteligencia Artificial Centrada en el Ser Humano (HAI) y el Centro de Estudios Comparativos de Raza y Etnicidad (CCSRE), creó un corpus de código abierto de más de 141 000 palabras AAVE para ayudar a los investigadores y fabricantes a diseñar modelos. que son inclusivos y menos propensos a estar sesgados.

Evento

Cumbre de seguridad inteligente bajo demanda

Obtenga más información sobre el papel esencial de la IA y el ML en la ciberseguridad y los estudios de casos específicos de la industria. Mira las sesiones a pedido hoy.

mira aquí

"Mi esperanza con este proyecto es que los lingüistas sociales y computacionales, los antropólogos, los informáticos, los científicos sociales y otros investigadores empujen y empujen este corpus, investiguen con él, luchen con él y prueben sus límites para que podamos conviértalo en una verdadera representación de AAVE y proporcione comentarios e información algorítmicamente sobre nuestros próximos pasos potenciales”, dijo Henry.

En esta entrevista, describe los primeros obstáculos para el desarrollo de esta base de datos, su potencial para ayudar a la lingüística computacional a comprender los orígenes de AAVE y sus proyectos posteriores a Stanford.

¿Cómo describirías el inglés vernáculo afroamericano?

Para mí, AAVE es un lenguaje de perseverancia y elevación. Es el resultado de que las lenguas africanas que se pensaba que se habían perdido durante la migración del comercio de esclavos se incorporaron al inglés para crear un nuevo idioma utilizado por los descendientes de estos pueblos africanos.

¿Cómo te interesaste en incluir AAVE en los modelos de PNL?

Cuando era niño, mis padres a veces hablaban su lengua materna. Para mi padre de las Indias Occidentales, era patois jamaiquino, y para mi madre, Gullah Geechee, que se encuentra en las zonas costeras de las Carolinas y Georgia. Cada idioma era un criollo, que es un idioma nuevo creado al mezclar diferentes idiomas.

Todos parecían entender que mis padres hablaban un idioma diferente y nadie dudaba de su inteligencia. Pero cuando vi a personas en mi comunidad hablando AAVE, que creo que es otro idioma criollo, me di cuenta de que había una vergüenza y un estigma asociados con él: un sentimiento de que si usábamos ese idioma en el exterior, íbamos a ser juzgado como menos inteligente. Cuando comencé a trabajar en ciencia de datos, me preguntaba qué pasaría si intentara recopilar datos en AAVE e incorporarlos a

Construyendo una PNL inclusiva

Consulte todas las sesiones bajo demanda de Smart Security Summit aquí.

Millones de hablantes de inglés estándar disfrutan de los beneficios que ofrecen los modelos de procesamiento de lenguaje natural (NLP) todos los días.

Pero para los hablantes de inglés vernáculo afroamericano (AAVE), la tecnología como los sistemas de GPS activados por voz, las PDA y el software de texto a voz suelen ser problemáticos, ya que los grandes modelos de PNL a menudo no pueden comprender o generar palabras en AAVE. . Peor aún, los modelos a menudo se entrenan con datos extraídos de la web y es probable que integren los sesgos raciales y las asociaciones estereotipadas que proliferan en línea.

Cuando las empresas utilizan estos modelos sesgados para ayudar a tomar decisiones de alto riesgo, los hablantes de AAVE pueden verse excluidos injustamente de las redes sociales, se les niega de manera inapropiada el acceso a la vivienda o a las oportunidades de préstamo, o son tratados injustamente por la policía o la justicia. sistemas

Durante los últimos 18 meses, la especialista en aprendizaje automático (ML) Jazmia Henry se ha centrado en encontrar una manera de integrar AAVE de manera responsable en los modelos de lenguaje. Como becaria del Instituto Stanford para la Inteligencia Artificial Centrada en el Ser Humano (HAI) y el Centro de Estudios Comparativos de Raza y Etnicidad (CCSRE), creó un corpus de código abierto de más de 141 000 palabras AAVE para ayudar a los investigadores y fabricantes a diseñar modelos. que son inclusivos y menos propensos a estar sesgados.

Evento

Cumbre de seguridad inteligente bajo demanda

Obtenga más información sobre el papel esencial de la IA y el ML en la ciberseguridad y los estudios de casos específicos de la industria. Mira las sesiones a pedido hoy.

mira aquí

"Mi esperanza con este proyecto es que los lingüistas sociales y computacionales, los antropólogos, los informáticos, los científicos sociales y otros investigadores empujen y empujen este corpus, investiguen con él, luchen con él y prueben sus límites para que podamos conviértalo en una verdadera representación de AAVE y proporcione comentarios e información algorítmicamente sobre nuestros próximos pasos potenciales”, dijo Henry.

En esta entrevista, describe los primeros obstáculos para el desarrollo de esta base de datos, su potencial para ayudar a la lingüística computacional a comprender los orígenes de AAVE y sus proyectos posteriores a Stanford.

¿Cómo describirías el inglés vernáculo afroamericano?

Para mí, AAVE es un lenguaje de perseverancia y elevación. Es el resultado de que las lenguas africanas que se pensaba que se habían perdido durante la migración del comercio de esclavos se incorporaron al inglés para crear un nuevo idioma utilizado por los descendientes de estos pueblos africanos.

¿Cómo te interesaste en incluir AAVE en los modelos de PNL?

Cuando era niño, mis padres a veces hablaban su lengua materna. Para mi padre de las Indias Occidentales, era patois jamaiquino, y para mi madre, Gullah Geechee, que se encuentra en las zonas costeras de las Carolinas y Georgia. Cada idioma era un criollo, que es un idioma nuevo creado al mezclar diferentes idiomas.

Todos parecían entender que mis padres hablaban un idioma diferente y nadie dudaba de su inteligencia. Pero cuando vi a personas en mi comunidad hablando AAVE, que creo que es otro idioma criollo, me di cuenta de que había una vergüenza y un estigma asociados con él: un sentimiento de que si usábamos ese idioma en el exterior, íbamos a ser juzgado como menos inteligente. Cuando comencé a trabajar en ciencia de datos, me preguntaba qué pasaría si intentara recopilar datos en AAVE e incorporarlos a

What's Your Reaction?

like

dislike

love

funny

angry

sad

wow