¿Sus datos son lo suficientemente buenos para sus planes de aprendizaje automático/IA?

Los desarrollos de IA son una prioridad para las empresas y los gobiernos de todo el mundo. Sin embargo, se pasa por alto un aspecto fundamental de la IA: la mala calidad de los datos.

Los algoritmos de IA se basan en datos confiables para generar resultados óptimos. Si los datos son sesgados, incompletos, insuficientes e inexactos, tiene consecuencias devastadoras.

Los sistemas de inteligencia artificial que identifican las enfermedades de los pacientes son un excelente ejemplo de cómo la mala calidad de los datos puede generar resultados no deseados. Cuando se ingiere con datos insuficientes, estos sistemas producen diagnósticos falsos y predicciones inexactas que dan como resultado diagnósticos erróneos y tratamientos retrasados. Por ejemplo, un estudio realizado en la Universidad de Cambridge de más de 400 herramientas utilizadas para diagnosticar el Covid-19 descubrió que los informes generados por IA eran completamente inutilizables debido a conjuntos de datos defectuosos.
>
En otras palabras, sus iniciativas de IA tendrán consecuencias devastadoras en el mundo real si sus datos no son lo suficientemente buenos.
¿Qué significan datos "suficientemente buenos"?
Existe un gran debate sobre qué significan los datos "suficientemente buenos". Algunos dicen que no hay datos suficientemente buenos. Otros dicen que la necesidad de buenos datos conduce a la parálisis del análisis, mientras que HBR insiste en que sus herramientas de aprendizaje automático son inútiles si su información es mala.

En WinPure, definimos datos suficientemente buenos como “datos completos, precisos y válidos que se pueden usar con confianza para procesos comerciales con riesgos aceptables, incluido el nivel sujeto a objetivos y las circunstancias de un negocio.'

La mayoría de las organizaciones luchan más de lo que admiten con la calidad y el gobierno de los datos. Añadir a la tensión; están abrumados y bajo una inmensa presión para implementar iniciativas de IA para seguir siendo competitivos. Desafortunadamente, esto significa que problemas como los datos sucios ni siquiera son parte de las discusiones de la junta directiva hasta que provocan el fracaso de un proyecto.
¿Cómo afecta la mala calidad de los datos a los sistemas de IA?
Los problemas de calidad de los datos surgen al principio del proceso cuando el algoritmo se alimenta de los datos de entrenamiento para aprender patrones. Por ejemplo, si un algoritmo de IA viene con datos de redes sociales sin filtrar, detecta abusos, comentarios racistas y comentarios misóginos, como se ve con el bot de IA de Microsoft. Recientemente, la incapacidad de la IA para detectar personas de piel oscura también se ha atribuido a datos parciales.

¿Cómo se relaciona esto con la calidad de los datos?

La falta de gobernanza de datos, la falta de conocimiento de la calidad de los datos y las vistas aisladas de los datos (donde tal disparidad de género puede haberse notado) conducen a resultados deficientes.
¿Que hacer?
Cuando las empresas se dan cuenta de que tienen un problema con la calidad de los datos, entran en pánico para contratar. Se contratan consultores, ingenieros y analistas a ciegas para diagnosticar, limpiar datos y resolver problemas lo antes posible. Desafortunadamente, pasan meses antes de que se logre algún progreso y, a pesar de los millones gastados en mano de obra, los problemas no parecen desaparecer. Un enfoque instintivo para un problema de calidad de datos es de poca utilidad.

El verdadero cambio comienza a nivel de base.

Aquí hay tres pasos cruciales que debe seguir si desea que su proyecto de IA/ML avance en la dirección correcta.
Sensibilizar y reconocer los problemas de calidad de los datos
Para comenzar, evalúe la calidad de sus datos creando una cultura de alfabetización de datos. Bill Schmarzo, una voz poderosa en la industria, recomienda usar el pensamiento de diseño para crear una cultura en la que todos entiendan y puedan contribuir a los objetivos y desafíos de datos de una organización.

En el panorama empresarial actual, los datos y la calidad de los datos ya no son responsabilidad exclusiva de los equipos de TI o de datos. Los usuarios comerciales deben ser conscientes de los problemas de datos sucios y de datos incoherentes y duplicados, entre otros problemas.

Entonces, lo primero que debe hacer es hacer que la capacitación en calidad de datos sea un esfuerzo organizacional y faculte a los equipos para que reconozcan los atributos deficientes de los datos.

Esta es una lista de verificación que puede usar para iniciar una conversación sobre la calidad de sus datos.

Tecnología Aug 27, 2022 0 37 Add to Reading List

¿Sus datos son lo suficientemente buenos para sus planes de aprendizaje automático/IA?

Los desarrollos de IA son una prioridad para las empresas y los gobiernos de todo el mundo. Sin embargo, se pasa por alto un aspecto fundamental de la IA: la mala calidad de los datos.

Los algoritmos de IA se basan en datos confiables para generar resultados óptimos. Si los datos son sesgados, incompletos, insuficientes e inexactos, tiene consecuencias devastadoras.

Los sistemas de inteligencia artificial que identifican las enfermedades de los pacientes son un excelente ejemplo de cómo la mala calidad de los datos puede generar resultados no deseados. Cuando se ingiere con datos insuficientes, estos sistemas producen diagnósticos falsos y predicciones inexactas que dan como resultado diagnósticos erróneos y tratamientos retrasados. Por ejemplo, un estudio realizado en la Universidad de Cambridge de más de 400 herramientas utilizadas para diagnosticar el Covid-19 descubrió que los informes generados por IA eran completamente inutilizables debido a conjuntos de datos defectuosos.

En otras palabras, sus iniciativas de IA tendrán consecuencias devastadoras en el mundo real si sus datos no son lo suficientemente buenos.

¿Qué significan datos "suficientemente buenos"?

Existe un gran debate sobre qué significan los datos "suficientemente buenos". Algunos dicen que no hay datos suficientemente buenos. Otros dicen que la necesidad de buenos datos conduce a la parálisis del análisis, mientras que HBR insiste en que sus herramientas de aprendizaje automático son inútiles si su información es mala.

En WinPure, definimos datos suficientemente buenos como “datos completos, precisos y válidos que se pueden usar con confianza para procesos comerciales con riesgos aceptables, incluido el nivel sujeto a objetivos y las circunstancias de un negocio.'

La mayoría de las organizaciones luchan más de lo que admiten con la calidad y el gobierno de los datos. Añadir a la tensión; están abrumados y bajo una inmensa presión para implementar iniciativas de IA para seguir siendo competitivos. Desafortunadamente, esto significa que problemas como los datos sucios ni siquiera son parte de las discusiones de la junta directiva hasta que provocan el fracaso de un proyecto.

¿Cómo afecta la mala calidad de los datos a los sistemas de IA?

Los problemas de calidad de los datos surgen al principio del proceso cuando el algoritmo se alimenta de los datos de entrenamiento para aprender patrones. Por ejemplo, si un algoritmo de IA viene con datos de redes sociales sin filtrar, detecta abusos, comentarios racistas y comentarios misóginos, como se ve con el bot de IA de Microsoft. Recientemente, la incapacidad de la IA para detectar personas de piel oscura también se ha atribuido a datos parciales.

¿Cómo se relaciona esto con la calidad de los datos?

La falta de gobernanza de datos, la falta de conocimiento de la calidad de los datos y las vistas aisladas de los datos (donde tal disparidad de género puede haberse notado) conducen a resultados deficientes.

¿Que hacer?

Cuando las empresas se dan cuenta de que tienen un problema con la calidad de los datos, entran en pánico para contratar. Se contratan consultores, ingenieros y analistas a ciegas para diagnosticar, limpiar datos y resolver problemas lo antes posible. Desafortunadamente, pasan meses antes de que se logre algún progreso y, a pesar de los millones gastados en mano de obra, los problemas no parecen desaparecer. Un enfoque instintivo para un problema de calidad de datos es de poca utilidad.

El verdadero cambio comienza a nivel de base.

Aquí hay tres pasos cruciales que debe seguir si desea que su proyecto de IA/ML avance en la dirección correcta.

Sensibilizar y reconocer los problemas de calidad de los datos

Para comenzar, evalúe la calidad de sus datos creando una cultura de alfabetización de datos. Bill Schmarzo, una voz poderosa en la industria, recomienda usar el pensamiento de diseño para crear una cultura en la que todos entiendan y puedan contribuir a los objetivos y desafíos de datos de una organización.

En el panorama empresarial actual, los datos y la calidad de los datos ya no son responsabilidad exclusiva de los equipos de TI o de datos. Los usuarios comerciales deben ser conscientes de los problemas de datos sucios y de datos incoherentes y duplicados, entre otros problemas.

Entonces, lo primero que debe hacer es hacer que la capacitación en calidad de datos sea un esfuerzo organizacional y faculte a los equipos para que reconozcan los atributos deficientes de los datos.

Esta es una lista de verificación que puede usar para iniciar una conversación sobre la calidad de sus datos.