Gobierno de datos efectivo con segmentación de IA

Eche un vistazo a las sesiones bajo demanda de Low-Code/No-Code Summit para aprender cómo innovar con éxito y obtener eficiencias al mejorar y escalar a los desarrolladores ciudadanos. Ver ahora.

La transformación digital ha cambiado fundamentalmente la forma en que las empresas interactúan con sus socios, cadenas de suministro y clientes. También ha aumentado exponencialmente la cantidad de datos generados y almacenados por las organizaciones.
Nuestro problema de datos
Las empresas modernas suelen tener cientos de terabytes o incluso petabytes de datos, la mayoría de los cuales no están estructurados. Este tipo de datos puede representar entre el 80 y el 90 % de la huella de datos total de una empresa y, debido a que no está estructurado, se ignora en gran medida. Sin embargo, algunos elementos de datos no estructurados contienen información confidencial que puede ser víctima de infracciones.

El enigma: no sabemos qué datos son confidenciales; es como tratar de encontrar una aguja en un pajar.
Las nuevas herramientas podrían reemplazar los engorrosos métodos de gobierno de datos
Con una gran cantidad de datos acumulados durante muchos años, las solicitudes de los reguladores y las órdenes de descubrimiento de las autoridades legales aumentan con frecuencia.

Una respuesta típica de los administradores de datos puede ser implementar un proceso de inmediato, como hacer que los empleados firmen una declaración en la que se comprometan a no almacenar datos confidenciales y luego organizar capacitación sobre información de identificación personal (PII). Pero esta es una simple solución de "curita" colocada en el proceso mientras esperan lo mejor.

Alternativamente, los administradores de datos pueden filtrar montañas de datos. Escanean cada documento, tratando de revelar datos confidenciales. Pero analizar petabytes de datos no estructurados llevaría años. Obtener los resultados deseados también es bastante costoso y requiere mucho tiempo, lo que hace que muchos administradores de datos eviten este enfoque.
Datos confidenciales y el auge de la segmentación de datos impulsada por IA
Hay disponible una tecnología eficaz y eficiente para reemplazar estos métodos arcaicos y reducir rápidamente el riesgo, a una fracción del costo: la segmentación de inteligencia artificial (IA).

Con la segmentación basada en IA, determinamos qué atributos de un archivo indican que es más probable que contenga datos confidenciales después de analizar una pequeña muestra estadística de archivos. Esto nos proporciona información importante para priorizar nuestra búsqueda de datos de alto riesgo. Por ejemplo, ¿los documentos de Word corren más riesgo que las presentaciones de PowerPoint? ¿Hay alguna carpeta en particular que pueda contener datos confidenciales?

Una vez que hemos resaltado nuestros datos más riesgosos, podemos iniciar de inmediato un proceso completo de análisis y corrección, eliminando el riesgo más alto lo antes posible en el proceso. Por ello, hemos priorizado el proceso de remediación para lograr la mayor reducción de riesgos en el menor tiempo.

Por ejemplo, supongamos que tenemos varios terabytes de datos divididos en fragmentos de 100 terabytes. Indexar o rastrear 100 terabytes a la vez puede llevar varios meses de trabajo, e incluso lleva más tiempo rastrearlo todo.

Sin embargo, si tomo una muestra estadística (es decir, miro alrededor de 9500 archivos de un total de 1 millón), puedo estar 95 % seguro de mis resultados.

Si en los primeros 100 terabytes mis resultados muestran que el 5 % de los datos contienen información personal, sabría que si ejecutara la misma prueba 100 veces más, 95 veces de 100, estaría dentro del 1 % de esto Nivel del 5% (es decir, 4-6% es PII o información o archivos que contienen PII). Puedo completar esta iteración en una fracción del tiempo (horas en lugar de meses) y tener una buena idea del alcance del problema.

Entonces, si observo un segundo bloque de 100 terabytes y el 20 % contiene información personal, ahora tengo prioridad. Sé que mi tiempo se aprovecha mejor mirando primero ese segundo bloque de datos.

Pero podemos hacerlo aún mejor. Para este segundo bloque de datos, podemos aplicar modelos de IA para segmentar aún más el bloque de 100 terabytes en depósitos en función de la probabilidad esperada de que un archivo contenga PII. Podemos ver que un solo terabyte del total de 100 terabytes tiene una probabilidad de más del 50 % de contener PII.

Luego escanearé todos los terabytes y solucionaré el problema. Luego puedo pasar a la siguiente área más riesgosa y luego a la siguiente área más riesgosa. El progreso ha mejorado a pasos agigantados en comparación con el cribado...

Inauguración Nov 11, 2022 0 17 Add to Reading List

Eche un vistazo a las sesiones bajo demanda de Low-Code/No-Code Summit para aprender cómo innovar con éxito y obtener eficiencias al mejorar y escalar a los desarrolladores ciudadanos. Ver ahora.

La transformación digital ha cambiado fundamentalmente la forma en que las empresas interactúan con sus socios, cadenas de suministro y clientes. También ha aumentado exponencialmente la cantidad de datos generados y almacenados por las organizaciones.
Nuestro problema de datos
Las empresas modernas suelen tener cientos de terabytes o incluso petabytes de datos, la mayoría de los cuales no están estructurados. Este tipo de datos puede representar entre el 80 y el 90 % de la huella de datos total de una empresa y, debido a que no está estructurado, se ignora en gran medida. Sin embargo, algunos elementos de datos no estructurados contienen información confidencial que puede ser víctima de infracciones.

El enigma: no sabemos qué datos son confidenciales; es como tratar de encontrar una aguja en un pajar.
Las nuevas herramientas podrían reemplazar los engorrosos métodos de gobierno de datos
Con una gran cantidad de datos acumulados durante muchos años, las solicitudes de los reguladores y las órdenes de descubrimiento de las autoridades legales aumentan con frecuencia.

Una respuesta típica de los administradores de datos puede ser implementar un proceso de inmediato, como hacer que los empleados firmen una declaración en la que se comprometan a no almacenar datos confidenciales y luego organizar capacitación sobre información de identificación personal (PII). Pero esta es una simple solución de "curita" colocada en el proceso mientras esperan lo mejor.

Alternativamente, los administradores de datos pueden filtrar montañas de datos. Escanean cada documento, tratando de revelar datos confidenciales. Pero analizar petabytes de datos no estructurados llevaría años. Obtener los resultados deseados también es bastante costoso y requiere mucho tiempo, lo que hace que muchos administradores de datos eviten este enfoque.
Datos confidenciales y el auge de la segmentación de datos impulsada por IA
Hay disponible una tecnología eficaz y eficiente para reemplazar estos métodos arcaicos y reducir rápidamente el riesgo, a una fracción del costo: la segmentación de inteligencia artificial (IA).

Con la segmentación basada en IA, determinamos qué atributos de un archivo indican que es más probable que contenga datos confidenciales después de analizar una pequeña muestra estadística de archivos. Esto nos proporciona información importante para priorizar nuestra búsqueda de datos de alto riesgo. Por ejemplo, ¿los documentos de Word corren más riesgo que las presentaciones de PowerPoint? ¿Hay alguna carpeta en particular que pueda contener datos confidenciales?

Una vez que hemos resaltado nuestros datos más riesgosos, podemos iniciar de inmediato un proceso completo de análisis y corrección, eliminando el riesgo más alto lo antes posible en el proceso. Por ello, hemos priorizado el proceso de remediación para lograr la mayor reducción de riesgos en el menor tiempo.

Por ejemplo, supongamos que tenemos varios terabytes de datos divididos en fragmentos de 100 terabytes. Indexar o rastrear 100 terabytes a la vez puede llevar varios meses de trabajo, e incluso lleva más tiempo rastrearlo todo.

Sin embargo, si tomo una muestra estadística (es decir, miro alrededor de 9500 archivos de un total de 1 millón), puedo estar 95 % seguro de mis resultados.

Si en los primeros 100 terabytes mis resultados muestran que el 5 % de los datos contienen información personal, sabría que si ejecutara la misma prueba 100 veces más, 95 veces de 100, estaría dentro del 1 % de esto Nivel del 5% (es decir, 4-6% es PII o información o archivos que contienen PII). Puedo completar esta iteración en una fracción del tiempo (horas en lugar de meses) y tener una buena idea del alcance del problema.

Entonces, si observo un segundo bloque de 100 terabytes y el 20 % contiene información personal, ahora tengo prioridad. Sé que mi tiempo se aprovecha mejor mirando primero ese segundo bloque de datos.

Pero podemos hacerlo aún mejor. Para este segundo bloque de datos, podemos aplicar modelos de IA para segmentar aún más el bloque de 100 terabytes en depósitos en función de la probabilidad esperada de que un archivo contenga PII. Podemos ver que un solo terabyte del total de 100 terabytes tiene una probabilidad de más del 50 % de contener PII.

Luego escanearé todos los terabytes y solucionaré el problema. Luego puedo pasar a la siguiente área más riesgosa y luego a la siguiente área más riesgosa. El progreso ha mejorado a pasos agigantados en comparación con el cribado...

Facebook Twitter Whatsapp Linkedin Pinterest

What's Your Reaction?

0

Like

0

Dislike

0

Love

0

Funny

0

Angry

0

Sad

0

Wow