Ефективне управління даними за допомогою сегментації AI

Перегляньте сесії за запитом від саміту Low-Code/No-Code Summit, щоб дізнатися, як успішно впроваджувати інновації та підвищувати ефективність шляхом вдосконалення та масштабування громадянських розробників. Переглянути зараз.

Цифрова трансформація докорінно змінила спосіб взаємодії компаній зі своїми партнерами, мережами поставок і клієнтами. Це також експоненціально збільшило обсяг даних, які генерують і зберігають організації.

Наша проблема з даними

Сучасні підприємства зазвичай мають сотні терабайтів або навіть петабайтів даних, більшість із яких є неструктурованими. Цей тип даних може становити 80-90% від загального обсягу даних компанії, і оскільки вони неструктуровані, їх здебільшого ігнорують. Однак деякі неструктуровані елементи даних містять конфіденційну інформацію, яка може стати жертвою зламу.

Загадка: ми не знаємо, які дані є конфіденційними; це як спроба знайти голку в стозі сіна.

Нові інструменти можуть замінити громіздкі методи управління даними

З великою кількістю даних, накопичених протягом багатьох років, запити від регуляторів і розпорядження про виявлення від судових органів часто зростають.

Типовою відповіддю розпорядників даних може бути негайне запровадження процесу, як-от підписання працівниками заяви про те, що вони зобов’яжуться не зберігати конфіденційні дані, а потім організація навчання щодо ідентифікаційної інформації (PII). Але це простий «пластир», накладений на процес, оскільки вони сподіваються на краще.

Крім того, розпорядники даних можуть просіяти гори даних. Вони сканують кожен документ, намагаючись розкрити конфіденційні дані. Але аналіз петабайтів неструктурованих даних зайняв би роки. Отримання бажаних результатів також є досить дорогим і трудомістким, через що багато менеджерів даних уникають цього підходу.

Конфіденційні дані та зростання сегментації даних за допомогою ШІ

Для заміни цим архаїчним методам і швидкого зниження ризику доступна ефективна та дієва технологія за незначну ціну: сегментація за допомогою штучного інтелекту (ШІ).

Завдяки сегментації на основі штучного інтелекту ми визначаємо, які атрибути файлу вказують на те, що він, швидше за все, містить конфіденційні дані після аналізу невеликої статистичної вибірки файлів. Це надає нам важливу інформацію, щоб визначити пріоритетність пошуку даних із високим ризиком. Наприклад, чи документи Word піддаються більшому ризику, ніж презентації PowerPoint? Чи є певна папка, яка може містити конфіденційні дані?

Якщо ми виділимо наші найбільш ризиковані дані, ми можемо негайно запустити повний аналіз і процес виправлення, усуваючи найвищий ризик якомога раніше. Таким чином, ми визначили пріоритет процесу відновлення, щоб досягти найбільшого зниження ризику за найменший проміжок часу.

Наприклад, припустімо, що у нас є кілька терабайт даних, розділених на фрагменти по 100 терабайт. Індексування або сканування 100 терабайт за раз може зайняти кілька місяців роботи, і ще більше часу потрібно, щоб сканувати все це.

Однак, якщо я натомість візьму статистичну вибірку (тобто перегляну близько 9500 файлів із загального 1 мільйона), я можу бути впевненим у своїх результатах на 95%.

Якщо в перших 100 терабайтах мої результати покажуть, що 5% даних містять особисту інформацію, я буду знати, що якби я запустив той самий тест ще 100 разів, 95 разів зі 100, я опинився б у межах 1% цього Рівень 5% (тобто 4-6% – це ідентифікаційна інформація або інформація чи файли, що містять ідентифікаційну інформацію). Я можу завершити цю ітерацію за частку часу (години замість місяців) і отримати гарне уявлення про масштаби проблеми.

Потім, якщо я дивлюся на другий блок розміром 100 терабайт і 20% містить особисту інформацію, я тепер маю пріоритет. Я знаю, що найкраще використати час, якщо спочатку переглянути другий блок даних.

Але ми можемо зробити ще краще. Для цього другого блоку даних ми можемо застосувати моделі ШІ для подальшого сегментування блоку розміром 100 терабайт у сегменти на основі очікуваної ймовірності того, що файл містить ідентифікаційну інформацію. Ми бачимо, що один терабайт із загальних 100 терабайт має ймовірність понад 50% містити ідентифікаційну інформацію.

Потім я просканую всі терабайти та вирішу несправності. Потім я можу перейти до наступної найнебезпечнішої зони, а потім до наступної найнебезпечнішої області. Прогрес покращився не по днях, а по годинах порівняно з скринінгом...

Ефективне управління даними за допомогою сегментації AI

Перегляньте сесії за запитом від саміту Low-Code/No-Code Summit, щоб дізнатися, як успішно впроваджувати інновації та підвищувати ефективність шляхом вдосконалення та масштабування громадянських розробників. Переглянути зараз.

Цифрова трансформація докорінно змінила спосіб взаємодії компаній зі своїми партнерами, мережами поставок і клієнтами. Це також експоненціально збільшило обсяг даних, які генерують і зберігають організації.

Наша проблема з даними

Сучасні підприємства зазвичай мають сотні терабайтів або навіть петабайтів даних, більшість із яких є неструктурованими. Цей тип даних може становити 80-90% від загального обсягу даних компанії, і оскільки вони неструктуровані, їх здебільшого ігнорують. Однак деякі неструктуровані елементи даних містять конфіденційну інформацію, яка може стати жертвою зламу.

Загадка: ми не знаємо, які дані є конфіденційними; це як спроба знайти голку в стозі сіна.

Нові інструменти можуть замінити громіздкі методи управління даними

З великою кількістю даних, накопичених протягом багатьох років, запити від регуляторів і розпорядження про виявлення від судових органів часто зростають.

Типовою відповіддю розпорядників даних може бути негайне запровадження процесу, як-от підписання працівниками заяви про те, що вони зобов’яжуться не зберігати конфіденційні дані, а потім організація навчання щодо ідентифікаційної інформації (PII). Але це простий «пластир», накладений на процес, оскільки вони сподіваються на краще.

Крім того, розпорядники даних можуть просіяти гори даних. Вони сканують кожен документ, намагаючись розкрити конфіденційні дані. Але аналіз петабайтів неструктурованих даних зайняв би роки. Отримання бажаних результатів також є досить дорогим і трудомістким, через що багато менеджерів даних уникають цього підходу.

Конфіденційні дані та зростання сегментації даних за допомогою ШІ

Для заміни цим архаїчним методам і швидкого зниження ризику доступна ефективна та дієва технологія за незначну ціну: сегментація за допомогою штучного інтелекту (ШІ).

Завдяки сегментації на основі штучного інтелекту ми визначаємо, які атрибути файлу вказують на те, що він, швидше за все, містить конфіденційні дані після аналізу невеликої статистичної вибірки файлів. Це надає нам важливу інформацію, щоб визначити пріоритетність пошуку даних із високим ризиком. Наприклад, чи документи Word піддаються більшому ризику, ніж презентації PowerPoint? Чи є певна папка, яка може містити конфіденційні дані?

Якщо ми виділимо наші найбільш ризиковані дані, ми можемо негайно запустити повний аналіз і процес виправлення, усуваючи найвищий ризик якомога раніше. Таким чином, ми визначили пріоритет процесу відновлення, щоб досягти найбільшого зниження ризику за найменший проміжок часу.

Наприклад, припустімо, що у нас є кілька терабайт даних, розділених на фрагменти по 100 терабайт. Індексування або сканування 100 терабайт за раз може зайняти кілька місяців роботи, і ще більше часу потрібно, щоб сканувати все це.

Однак, якщо я натомість візьму статистичну вибірку (тобто перегляну близько 9500 файлів із загального 1 мільйона), я можу бути впевненим у своїх результатах на 95%.

Якщо в перших 100 терабайтах мої результати покажуть, що 5% даних містять особисту інформацію, я буду знати, що якби я запустив той самий тест ще 100 разів, 95 разів зі 100, я опинився б у межах 1% цього Рівень 5% (тобто 4-6% – це ідентифікаційна інформація або інформація чи файли, що містять ідентифікаційну інформацію). Я можу завершити цю ітерацію за частку часу (години замість місяців) і отримати гарне уявлення про масштаби проблеми.

Потім, якщо я дивлюся на другий блок розміром 100 терабайт і 20% містить особисту інформацію, я тепер маю пріоритет. Я знаю, що найкраще використати час, якщо спочатку переглянути другий блок даних.

Але ми можемо зробити ще краще. Для цього другого блоку даних ми можемо застосувати моделі ШІ для подальшого сегментування блоку розміром 100 терабайт у сегменти на основі очікуваної ймовірності того, що файл містить ідентифікаційну інформацію. Ми бачимо, що один терабайт із загальних 100 терабайт має ймовірність понад 50% містити ідентифікаційну інформацію.

Потім я просканую всі терабайти та вирішу несправності. Потім я можу перейти до наступної найнебезпечнішої зони, а потім до наступної найнебезпечнішої області. Прогрес покращився не по днях, а по годинах порівняно з скринінгом...

What's Your Reaction?

like

dislike

love

funny

angry

sad

wow