Efektywne zarządzanie danymi dzięki segmentacji AI

Sprawdź sesje na żądanie ze szczytu Low-Code/No-Code, aby dowiedzieć się, jak skutecznie wprowadzać innowacje i zwiększać wydajność poprzez ulepszanie i skalowanie programistów obywatelskich. Obejrzyj teraz.

Transformacja cyfrowa zasadniczo zmieniła sposób, w jaki firmy wchodzą w interakcje z partnerami, łańcuchami dostaw i klientami. Zwiększyła również wykładniczo ilość danych generowanych i przechowywanych przez organizacje.
Nasz problem z danymi
Współczesne firmy zazwyczaj mają setki terabajtów, a nawet petabajtów danych, z których większość jest nieustrukturyzowana. Tego typu dane mogą stanowić 80-90% całkowitego śladu danych firmy, a ponieważ są nieustrukturyzowane, są w dużej mierze ignorowane. Jednak niektóre nieustrukturyzowane elementy danych zawierają poufne informacje, które mogą paść ofiarą naruszeń.

Zagadka: nie wiemy, jakie dane są wrażliwe; to jak szukanie igły w stogu siana.
Nowe narzędzia mogą zastąpić niewygodne metody zarządzania danymi
Dzięki dużej ilości danych gromadzonych przez wiele lat często wzrasta liczba żądań od organów regulacyjnych i nakazów ujawnienia informacji od organów prawnych.

Typową odpowiedzią administratorów danych może być natychmiastowe wdrożenie procesu, na przykład podpisanie przez pracowników oświadczenia zobowiązującego do nieprzechowywania danych wrażliwych, a następnie zorganizowanie szkolenia na temat informacji umożliwiających identyfikację osób. Ale jest to proste rozwiązanie „bandażowe” umieszczone w procesie, ponieważ mają nadzieję na najlepsze.

Alternatywnie administratorzy danych mogą przeszukiwać góry danych. Skanują każdy dokument, próbując ujawnić wrażliwe dane. Ale analiza petabajtów nieustrukturyzowanych danych zajęłaby lata. Uzyskanie pożądanych wyników jest również dość kosztowne i czasochłonne, co powoduje, że wielu menedżerów danych unika tego podejścia.
Wrażliwe dane i wzrost segmentacji danych opartej na sztucznej inteligencji
Dostępna jest skuteczna i wydajna technologia, która może zastąpić te archaiczne metody i szybko zmniejszyć ryzyko za ułamek kosztów: segmentacja sztucznej inteligencji (AI).

Dzięki segmentacji opartej na sztucznej inteligencji określamy, które atrybuty pliku wskazują, że jest bardziej prawdopodobne, że zawiera poufne dane, po przeanalizowaniu małej statystycznej próbki plików. Dzięki temu otrzymujemy ważne informacje, które pozwalają nadać priorytet wyszukiwaniu danych wysokiego ryzyka. Na przykład, czy dokumenty programu Word są bardziej zagrożone niż prezentacje programu PowerPoint? Czy istnieje konkretny folder, który może zawierać poufne dane?

Po wskazaniu naszych najbardziej ryzykownych danych możemy natychmiast rozpocząć pełną analizę i proces naprawczy, eliminując najwyższe ryzyko na jak najwcześniejszym etapie procesu. W związku z tym ustaliliśmy priorytety procesu naprawczego, aby osiągnąć jak największą redukcję ryzyka w jak najkrótszym czasie.

Załóżmy na przykład, że mamy kilka terabajtów danych podzielonych na 100 terabajtowe porcje. Indeksowanie lub przeszukiwanie 100 terabajtów na raz może zająć kilka miesięcy pracy, a przeszukanie tego wszystkiego trwa jeszcze dłużej.

Jeśli jednak zamiast tego wezmę próbkę statystyczną (tj. przyjrzę się około 9500 plików z łącznej liczby 1 miliona), mogę mieć 95% pewności swoich wyników.

Jeśli w pierwszych 100 terabajtach moje wyniki wykażą, że 5% danych zawiera dane osobowe, wiedziałbym, że gdybym wykonał ten sam test jeszcze 100 razy, 95 razy na 100, znalazłbym się w 1% tego Poziom 5% (tj. 4-6% to PII lub informacje lub pliki zawierające PII). Mogę wykonać tę iterację w ułamku czasu (godziny zamiast miesięcy) i dobrze zorientować się w zakresie problemu.

W takim razie jeśli spojrzę na drugi blok 100 terabajtów, a 20% zawiera dane osobowe, teraz mam pierwszeństwo. Wiem, że najlepiej poświęcić swój czas, patrząc najpierw na ten drugi blok danych.

Ale możemy zrobić jeszcze lepiej. W przypadku tego drugiego bloku danych możemy zastosować modele sztucznej inteligencji, aby dalej podzielić blok 100 terabajtów na segmenty w oparciu o oczekiwane prawdopodobieństwo, że plik zawiera dane osobowe. Widzimy, że jeden terabajt na 100 terabajtów ma prawdopodobieństwo, że zawiera więcej niż 50% danych umożliwiających identyfikację.

Następnie przeskanuję wszystkie terabajty i rozwiążę problemy. Następnie mogę przejść do następnego najbardziej ryzykownego obszaru, a następnie do następnego najbardziej ryzykownego obszaru. Postęp poprawił się skokowo w porównaniu do badań przesiewowych...

Startupy Nov 11, 2022 0 16 Add to Reading List

Sprawdź sesje na żądanie ze szczytu Low-Code/No-Code, aby dowiedzieć się, jak skutecznie wprowadzać innowacje i zwiększać wydajność poprzez ulepszanie i skalowanie programistów obywatelskich. Obejrzyj teraz.

Transformacja cyfrowa zasadniczo zmieniła sposób, w jaki firmy wchodzą w interakcje z partnerami, łańcuchami dostaw i klientami. Zwiększyła również wykładniczo ilość danych generowanych i przechowywanych przez organizacje.
Nasz problem z danymi
Współczesne firmy zazwyczaj mają setki terabajtów, a nawet petabajtów danych, z których większość jest nieustrukturyzowana. Tego typu dane mogą stanowić 80-90% całkowitego śladu danych firmy, a ponieważ są nieustrukturyzowane, są w dużej mierze ignorowane. Jednak niektóre nieustrukturyzowane elementy danych zawierają poufne informacje, które mogą paść ofiarą naruszeń.

Zagadka: nie wiemy, jakie dane są wrażliwe; to jak szukanie igły w stogu siana.
Nowe narzędzia mogą zastąpić niewygodne metody zarządzania danymi
Dzięki dużej ilości danych gromadzonych przez wiele lat często wzrasta liczba żądań od organów regulacyjnych i nakazów ujawnienia informacji od organów prawnych.

Typową odpowiedzią administratorów danych może być natychmiastowe wdrożenie procesu, na przykład podpisanie przez pracowników oświadczenia zobowiązującego do nieprzechowywania danych wrażliwych, a następnie zorganizowanie szkolenia na temat informacji umożliwiających identyfikację osób. Ale jest to proste rozwiązanie „bandażowe” umieszczone w procesie, ponieważ mają nadzieję na najlepsze.

Alternatywnie administratorzy danych mogą przeszukiwać góry danych. Skanują każdy dokument, próbując ujawnić wrażliwe dane. Ale analiza petabajtów nieustrukturyzowanych danych zajęłaby lata. Uzyskanie pożądanych wyników jest również dość kosztowne i czasochłonne, co powoduje, że wielu menedżerów danych unika tego podejścia.
Wrażliwe dane i wzrost segmentacji danych opartej na sztucznej inteligencji
Dostępna jest skuteczna i wydajna technologia, która może zastąpić te archaiczne metody i szybko zmniejszyć ryzyko za ułamek kosztów: segmentacja sztucznej inteligencji (AI).

Dzięki segmentacji opartej na sztucznej inteligencji określamy, które atrybuty pliku wskazują, że jest bardziej prawdopodobne, że zawiera poufne dane, po przeanalizowaniu małej statystycznej próbki plików. Dzięki temu otrzymujemy ważne informacje, które pozwalają nadać priorytet wyszukiwaniu danych wysokiego ryzyka. Na przykład, czy dokumenty programu Word są bardziej zagrożone niż prezentacje programu PowerPoint? Czy istnieje konkretny folder, który może zawierać poufne dane?

Po wskazaniu naszych najbardziej ryzykownych danych możemy natychmiast rozpocząć pełną analizę i proces naprawczy, eliminując najwyższe ryzyko na jak najwcześniejszym etapie procesu. W związku z tym ustaliliśmy priorytety procesu naprawczego, aby osiągnąć jak największą redukcję ryzyka w jak najkrótszym czasie.

Załóżmy na przykład, że mamy kilka terabajtów danych podzielonych na 100 terabajtowe porcje. Indeksowanie lub przeszukiwanie 100 terabajtów na raz może zająć kilka miesięcy pracy, a przeszukanie tego wszystkiego trwa jeszcze dłużej.

Jeśli jednak zamiast tego wezmę próbkę statystyczną (tj. przyjrzę się około 9500 plików z łącznej liczby 1 miliona), mogę mieć 95% pewności swoich wyników.

Jeśli w pierwszych 100 terabajtach moje wyniki wykażą, że 5% danych zawiera dane osobowe, wiedziałbym, że gdybym wykonał ten sam test jeszcze 100 razy, 95 razy na 100, znalazłbym się w 1% tego Poziom 5% (tj. 4-6% to PII lub informacje lub pliki zawierające PII). Mogę wykonać tę iterację w ułamku czasu (godziny zamiast miesięcy) i dobrze zorientować się w zakresie problemu.

W takim razie jeśli spojrzę na drugi blok 100 terabajtów, a 20% zawiera dane osobowe, teraz mam pierwszeństwo. Wiem, że najlepiej poświęcić swój czas, patrząc najpierw na ten drugi blok danych.

Ale możemy zrobić jeszcze lepiej. W przypadku tego drugiego bloku danych możemy zastosować modele sztucznej inteligencji, aby dalej podzielić blok 100 terabajtów na segmenty w oparciu o oczekiwane prawdopodobieństwo, że plik zawiera dane osobowe. Widzimy, że jeden terabajt na 100 terabajtów ma prawdopodobieństwo, że zawiera więcej niż 50% danych umożliwiających identyfikację.

Następnie przeskanuję wszystkie terabajty i rozwiążę problemy. Następnie mogę przejść do następnego najbardziej ryzykownego obszaru, a następnie do następnego najbardziej ryzykownego obszaru. Postęp poprawił się skokowo w porównaniu do badań przesiewowych...

Facebook Twitter Whatsapp Linkedin Pinterest

What's Your Reaction?

0

Like

0

Dislike

0

Love

0

Funny

0

Angry

0

Sad

0

Wow