JBIG2 Невиявлене пошкодження даних: знищення нашого минулого, один персонаж за раз

Невиявлене пошкодження даних у JB2/JBIG2

image link-subject-sf0.jpg

"JBIG2" і його похідний "JB2" є форматами стиснення зображень. Обидва вони використовують процедуру, яка робить їх непридатними для будь-якого використання, коли вам насправді потрібно переконатися, що текст, який ви читаєте, є текстом, який ви відсканували.

Ці формати намагаються розпізнати символи на сторінці. Після цього вони зберігають лише одну копію зображення персонажа. Кожного разу, коли вони знову розпізнають цей символ, вони просто зберігають факт появи символу та відображають його за допомогою єдиної загальної копії. Отже, якщо алгоритм JBIG2/JB2 розпізнає, скажімо, «8», він зберігає лише стиснене зображення цієї «8». Щоразу, коли він розпізнає іншу «8», він відкидає його фактичне зображення та використовує замість нього першу збережену «8». Очевидно, це може значно зменшити необхідний обсяг пам’яті.

Можна подумати, очевидно, що це створює фатальну проблему. Якщо програмне забезпечення JBIG2/JB2 помилково розпізнає «8», хоча насправді було написано «6», воно відкидає «6», зберігає «факт», що «8» відбулося, і «відображається як «8». . Якщо програмне забезпечення JBIG2/JB2 не досконало розпізнає кожен символ, воно змінює вміст матеріалу, який стискає. Крім того, він незворотно змінює цей вміст у спосіб, який неможливо виявити. (Якщо документ містить цифру «6», яка трохи нагадує цифру «8», звичайне програмне забезпечення для стиснення зображень зберігає оригінальний символ, щоб ви могли перевірити його та вирішити самостійно. При стисненні JBIG2/JB2 ця інформація видаляється. )< /p>

Ця проблема вперше привернула увагу громадськості, коли фотокопіювальні апарати (які тепер насправді є комбінацією сканерів і принтерів), які використовували JBIG2, почали виготовляти фотокопії банківських виписок із номерами, відмінними від оригіналів.

Алгоритм JBIG2 використовується як частина кодування PDF для Книг Google (для всіх частин чорно-білого тексту). Алгоритм JB2 використовується в усіх документах у форматі DjVu.

Це серйозна проблема, і за визначенням JBIG2 і JB2 в принципі непридатні для використання в будь-якому документі. На жаль, оскільки на практиці більшість літератури в західному світі виживе лише завдяки аналітиці Google Books, ці алгоритми втручаються в нашу історію, намагаючись заощадити незначну кількість місця для зберігання.

>

Усі частини цього документа, на які не вказано інше, належать авторським правам © 2014-2015 Девіда М. МакМіллана та Ролланда Крандалла.

Circuitous Root є зареєстрованою торговою маркою Девіда М. МакМіллана та Ролланда Крандалла.

Ця робота ліцензована за ліцензією Creative Commons Attribution-ShareAlike. Перегляньте його умови на сторінці http://creativecommons.org/licenses/by-sa/3.0/.

Спочатку представлений Circuitous Root®

JBIG2 Невиявлене пошкодження даних: знищення нашого минулого, один персонаж за раз
Невиявлене пошкодження даних у JB2/JBIG2

image link-subject-sf0.jpg

"JBIG2" і його похідний "JB2" є форматами стиснення зображень. Обидва вони використовують процедуру, яка робить їх непридатними для будь-якого використання, коли вам насправді потрібно переконатися, що текст, який ви читаєте, є текстом, який ви відсканували.

Ці формати намагаються розпізнати символи на сторінці. Після цього вони зберігають лише одну копію зображення персонажа. Кожного разу, коли вони знову розпізнають цей символ, вони просто зберігають факт появи символу та відображають його за допомогою єдиної загальної копії. Отже, якщо алгоритм JBIG2/JB2 розпізнає, скажімо, «8», він зберігає лише стиснене зображення цієї «8». Щоразу, коли він розпізнає іншу «8», він відкидає його фактичне зображення та використовує замість нього першу збережену «8». Очевидно, це може значно зменшити необхідний обсяг пам’яті.

Можна подумати, очевидно, що це створює фатальну проблему. Якщо програмне забезпечення JBIG2/JB2 помилково розпізнає «8», хоча насправді було написано «6», воно відкидає «6», зберігає «факт», що «8» відбулося, і «відображається як «8». . Якщо програмне забезпечення JBIG2/JB2 не досконало розпізнає кожен символ, воно змінює вміст матеріалу, який стискає. Крім того, він незворотно змінює цей вміст у спосіб, який неможливо виявити. (Якщо документ містить цифру «6», яка трохи нагадує цифру «8», звичайне програмне забезпечення для стиснення зображень зберігає оригінальний символ, щоб ви могли перевірити його та вирішити самостійно. При стисненні JBIG2/JB2 ця інформація видаляється. )< /p>

Ця проблема вперше привернула увагу громадськості, коли фотокопіювальні апарати (які тепер насправді є комбінацією сканерів і принтерів), які використовували JBIG2, почали виготовляти фотокопії банківських виписок із номерами, відмінними від оригіналів.

Алгоритм JBIG2 використовується як частина кодування PDF для Книг Google (для всіх частин чорно-білого тексту). Алгоритм JB2 використовується в усіх документах у форматі DjVu.

Це серйозна проблема, і за визначенням JBIG2 і JB2 в принципі непридатні для використання в будь-якому документі. На жаль, оскільки на практиці більшість літератури в західному світі виживе лише завдяки аналітиці Google Books, ці алгоритми втручаються в нашу історію, намагаючись заощадити незначну кількість місця для зберігання.

>

Усі частини цього документа, на які не вказано інше, належать авторським правам © 2014-2015 Девіда М. МакМіллана та Ролланда Крандалла.

Circuitous Root є зареєстрованою торговою маркою Девіда М. МакМіллана та Ролланда Крандалла.

Ця робота ліцензована за ліцензією Creative Commons Attribution-ShareAlike. Перегляньте його умови на сторінці http://creativecommons.org/licenses/by-sa/3.0/.

Спочатку представлений Circuitous Root®

What's Your Reaction?

like

dislike

love

funny

angry

sad

wow