PDFs visuell vergleichen

Manchmal erscheint ein Problem schwierig, aber ein guter Überblick kann es leicht machen. Wenn Sie gebeten würden, ein Programm zu schreiben, um zwei PDF-Dateien zu vergleichen und die Unterschiede aufzuzeigen, denken Sie, dass es schwierig wäre? Wenn Sie [serhack] sind, machen Sie die Dinge viel einfacher, als Sie denken.

Natürlich hängt die Vereinfachung manchmal von vereinfachenden Annahmen ab. Wenn Sie ein "diff-ähnliches" Dienstprogramm erwarten, das das Einfügen und Löschen anzeigt, ist das hier nicht der Fall. Stattdessen sehen Sie ein Bild der PDF-Datei, wobei die Änderungen durch ein rotes Kästchen hervorgehoben sind. Es ist einfach, weil das Programm verfügbare Dienstprogramme verwendet, um PDF-Dateien als Bilder wiederzugeben, dann einfach die Pixel in den resultierenden Bildern vergleicht und rote Rahmen um die Teile zeichnet, die nicht übereinstimmen.

Offensichtlich ist es besser für PDFs, die nur wenige Änderungen aufweisen. Das Einfügen eines Absatzes zum Beispiel macht die Ausgabe ziemlich unbrauchbar. Dazu könnten Sie erwägen, den Text aus der PDF-Datei mit etwas wie pdf2text zu extrahieren (das dieselbe zugrunde liegende Bibliothek verwendet, die zum Generieren von Bildern verwendet wird).

Das Programm sendet eine Menge Nachrichten über fehlende Dateien, scheint aber trotzdem seine Arbeit zu erledigen. Hier ist das Ergebnis des Vergleichs zweier Versionen der Hackaday-Homepage, die innerhalb weniger Minuten im PDF-Format erfasst wurden:

Sie können jedoch sehen, dass Sie nichts als einen riesigen roten Block haben würden, wenn ein neuer Artikel veröffentlicht würde und alles eine Stufe schlechter würde.

Immer eine clevere Idee. Es gibt überraschend wenige Tools dafür, obwohl wir ein paar mehr gefunden haben. Natürlich gibt es viele Linux-Tools zum Bearbeiten von PDFs. Viele von ihnen sind Mashups anderer Tools wie dieses.

PDFs visuell vergleichen

Manchmal erscheint ein Problem schwierig, aber ein guter Überblick kann es leicht machen. Wenn Sie gebeten würden, ein Programm zu schreiben, um zwei PDF-Dateien zu vergleichen und die Unterschiede aufzuzeigen, denken Sie, dass es schwierig wäre? Wenn Sie [serhack] sind, machen Sie die Dinge viel einfacher, als Sie denken.

Natürlich hängt die Vereinfachung manchmal von vereinfachenden Annahmen ab. Wenn Sie ein "diff-ähnliches" Dienstprogramm erwarten, das das Einfügen und Löschen anzeigt, ist das hier nicht der Fall. Stattdessen sehen Sie ein Bild der PDF-Datei, wobei die Änderungen durch ein rotes Kästchen hervorgehoben sind. Es ist einfach, weil das Programm verfügbare Dienstprogramme verwendet, um PDF-Dateien als Bilder wiederzugeben, dann einfach die Pixel in den resultierenden Bildern vergleicht und rote Rahmen um die Teile zeichnet, die nicht übereinstimmen.

Offensichtlich ist es besser für PDFs, die nur wenige Änderungen aufweisen. Das Einfügen eines Absatzes zum Beispiel macht die Ausgabe ziemlich unbrauchbar. Dazu könnten Sie erwägen, den Text aus der PDF-Datei mit etwas wie pdf2text zu extrahieren (das dieselbe zugrunde liegende Bibliothek verwendet, die zum Generieren von Bildern verwendet wird).

Das Programm sendet eine Menge Nachrichten über fehlende Dateien, scheint aber trotzdem seine Arbeit zu erledigen. Hier ist das Ergebnis des Vergleichs zweier Versionen der Hackaday-Homepage, die innerhalb weniger Minuten im PDF-Format erfasst wurden:

Sie können jedoch sehen, dass Sie nichts als einen riesigen roten Block haben würden, wenn ein neuer Artikel veröffentlicht würde und alles eine Stufe schlechter würde.

Immer eine clevere Idee. Es gibt überraschend wenige Tools dafür, obwohl wir ein paar mehr gefunden haben. Natürlich gibt es viele Linux-Tools zum Bearbeiten von PDFs. Viele von ihnen sind Mashups anderer Tools wie dieses.

What's Your Reaction?

like

dislike

love

funny

angry

sad

wow