PDF/A als das bestimmende Format für die Mail-Archivierung Systemunabhängig E-Mails archivieren
13. April 2015Neben den einschlägigen gesetzlichen Vorschriften gibt es zusätzliche gute Gründe für die Archivierung von E-Mails: In den zahlreichen Nachrichten liegt wertvolles Wissen einer Firma. Doch nur wenn E-Mails und die Attachments strukturiert und in einem einheitlichen Format abgelegt werden, lassen sich die gewünschten Informationen auch schnell finden. Dennoch werden E-Mails nach wie vor häufig noch in proprietären Formaten aufbewahrt. Ob diese langfristig reproduzierbar sind, erscheint bei genauerer Betrachtung mehr als fraglich. Eine systemunabhängige E-Mail-Archivierung im PDF/A-Format dagegen erweist sich als eine zukunftssichere Alternative.
Aufbewahrungspflichten
Kaum mehr ein Unternehmen kann auf die E-Mails verzichten. Sie ersetzen in den meisten Fällen die Papierpost und erweisen sich somit auch als ein integraler Bestandteil von Abläufen im Unternehmen. Darüber hinaus sind Inhalte in den Mails zum Teil über Jahre aufbewahrungspflichtig – wie es das deutsche Steuerrecht für Handelsbriefe vorschreibt. Und der Begriff Handelsbriefe ist breit gefasst: Neben den direkt relevanten Bestellungen oder Rechnungen sind das alle Dokumente, die im Zusammenhang mit einem Geschäftsvorfall relevant sein können.
Aber auch unabhängig von den gesetzlichen Vorschriften gibt es gute Gründe für die Archivierung von E-Mails. Denn in den elektronischen Nachrichten ist jede Menge Fachwissen vorhanden. Sind E-Mails und die Attachments strukturiert und in einem einheitlichen Format abgelegt, erleichtert dies die übergreifende Informationssuche.
Im Vergleich zu einem Office-Dokument oder einer anderen aus einer Anwendungssoftware generierten Datei besteht eine Mail-Nachricht aus mehreren Komponenten, nämlich einem Header, dem Body und gegebenenfalls den Anhängen.
Der Header einer Mail gehört zu den Metadaten. Als Pendant zum Anschreibenfeld einer Postkarte beinhaltet er zumindest eine Absenderangabe und das Datum der Erstellung der Nachricht. Darüber hinaus kann der Header einer E-Mail weitere optionale Angaben wie den Betreff oder deren Empfänger enthalten. Um E-Mails und die Zuverlässigkeit der Header-Infos richtig einschätzen zu können, ist es wichtig, dass das eigentliche Routing unabhängig von den Header-Daten abläuft und immer via SMTZP (Simple Mail Transfer Protocol) erfolgt.
Der Nachrichten-Body, sprich der Mail-Inhalt, wird abhängig von den benutzerdefinierten Einstellungen in der E-Mail-Software unterschiedlich dargestellt. Eine E-Mail kann dabei mehrere, parallele Inhaltsbereiche verwenden: Möglich sind reiner Text (ASCII-Zeichen) ohne Umlaute, einfach formatierter Text (wie beispielsweise Fett- oder Kursivschreibung) mit Unterstützung für länderspezifische Encodings (Umlaute) oder umfassende HTML-Formatierungen mit eingebetteten Bildern usw. Eine Garantie für äquivalente Inhalte gibt es aber nicht. Es ist ohne weiteres möglich, unterschiedliche Texte in den parallelen Inhaltsbereichen unterzubringen. Häufig findet sich zum Beispiel im Textteil nur der Hinweis, dass für die Anzeige ein HTML-fähiger E-Mail-Client erforderlich ist.
Der dritte, optionale Teil besteht aus Anhängen. Das können Dokumente oder Bilder sein, die auch in einer ZIP-Datei zusammengefasst sein können, oder auch ausführbare Programme bzw. Skripte.
Formatfrage
Stellt man sich die Frage, in welchem Dateiformat E-Mails aufzubewahren sind, gelangt man zu der Erkenntnis, dass für E-Mails gar kein "Originalformat" existiert. Je nach Mail-Client bieten sich die verschiedensten proprietären Formate an – bei Outlook zum Beispiel gibt es die .pst-Dateien, in denen sich Nachrichten archivieren lassen.
Eine versendete E-Mail wird sich im Bereich der Header-Informationen immer von der empfangenen unterscheiden. Darüber hinaus wird der E-Mail-Client des Versenders in der Regel in einem anderen Format abspeichern als der des Empfängers. Auch die für die eigentliche Übertragung zuständigen Server speichern E-Mails ebenfalls in ihren eigenen Formaten ab. Alle diese Formate sind im Grunde proprietär und nicht standardisiert, womit ihre langfristige Lesbarkeit nicht garantiert ist. Komplett unübersichtlich wird es, wenn auch die Anhänge einbezogen werden.
Somit müsste ein Unternehmen sicherheitshalber, die E-Mail-Anwendungen und Viewer für die Anhänge so lange vorbehalten, wie der Zugriff auf die elektronischen Nachrichten möglich sein soll. Das dürfte in den meisten Fällen ein sehr aufwändiges Unterfangen darstellen. Um sich von dieser Abhängigkeit zu lösen, empfiehlt sich eine systemunabhängige Archivierung aller E-Mails und wenn möglich aller Attachments. Geeignet dazu ist das Format PDF/A – ein zuverlässiges Standardformat, das sich für allgemeines Archivgut etabliert hat. Ausnahmen sollten lediglich bei den Formaten bestehen, die nicht in den ISO-Standard konvertierbar sind. Dazu gehören beispielsweise Audio- oder Videodateien.
Die in der Regel unbestrittenen Vorteile von PDF/A für die Archivierung gelten genauso für E-Mails: Das Format ist vollständig, z.B. sind sämtliche Schriften genauso eingebettet wie relevante Metadaten. Darüber hinaus sorgt PDF/A für ein eindeutiges systemunabhängiges Erscheinungsbild und verbietet dynamische Inhalte. Schließlich, und das ist das wichtigste Argument, ist der ISO-Standard für die Langzeitarchvierung konzipiert und somit ist garantiert, dass Dateien, die im PDF/A-Format gespeichert sind, über Jahrzehnte hinweg reproduzierbar und lesbar bleiben. Die Verfügbarkeit eines PDF/A-Viewers kann in den für die Archivierung relevanten Zeiträumen als gesichert angesehen werden.
Infos schnell finden
Um gezielt nach einer E-Mail suchen zu können, werden bei deren Konvertierung in das Format PDF/A die Header-Informationen ausgelesen und in der PDF/A-Datei im Bereich der XMP-Metadaten abgelegt. Der Nachrichten-Body wird nach PDF/A konvertiert und als Haupt-PDF/A-Datei gespeichert. Bei der Behandlung der Attachments lässt sich die durch die drei verfügbaren Normteile von PDF/A Flexibilität ins Spiel bringen, die alle für die E-Mail-Archivierung verwendbar sind:
Bei PDF/A-1, das keine Anhänge erlaubt, würde man mögliche Anhänge als zusätzliche Seiten an die E-Mail anfügen.
PDF/A-2 erlaubt das Einbetten von PDF/A-Dateien, sodass die Anhänge dann als PDF/A-Datei integriert werden können.
Der dritte und neueste Normteil, PDF/A-3, geht noch einen Schritt weiter: Da hier beliebige Anhänge erlaubt sind, ist es möglich, Anhänge sowohl in PDF/A als auch im Originalformat in die archivfähige Datei zu integrieren. Wahlweise kann auch die E-Mail noch im Original einbettet werden, dann könnte eine solche E-Mail sogar noch im Client geöffnet und z.B. beantwortet werden.
Dabei ist wichtig, dass die Beziehung zwischen Archivdokumenten, E-Mails und Attachments in der PDF/A-Datei erhalten bleibt und somit unabhängig vom Archivsystem vorliegt. Die so gegebene vollständige Systemunabhängigkeit ist ein sehr wichtiger Vorteil, der zum Beispiel bei einem Systemwechsel aufwändige Migrationsprojekte überflüssig machen kann.
Mit dem pdfaPilot Version 5 von callas software GmbH steht eine Lösung zur Verfügung, die sämtliche Dokumente und E-Mails automatisch in den zu den jeweiligen Anforderungen passenden Normteil konvertiert. Er basiert auf derselben PDF/A Technologie, die auch beim Acrobat Professional zum Einsatz kommt.
Bei der Konvertierung sorgt der pdfaPilot dafür, dass das Look-and-Feel der Dokumente genauso erhalten bleibt wie hinterlegte Verlinkungen. Abhängig von dem Verarbeitungsergebnis legt der callas pdfaPilot anschließend die entsprechenden Dateien in einem speziellen Ordner ab, sodass der übrige Arbeitsablauf weiter automatisiert werden kann. Falls notwendig, werden individuelle Berichte erstellt, die dann die problematischen Dateien auflisten und den Anwender informieren. Zusätzlich zu der PDF/A-Validierung und Konvertierung können spezifische Regeln hinterlegt werden, wie bestimmte Dokumenttypen, zum Beispiel Audio- oder Filmdateien, im E-Mail-Anhang behandelt werden sollen, welche Metadaten den Dokumenten zugefügt werden und vieles mehr.
Abhängig vom Verarbeitungsvolumen stellt callas software den pdfaPilot in drei Varianten zur Verfügung: Die Desktop-Anwendung bearbeitet einzelne Dokumente oder – über die Batch-Funktion – sämtliche Dokumente, die in einem Ordner abgelegt sind. Der pdfaPilot Server wiederum verarbeitet Dokumente automatisiert über Hotfolder. Darüber hinaus ist die Software über eine Kommandozeile (CLI-Schnittstelle) oder auch als Bibliothek (C/C++, C# oder Java) in bestehende Anwendungen integrierbar. (rhh)
Hier geht es zu Callas Software