Das REx-(Report Exchange) Format zur metrischen Untersuchung der Wiederverwendung im Content Management aus Datenschutzsicht

Big Data und Content Intelligence

Big Data ist allgegenwärtig. Nicht nur in Lindau, wo die Ursprünge der ICMS GmbH liegen, gehört Big Data beim derzeitigen Nobel-Treffen zu den Schwerpunktthemen (vgl. Scholz 2017). Big-Data-Anwendungen sind bspw. auch Teil der Diskussionen beim Digitalgipfel der Bundesregierung (vgl. tagesschau.de 2017). Dementsprechend finden Big Data, Business Analytics und Co. gleichermaßen Anwendung in der Technischen Kommunikation. Einer der Ansätze ist dabei die sogenannte „Content Intelligence“ unter der „Methoden und Technologien zur Messung, Darstellung und Optimierung der CM-Prozesse“ zusammengefasst werden (Ziegler 2012, 41). Grundlage für diese CM-Prozesse ist die kontrollierte, prozesssichere und modulare Wiederverwendung von Inhalten bzw. Content. Dabei können je nach Anwendungsfall und Zielsetzung der Untersuchungen unterschiedliche Schwerpunkte entlang des Lebenszyklus des Contents gesetzt werden, vom ersten Erstellen der Inhalte, über deren Änderung, Verwaltung und Weiterverarbeitung bis hin zur Publikation bzw. anderweitigen Nutzung (vgl. Ziegler 2012, 41).

 

Das REx-Format

Das sogenannte REx-Format (Report Exchange Format) wurde als Basis für eine Content Intelligence Anwendung entwickelt und zuletzt in der Version 1.2 veröffentlicht (siehe Oberle/Ziegler 2013). Die Strukturdefinition für das REx-Format liegt als XML-Schema vor und wird wie die damit verbundenen Auswertungen kontinuierlich weiterentwickelt.

Das XML-basierte Format wird dann ausschließlich durch das Institut für Informations- und Content Management (I4ICM) – einem engen Kooperationspartner der ICMS GmbH – standardisiert ausgewertet. Dabei wird untersucht, wie das jeweilige CMS genutzt bzw. wie effizient damit gearbeitet wird. Zentraler Dreh- und Angelpunkt zur Analyse dieser Arbeitsweise ist die Wiederverwendung der modularen Inhalte im CMS und die damit verbundenen Kennzahlen wie bspw. der Wiederverwendungsgrad (Redundanz) und die Verwendungszahl (Abundanz) (vgl. Ziegler 2012, 21).

Die Vorgehensweise von der Datenerhebung bis zur Auswertung ist dabei wie folgt:

  1. Export der REx-XML-Datei über die Schnittstelle des jeweiligen CMS (REx Level 1)
  2. Transformation, Verarbeitung und Anreicherung der REx-XML-Datei durch XSL-Skripte (aus der Datei im REx Level 1 Format wird dabei eine Datei im REx Level 2 Format mit berechneten Kennzahlen)
  3. Transformation der Datei im REx Level 2 Format in den REx-Report mit Dashboard und verschiedenen Diagrammen im HTML-Format

 

Datenerhebung für das REx-Format

Besonders bei Schritt 1 stellt sich die Frage, welche Daten konkret für eine REx-Export-Datei aus dem CMS erhoben und exportiert werden, denn keine Big Data Anwendung und keine Diskussion zu Big Data ohne zu hinterfragen, welche Rolle dabei der Schutz der Daten spielt und wie mit sensiblen Daten umzugehen ist (wie bspw. auch beim oben angesprochenen Digitalgipfel der Bundesregierung (vgl. tagesschau.de 2017)).
Prinzipiell werden für den Export in das REx-Format keine Daten erhoben, die nicht für Anwender des jeweiligen CMS über unterschiedliche Such- bzw. Anzeigemechanismen gleichermaßen ersichtlich sind. Besonders bei dem Endergebnis der Auswertungen, dem REx-Report, ist u. a. für wissenschaftliche Studien eine vollständige Anonymisierung erforderlich, weshalb zudem personenbezogene Daten jeglicher Art von den Daten im REx-Export ausgeschlossen sind.
Andere Metadaten zu den Inhalten im CMS sind hingegen von Interesse und können je nach CMS auf unterschiedliche Art und Weise exportiert bzw. für den Export konfiguriert werden.
Konkret handelt es ich dabei um folgende Daten, die in den nächsten Abschnitten in beispielhaften XML-Auszügen einer REx-Datei dargestellt werden:
Neben den Metadaten, die bedeutend für die Interpretation der Kennzahlen sind, aber bereits für den Export aus dem CMS anonymisiert werden können (wer – bzw. welches Unternehmen – setzt welches CMS in welcher Version ein und zu welchem Zeitpunkt wurde der Export erzeugt), steht hier wie groß der Exportumfang ist (die jeweiligen exportierten Dokumenttypen, sind nicht freigegebene Objektversionen enthalten, in welcher Sprache und welchen Medien wurden Objekte exportiert).

Je nach Konfiguration und Implementierung der REx-Schnittstelle im jeweiligen CMS kann zusätzlich eine Übersicht über vorhandene Objektmetadaten und die dafür vorgegebenen Werte exportiert werden (wie bspw. Produkt- und Informationsklassifikation – PI-Klassifikation nach Ziegler).

Alle weiteren Daten in der REx-Exportdatei beziehen sich auf die Repräsentation einzelner Objekte im CMS und zusätzlicher Informationen zu diesen. Dabei handelt es sich um die ID, Version und Sprache, in der das Objekt vorliegt, sodass eine eindeutige Identifikation des Objekts möglich ist und dieses im CMS wiedergefunden bzw. zurückverfolgt werden kann. Optional können zudem Erstell- und Änderungsdaten, Medieninformationen, sowie weitere Metadaten (wie bspw. PI-Klassifikation nach Ziegler, URL zu Ansicht im Webclient) zu dem jeweiligen Objekt ausgegeben werden.

Bei Objekten, die direkt, d. h. nicht über Referenzierung, eigene (Text-)Inhalte haben wie bspw. Module oder Fragmente, wird zudem die Segmentgröße dieser Inhalte (in der Regel in Wörtern) ausgegeben.

Entscheidend für die Berechnung der Kennzahlen ist wie zuvor erläutert die Wiederverwendung modularer Inhalte, dementsprechend wird für Objekte, die andere Objekte referenzieren bzw. wiederverwenden wie bspw. Dokumente, gekennzeichnet welche Objekte referenziert werden (ID, Sprache und Version dieser Objekte – abgebildet durch reuse-Elemente).

Falls im jeweiligen CMS mit automatisierten Filtermechanismen gearbeitet wird, können ebenfalls die Details der Filterprozesse und die entstandenen Varianten analysiert werden.

 

Fazit

Zusammenfassend lässt sich betonen, dass jegliche personenbezogenen Daten wie bspw. Autorennamen nicht von Interesse für die REx-Auswertungen sind und deshalb nicht im REx-Format vorgesehen bzw. aus Gründen der Anonymisierung davon ausgeschlossen sind. Sämtliche im REx-Format abgebildete Informationen konzentrieren sich auf die Abbildung der im CMS vorhandenen Objekte und deren (Wieder-)Verwendungen. Diese sind je nach CMS auf unterschiedliche Art und Weise implementiert und über diverse Such- und Anzeigefunktionalitäten wie bspw. Verwendungsnachweise für jeden Benutzer des CMS auch ohne REx ersichtlich.

 
Quellen und weiterführende Informationen: