Das REx-Format zur metrischen Untersuchung der Wiederverwendung im Content Management aus Datenschutzsicht

Big Data und Content Intelligence

Big Data ist allgegenwärtig. Nicht nur in Lindau, wo die Ursprünge der ICMS GmbH liegen, gehört Big Data beim derzeitigen Nobel-Treffen zu den Schwerpunktthemen (vgl. Scholz 2017). Big-Data-Anwendungen sind bspw. auch Teil der Diskussionen beim Digitalgipfel der Bundesregierung (vgl. tagesschau.de 2017). Dementsprechend finden Big Data, Business Analytics und Co. gleichermaßen Anwendung in der Technischen Kommunikation. Einer der Ansätze ist dabei die sogenannte „Content Intelligence“ unter der „Methoden und Technologien zur Messung, Darstellung und Optimierung der CM-Prozesse“ zusammengefasst werden (Ziegler 2012, 41). Grundlage für diese CM-Prozesse ist die kontrollierte, prozesssichere und modulare Wiederverwendung von Inhalten bzw. Content. Dabei können je nach Anwendungsfall und Zielsetzung der Untersuchungen unterschiedliche Schwerpunkte entlang des Lebenszyklus des Contents gesetzt werden, vom ersten Erstellen der Inhalte, über deren Änderung, Verwaltung und Weiterverarbeitung bis hin zur Publikation bzw. anderweitigen Nutzung (vgl. Ziegler 2012, 41).

Das REx-Format

Das sogenannte REx-Format (Report Exchange Format) wurde als Basis für eine Content Intelligence Anwendung entwickelt und zuletzt in der Version 1.2 veröffentlicht (siehe Oberle/Ziegler 2013). Die Strukturdefinition für das REx-Format liegt als XML-Schema vor und wird wie die damit verbundenen Auswertungen kontinuierlich weiterentwickelt.Das XML-basierte Format wird dann ausschließlich durch das Institut für Informations- und Content Management (I4ICM) – einem engen Kooperationspartner der ICMS GmbH – standardisiert ausgewertet. Dabei wird untersucht, wie das jeweilige CMS genutzt bzw. wie effizient damit gearbeitet wird. Zentraler Dreh- und Angelpunkt zur Analyse dieser Arbeitsweise ist die Wiederverwendung der modularen Inhalte im CMS und die damit verbundenen Kennzahlen wie bspw. der Wiederverwendungsgrad (Redundanz) und die Verwendungszahl (Abundanz) (vgl. Ziegler 2012, 21).Die Vorgehensweise von der Datenerhebung bis zur Auswertung ist dabei wie folgt:

  1. Export der REx-XML-Datei über die Schnittstelle des jeweiligen CMS (REx Level 1)
  2. Transformation, Verarbeitung und Anreicherung der REx-XML-Datei durch XSL-Skripte (aus der Datei im REx Level 1 Format wird dabei eine Datei im REx Level 2 Format mit berechneten Kennzahlen)
  3. Transformation der Datei im REx Level 2 Format in den REx-Report mit Dashboard und verschiedenen Diagrammen im HTML-Format
REx Vorgehensweise von der Datenerhebung bis zur Auswertung

Datenerhebung für das REx-Format

Besonders bei Schritt 1 stellt sich die Frage, welche Daten konkret für eine REx-Export-Datei aus dem CMS erhoben und exportiert werden, denn keine Big Data Anwendung und keine Diskussion zu Big Data ohne zu hinterfragen, welche Rolle dabei der Schutz der Daten spielt und wie mit sensiblen Daten umzugehen ist (wie bspw. auch beim oben angesprochenen Digitalgipfel der Bundesregierung (vgl. tagesschau.de 2017)).Prinzipiell werden für den Export in das REx-Format keine Daten erhoben, die nicht für Anwender des jeweiligen CMS über unterschiedliche Such- bzw. Anzeigemechanismen gleichermaßen ersichtlich sind. Besonders bei dem Endergebnis der Auswertungen, dem REx-Report, ist u. a. für wissenschaftliche Studien eine vollständige Anonymisierung erforderlich, weshalb zudem personenbezogene Daten jeglicher Art von den Daten im REx-Export ausgeschlossen sind.Andere Metadaten zu den Inhalten im CMS sind hingegen von Interesse und können je nach CMS auf unterschiedliche Art und Weise exportiert bzw. für den Export konfiguriert werden.Konkret handelt es ich dabei um folgende Daten, die in den nächsten Abschnitten in beispielhaften XML-Auszügen einer REx-Datei dargestellt werden:Neben den Metadaten, die bedeutend für die Interpretation der Kennzahlen sind, aber bereits für den Export aus dem CMS anonymisiert werden können (wer – bzw. welches Unternehmen – setzt welches CMS in welcher Version ein und zu welchem Zeitpunkt wurde der Export erzeugt), steht hier wie groß der Exportumfang ist (die jeweiligen exportierten Dokumenttypen, sind nicht freigegebene Objektversionen enthalten, in welcher Sprache und welchen Medien wurden Objekte exportiert).

REx Metadaten
 Objektmetadaten

Je nach Konfiguration und Implementierung der REx-Schnittstelle im jeweiligen CMS kann zusätzlich eine Übersicht über vorhandene Objektmetadaten und die dafür vorgegebenen Werte exportiert werden (wie bspw. Produkt- und Informationsklassifikation – PI-Klassifikation nach Ziegler).

Export Übersicht über vorhandene Objektmetadaten und die dafür vorgegebenen Werte

Alle weiteren Daten in der REx-Exportdatei beziehen sich auf die Repräsentation einzelner Objekte im CMS und zusätzlicher Informationen zu diesen. Dabei handelt es sich um die ID, Version und Sprache, in der das Objekt vorliegt, sodass eine eindeutige Identifikation des Objekts möglich ist und dieses im CMS wiedergefunden bzw. zurückverfolgt werden kann. Optional können zudem Erstell- und Änderungsdaten, Medieninformationen, sowie weitere Metadaten (wie bspw. PI-Klassifikation nach Ziegler, URL zu Ansicht im Webclient) zu dem jeweiligen Objekt ausgegeben werden.

Metadaten zur eindeutigen Identifikation des Objekts

Bei Objekten, die direkt, d. h. nicht über Referenzierung, eigene (Text-)Inhalte haben wie bspw. Module oder Fragmente, wird zudem die Segmentgröße dieser Inhalte (in der Regel in Wörtern) ausgegeben.

REx Export Segmentgröße
REx Export Grafik

Entscheidend für die Berechnung der Kennzahlen ist wie zuvor erläutert die Wiederverwendung modularer Inhalte, dementsprechend wird für Objekte, die andere Objekte referenzieren bzw. wiederverwenden wie bspw. Dokumente, gekennzeichnet welche Objekte referenziert werden (ID, Sprache und Version dieser Objekte – abgebildet durch reuse-Elemente).

 Angabe der Referenzierungen

Falls im jeweiligen CMS mit automatisierten Filtermechanismen gearbeitet wird, können ebenfalls die Details der Filterprozesse und die entstandenen Varianten analysiert werden.

Fazit

Zusammenfassend lässt sich betonen, dass jegliche personenbezogenen Daten wie bspw. Autorennamen nicht von Interesse für die REx-Auswertungen sind und deshalb nicht im REx-Format vorgesehen bzw. aus Gründen der Anonymisierung davon ausgeschlossen sind. Sämtliche im REx-Format abgebildete Informationen konzentrieren sich auf die Abbildung der im CMS vorhandenen Objekte und deren (Wieder-)Verwendungen. Diese sind je nach CMS auf unterschiedliche Art und Weise implementiert und über diverse Such- und Anzeigefunktionalitäten wie bspw. Verwendungsnachweise für jeden Benutzer des CMS auch ohne REx ersichtlich.Quellen und weiterführende Informationen:

Mehr interessante Artikel:

08/2025
Katrin Schmid, ICMS GmbH
Empolis Exchange 2025

Am 23. September 2025 startet unser Partner Empolis die Ära von Industrial Knowledge. Wir laden herzlich zur Empolis Exchange in der Pyramide ein! Unternehmen stehen unter ständigem Druck: Fachkräftemangel, demographischer Wandel, steigende Komplexität, kürzere Reaktionszeiten. Die Antwort darauf? Smartes, jederzeit verfügbares Wissen – unterstützt durch AI: Industrial Knowledge.

weiterlesen →
07/2025
Katrin Schmid, ICMS GmbH
Mit Wissen zum Erfolg

Bei ICMS war zuletzt der Grund zur Freude groß. Denn mit Julian Muschinski und Leon Brecht haben gleich zwei Studierende bei uns ihre Abschlussthesis erfolgreich fertiggestellt. Julian untersuchte in seiner Bachelorthesis, ob RAG der Schlüssel zu KI-gestütztem Content-Delivery ist. Dazu analysierte er den bestehenden RAG-Mechanismus am Beispiel des PI-Fans. Anhand eines eigen-entwickelten Userinterface des Chatbots konnte er die generierten Antworten besser nachvollziehen und in den Bereichen Terminologie, Absicht der Anfrage, Medieneinbindung und Variantenauflösung prototypisch weiter optimieren.

weiterlesen →
07/2025
Julian Muschinski, ICMS GmbH
Ist RAG der Schlüssel zu KI-gestütztem Content Delivery?

Der Begriff Künstliche Intelligenz umfasst ein breites Spektrum an Technologien. In der Technischen Kommunikation liegt der Fokus dabei zumeist auf sogenannten Large Language Models (LLMs). Diese Modelle werden auf großen Mengen an Textdaten trainiert und generieren Texte auf Basis statistischer Wahrscheinlichkeiten. Trotz ihrer Leistungsfähigkeit sind LLMs in einigen Punkten limitiert: Sie kennen keine internen, domänenspezifischen Inhalte, sofern diese nicht Teil der Trainingsdaten waren. Ihr Wissen hat einen festen Stand: den sogenannten Knowledge Cutoff Date. Informationen nach diesem Zeitpunkt sind nicht enthalten.

weiterlesen →
06/2025
Katrin Schmid, ICMS GmbH
Dreierteam auf der Quanos Connect 2025

Vergangene Woche waren Maurice Daum, Philipp Tschöke und Stephan Steurer für ICMS auf der Quanos connect in Nürnberg – einem Branchentreff für Innovation und Effizienzsteigerung in der Technischen Redaktion. ICMS war mit einem eigenen Messestand vertreten, der nicht nur unser breites Leistungsspektrum präsentierte, sondern auch als Anlaufstelle für bestehende Kunden diente. Neben zahlreichen spannenden Fachgesprächen freuten wir uns über viele persönliche Wiedersehen.

weiterlesen →
05/2025
Katrin Schmid, ICMS GmbH
ICMS sprintet beim B2Run

Sprinten können wir nicht nur im Projektplan - sondern auch auf der Laufstrecke!‍ Beim diesjährigen B2Run-Firmenlauf in Karlsruhe haben unsere sportlichen Teammitglieder ihre Laufschuhe geschnürt und bewiesen was in ihnen steckt. Doch nach schweißtreibenden 5,5km rund ums Karlsruher Schloss war die Zeit letztendlich egal. ‍Was zählt, sind Teamspirit und eine Menge Spaß. Und das hatten wir garantiert!

weiterlesen →
04/2025
Katrin Schmid, ICMS GmbH
Next Level Documentation auf der Quanos Connect

Als langjähriger Partner von Quanos sind wir auch dieses Jahr wieder auf der Quanos Connect in Nürnberg dabei! Unser Referent Philipp Tschöke präsentiert Ihnen, wie Sie in Schema ST4 erfolgreich einen Workflow aufsetzen können, um jeden Tag hunderte konfigurationsrichtige Dokumente zu generieren. Er zeigt Ihnen praxisnah, worauf es wirklich ankommt: Gute Vorbereitung, durchdachte Prozesse und funktionierende Schnittstellen.

weiterlesen →