Definition

Metadaten

Metadaten werden häufig als Daten beschrieben, die Informationen zu anderen Daten enthalten. In der IT bezeichnet der Begriff meistens strukturierte Referenzdaten, die beim Sortieren und Identifizieren von Attributen meist unstrukturierter Daten helfen.

Meta ist ein Präfix, das – in den meisten Anwendungen der Informationstechnologie – „eine basale Definition oder Beschreibung" bedeutet. Metadaten fassen grundlegende Informationen zu Daten zusammen, die das Auffinden, Verwenden und Wiederverwenden bestimmter Dateninstanzen möglich machen. Zu diesen Informationen gehören Autor, Erstellungsdatum, Änderungsdatum und Dateigröße

Beispiele für Metadaten

Die Möglichkeit, nach Elementen anhand dieser Metadaten zu suchen, macht es für Nutzer viel einfacher, ein bestimmtes Dokument zu finden.

Neben Dokumentdateien werden Metadaten verwendet für:

Für Webseiten spielen Metadaten eine besondere Rolle. Sie enthalten Beschreibungen des Inhalts der Seite sowie mit dem Inhalt verknüpfte Schlüsselwörter. Diese Metadaten werden von Suchmaschinen häufig in den Suchergebnissen angezeigt, was bedeutet, dass ihre Genauigkeit und ihre Details beeinflussen können, ob sich ein Benutzer für den Besuch einer Website entscheidet oder nicht. Diese Informationen werden normalerweise in Form von Meta-Tags ausgedrückt.

Suchmaschinen werten Meta-Tags aus, um die Relevanz einer Webseite zu bestimmen. Bis Ende der 1990er Jahre wurden Meta-Tags als Schlüsselfaktor zur Bestimmung der Position in einer Suche verwendet. Die Zunahme der Suchmaschinenoptimierung (Search Engine Optimation, SEO) gegen Ende der 1990er Jahre führte dazu, dass viele Websites ihre Metadaten mit Keywords vollstopften, um Suchmaschinen zu täuschen, wodurch ihre Websites relevanter erscheinen als andere.

Seitdem haben Suchmaschinen ihre Abhängigkeit von Meta-Tags reduziert, obwohl sie bei der Indexierung von Seiten immer noch berücksichtigt werden. Viele Suchmaschinen versuchen gezielt, die Täuschung ihrer Algorithmen durch Seitenbetreiber zu verhindern, indem sie ihre Ranking-Kriterien regelmäßig ändern, wobei Google dafür berüchtigt ist, seine Ranking-Algorithmen häufig zu ändern.

Metadaten können manuell oder durch automatisierte Informationsverarbeitung erstellt werden. Die manuelle Variante ist in der Regel genauer, sodass der Benutzer alle Informationen eingeben kann, die seiner Meinung nach relevant sind oder die zur Beschreibung der Datei beitragen würden. Das automatische Erstellen von Metadaten ist meist eher rudimentär und zeigt normalerweise nur Informationen wie Dateigröße, Dateierweiterung, wann die Datei erstellt wurde und wer die Datei erstellt hat.

Anwendungsfälle für Metadaten

Metadaten werden jedes Mal erstellt, wenn ein Dokument, eine Datei oder ein anderer Informationsbestand geändert wird, einschließlich seiner Löschung. Genaue Metadaten können hilfreich sein, um die Lebensdauer vorhandener Daten zu verlängern, indem sie Benutzern helfen, neue Wege zu ihrer Anwendung zu finden.

Metadaten organisieren ein Datenobjekt unter Verwendung von Begriffen, die mit diesem bestimmten Objekt verknüpft sind. Außerdem können damit unähnliche Objekte identifiziert und mit ähnlichen Objekten gepaart werden, um die Nutzung von Datenbeständen zu optimieren. Wie bereits erwähnt, bestimmen Suchmaschinen und Browser, welcher Webinhalt angezeigt werden soll, indem sie die einem HTML-Dokument zugeordneten Metadaten-Tags interpretieren.

Die Sprache der Metadaten ist so geschrieben, dass sie sowohl für Computersysteme als auch für Menschen verständlich ist, ein Standardisierungsgrad, der zu einer besseren Interoperabilität und Integration zwischen unterschiedlichen Anwendungen und Informationssystemen beiträgt.

Unternehmen in den Bereichen Digital Publishing, Engineering, Finanzdienstleistungen, Gesundheitswesen und Fertigung verwenden Metadaten, um zur Verbesserung von Produkten oder Upgrade-Prozessen zu gewinnen. Zum Beispiel automatisieren Streaming-Content-Anbieter die Verwaltung von Metadaten zu geistigem Eigentum, sodass diese in einer Reihe von Anwendungen gespeichert werden können, während die Urheberrechtsinhaber geschützt und gleichzeitig Musik und Videos für authentifizierte Benutzer zugänglich gemacht werden.

Die Reife der KI-Technologien erleichtert die traditionelle Verwaltung von Metadaten etwas, indem zuvor manuelle Prozesse zum Katalogisieren und Markieren von Informationsressourcen automatisiert werden.

Geschichte und Herkunft von Metadaten

Jack E. Myers, Gründer von Metadata Information Partners (jetzt The Metadata Co.), behauptet, den Begriff 1969 geprägt zu haben. Myers meldete 1986 eine Marke für das Wort metadata ohne Bindestrich an. Trotzdem finden sich Hinweise auf den Begriff in wissenschaftliche Arbeiten, die Myers' Behauptung vorausgehen.

In einer 1967 veröffentlichten wissenschaftlichen Arbeit beschrieben die Professoren des Massachusetts Institute of Technology, David Griffel und Stuart McIntosh, Metadaten als „eine Aufzeichnung … der Datensätze“, die entsteht, wenn bibliografische Daten zu einem Thema gesammelt werden. Die Forscher kamen zu dem Schluss, dass ein "metalinguistischer Ansatz" oder "Metasprache" erforderlich ist, damit ein Computersystem diese Daten und ihren Kontext mit anderen relevanten Datenelementen richtig interpretieren kann. Im Gegensatz zu Myers behandelten Griffel und McIntosh Meta als Präfix für Daten.

Im Jahr 1964 begann Philip R. Bagley mit der Arbeit an seiner Dissertation, in der er argumentierte, dass Bemühungen, zusammengesetzte Datenelemente herzustellen, letztendlich auf der Fähigkeit beruhen, sie mit einem zweiten und verwandten Datenelement zu assoziieren, das wir als Metadatenelement bezeichnen könnten. Obwohl seine Dissertation abgelehnt wurde, hat Bagley diese Arbeit einschließlich seines Verweises auf Metadaten, anschließend als Bericht im Rahmen eines Vertrags mit dem Air Force Office of Scientific Research im Januar 1969 veröffentlicht.

Arten von Metadaten und Beispiele

Metadaten werden je nach ihrer Funktion kategorisiert.

  • Mit administrativen Metadaten können Administratoren Regeln und Einschränkungen für den Datenzugriff und die Benutzerberechtigungen festlegen. Sie liefern auch Informationen zu erforderlichen Wartungs- und Verwaltungsaufgaben an Datenressourcen. Verwaltungsmetadaten werden häufig im Rahmen der laufenden Forschung verwendet und umfassen Details wie Erstellungsdatum, Dateigröße und -typ sowie Archivierungsanforderungen.
  • Beschreibende Metadaten identifizieren spezifische Merkmale eines Datenelements, wie zum Beispiel bibliografische Daten, Schlüsselwörter, Songtitel, Bandnummern und so weiter.
  • Legale Metadaten enthalten Informationen zur Lizenzierungen wie Urheberrechte, Lizenzen und Tantiemen.
  • Beibehaltungsmetadaten leiten die Platzierung eines Datenelements innerhalb eines hierarchischen Rahmens oder einer Sequenz.
  • Prozessmetadaten beschreiben Verfahren zum Sammeln und Behandeln statistischer Daten. Statistische Metadaten ist ein anderer Begriff für Prozessmetadaten.
  • Provenienzmetadaten, verfolgen die Karriere eines Datenelements, während es sich durch eine Organisation bewegt. Originaldokumente werden mit Metadaten kombiniert, um die Gültigkeit der Daten sicherzustellen oder Fehler in der Datenqualität zu korrigieren. Die Überprüfung der Provenienz ist eine gängige Praxis in der Data Governance.
  • Referenzmetadaten beziehen sich auf Informationen, welche die Qualität statistischer Inhalte beschreiben.
  • Statistische Metadaten beschreiben Daten, die es Benutzern ermöglichen, Statistiken aus Berichten, Umfragen und Kompendium richtig zu interpretieren und zu verwenden.
  • Strukturelle Metadaten zeigen, wie verschiedene Elemente eines zusammengesetzten Datenobjekts zusammengesetzt werden. Strukturelle Metadaten werden häufig in digitalen Medieninhalten verwendet, um Beispiel um zu beschreiben, wie Seiten in einem Hörbuch zu einem Kapitel organisiert werden sollten und wie Kapitel zu Bänden organisiert werden sollten und so weiter. Der Begriff technische Metadaten ist ein Synonym, das meist im Zusammenhang mit digitalen Bibliotheken verwendet wird.
  • Nutzungsmetadaten sind Daten, die bei jedem Zugriff eines Benutzers sortiert und analysiert werden. Anhand solcher Daten können Unternehmen Trends im Verhalten der Kunden erkennen und ihre Produkte und Dienstleistungen leichter an deren Bedürfnisse anpassen.

Wie man Metadaten effektiv nutzt

Anwendungsfälle für MetdatenAbbildung 1: Metadaten sind in vielen Kontexten hilfreich.

Das beschleunigte Datenwachstum hat ein neues Interesse am potenziellen Geschäftswert von Metadaten geweckt. Es gibt eine Vielzahl von Datenstrukturen, die sowohl Chancen als auch Herausforderungen bergen.

Das Metadatenmanagement bietet einen organisatorischen Rahmen, um disparate Datensätze, die in verschiedenen Systemen gespeichert sind, zu harmonisieren. Dadurch lässt sich außerdem gewährleisten, dass Geschäfts- Betriebs- und technische Daten über Abteilungen hinweg in der gleichen Sprache beschrieben sind – und damit leichter vergleichbar.

Unternehmen implementieren Metadatenmanagement, um ältere Daten auszusortieren und eine Taxonomie zu entwickeln, anhand derer sie Daten nach ihrem Geschäftswert klassifizieren. Dazu gehört auch ein Katalog oder eine zentrale Datenbank, die als Metadaten-Repository, auch Data Dictionary genannt, dient.

Neben der Klassifizierung von Daten benötigen Unternehmen Metadatenmanagementstrategien, um die Datenanalyse zu verbessern, eine Data-#Governance-Richtlinie zu entwickeln und einen Audit-Trail für die Einhaltung gesetzlicher Vorschriften zu erstellen.

Im Kern geht es beim Metadatenmanagement darum, dass Menschen über eine webbasierte Benutzeroberfläche Attribute eines bestimmten Datenelements identifizieren können. Zu diesen Attributen gehören der Name der Datei, ihr Autor, eine Kunden-ID und so weiter. Die Person, die das Dokument anfordert, kann somit die verschiedenen Attribute der Daten, das Unternehmenssystem, in dem sie sich befinden, und die Gründe für die Erstellung dieser Attribute sehen und verstehen.

Standardisierung von Metadaten

Es wurden eine Reihe von Industriestandards entwickelt, um mehr Nutzen aus Metadaten zu ziehen. Diese Standards erreichen eine Konsistenz bei Sprache, Format, Rechtschreibung und anderen Attributen, die beim Beschreiben von Daten verwendet werden. Jeder Standard basiert auf einem spezifischen Schema, das eine übergreifende Struktur für alle seine Metadaten bietet.

Beliebte Standards für Metadaten
Abbildung 2: Es gibt verschiedene Standards für Metadatenformate, je nach Anwendungsszenario.

Dublin Core ist ein weit verbreiteter allgemeiner Standard, der ursprünglich entwickelt wurde, um die Indexierung von physischen Bibliotheksausweiskatalogen zu unterstützen. Der Standard wurde inzwischen für webbasierte digitale Metadaten angepasst. Dublin Core beschreibt die Attribute von 15 Kerndatenelementen: Titel, Ersteller, Betreff, Beschreibung, Herausgeber, Mitwirkende, Datum, Typ, Format, Kennung, Quelle, Sprache, Beziehung, Abdeckung und Rechteverwaltung.

Ein ähnlicher bibliografischer Metadatenstandard ist Metadata Objects Description Schema, ein XML-basiertes Schema für Bibliotheken, das vom Network and Standards Development Office der U.S. Library of Congress als Nachfolger der in den 1960er Jahren entwickelten Standards für maschinenlesbare Kataloge hervorgebracht wurde.

Ein neuerer Standard, schema.org, basiert auf Open-Source-Software, die eine Sammlung von Metadaten-Schemata bereitstellt, die auf strukturierte Internetdaten, E-Mails und andere Formen digitaler Daten ausgerichtet sind.

Branchenspezifische Metadatenschemata

Es wurde eine Reihe von Standard-Metadatenschemata entwickelt, um die einzigartigen Anforderungen bestimmter Disziplinen und Branchen zu erfüllen.

Kunst und Geisteswissenschaften:

  • Die Text Encoding Initiative ist ein Konsortium von Institutionen, das Standards entwickelt, die Kodierungsmethoden für die Darstellung von maschinenlesbarem Text in digitaler Form spezifizieren.
  • VRA Core, gemeinsam entwickelt von der Library of Congress und der Visual Resources Association, ist ein Datenstandard für die Beschreibung von Werken der visuellen Kultur sowie der sie dokumentierenden Bilder.

Kultur und Gesellschaft:

  • Die Data Documentation Initiative standardisiert Beschreibungen von Daten, die in der Verhaltenswissenschaft und verwandten Disziplinen verwendet werden.
  • Open Archives Language Community versucht basierend auf Dublin Core ein weltweites virtuelles Repository von Sprachressourcen zu entwickeln.

Naturwissenschaft:

  • Darwin Core dient dem Austausch von Informationen über biologische Proben.
  • Ecological Metadata Language ist ein lesbares XML-Markup-Format für den Austausch von Daten zu Geowissenschaften.
Diese Definition wurde zuletzt im August 2021 aktualisiert

Erfahren Sie mehr über IT-Berufe und Weiterbildung

ComputerWeekly.de
Close