Grenzen von XML Schema

Datenspeicherung, Datenhaltung, Datenbeschaffung und Datenanalysen sind zu einem vielfältigen Betätigungsfeld aller möglicher Berufsgruppen und vieler verschiedener Fachdisziplinen im betrieblichen, d.h. erwerbswirtschaftlichen, wie auch im nicht-erwerbwirtschaftlichen Bereich geworden. Nicht mehr nur sind es die Universitäten und Forschungseinrichtungen, die selbstverständlich mit der Datenverwaltung (hier als Oberbegriff der eingangs genannten Begriffe zu verstehen) arbeiten und aus diesen Daten Informationen und schließlich Wissen generieren. Es sind auch nicht mehr nur die Behörden und Ämter, welche aus Gründen der Kontrolle, Überwachung, Steuerung und Analyse Daten verschiedenster Art beschaffen und verarbeiten. Gerade sind es auch die Unternehmen, welche erkannt haben, dass Daten nicht nur für die direkte Produktion, für die Anwendung, Verfeinerung und Entwicklung von neuen Produktionstechniken oder für die Ableitung von neuen Dienstleistungs- oder Beratungstechniken und Managementkonzepten, sowie für deren Überwachung und erfolgreichen Einsatz in vielfältiger Art notwendig sind. Gerade die erwerbswirtschaftlich ausgerichteten Unternehmen sind auf eine effiziente und strukturierte Nutzung von Informationen angewiesen.

Typische Beispiele sind Content Management Systeme für die Bereithaltung, Aufnahme und Bearbeitung von Daten für Webseiten, Kataloge und alle möglichen Arten von Bildschirm- und Druckerzeugnissen aus einer gemeinsamen Datenbasis heraus, oder Konkurrenzbeobachtungssysteme für die Beschreibung, Bewertung und Erklärung von Tätigkeiten der nächsten und näheren Konkurrenz, Marktanalysen für die Beobachtung der allgemeinen Markttendenzen, Verbraucherurteile und –motive, Kontroll- und Überwachungssysteme für Qualität der betrieblichen Produktion oder der Kundenreaktionen auf Produkte und Dienstleistungen, Wissenssysteme für die Speicherung von Unternehmenswissen und die Ableitung von Regeln und neuen Erkenntnissen, die teilweise mit anderen, gerade genannten Bereichen in Verbindung stehen, oder schließlich eine elektronische oder hybride Speicherung von Handbüchern, Dokumentationen und dem Unternehmenswissen, welches für die tägliche Arbeit des Personals ständig bereit stehen sollte. Für die genannten Beispiele stehen Datenbanken der verschiedenen Hersteller wie Oracle, IBM oder Microsoft mit unterschiedlichen Funktionalitäten und zu sehr verschiedenen Preisen zur Verfügung, die klassisch-relationale Informationen genauso speichern können wie Binärdaten in Form von Audio-, Text- und Videodateien, diese mit entsprechenden Algorithmen untersuchen und verarbeiten können, oder die reine Textdokumente in geeigneten XML-Strukturen objektrelational oder nativ speichern können.

Eine neue Herausforderung stellt sich für die Unternehmen dadurch, dass Daten genutzt werden sollen, die gerade nicht strukturiert in einer Datenbank in Form von einzelnen atomisierten Feldern mit einem bestimmten Datentyp vorliegen, sondern auch unstrukturierte bzw. mehrstufig strukturierte Informationen wie z.B. Texte durchsucht und ausgewertet werden sollen. Zwar unterstützen Datenbanken aller Preiskategorien bereits Volltextsuchmechanismen, welche über die Möglichkeiten von Standard-SQL hinausgehen, doch sind diese Mechanismen nicht immer geeignet, tatsächlich relevante Informationen aus Texten auszufiltern. Schon gar nicht sind sie in der Lage, Ähnlichkeiten und Beziehungen zwischen Informationsbestandteilen auszuwerten und dadurch entweder die Treffermenge qualitativ zu beeinflussen – also mehr relevante Ergebnisse zu beschaffen – oder gar neues Wissen zu generieren. Dies meint, dass ein klassischer Volltextsuchmechanismus zwar anhand der Häufigkeit der Suchbegriffe in einem Dokument seine mögliche Relevanz für die Suche berechnen kann, aber nicht mehr bewirken kann als die Dokumente zu finden und sie für eine Lektüre oder automatisierte Verarbeitung bereitzustellen. Diese Grenzen sollen mit Hilfe der Datenmodellierung, dem Einsatz von Ontologien und unter Verwendung von XML-Strukturen bzw. damit auch öffentlichen und nicht herstellergebundenen Techniken überwunden werden.