info@comelio.com

  • Berlin, Germany
    Comelio GmbH
    Fon: +49.30.8145622.00
    Fax: +49.30.8145622.10

  • Miami, USA
    Comelio, Inc. (Regus)
    Fon: +1.305.395.7962
    Fax: +1.305.395.7964

  • Chennai, India
    Comelio Business Solutions Pvt. Ltd.
    Fon: +9144.420.13545
    Fax: +91.44.420.13551

Modelle und Strukturen

Miningmodelle

In diesem Abschnitt wird die grundlegende Architektur eines Data Mining-Modells erklärt, eine Übersicht über die Eigenschaften eines Data Mining-Modells gegeben und beschrieben, wie man ein Miningmodell erstellt und damit arbeitet.

Architektur des Miningmodells

Ein Data Mining-Modell erhält Daten aus einer Miningstruktur und analysiert diese Daten durch die Verwendung eines Data Mining-Algorithmus. Die Miningstruktur und das Miningmodell sind separate Objekte. Die Miningstruktur speichert Informationen, die die Datenquelle definieren. Ein Miningmodell speichert Informationen, die aus der statistischen Verarbeitung der Daten herrühren, beispielsweise die als Ergebnis der Analyse gefundenen Muster.

Ein Miningmodell ist leer, bis die Daten, die von der Miningstruktur bereitgestellt werden, verarbeitet und analysiert wurden. Nachdem ein Miningmodell verarbeitet wurde, enthält es Metadaten, Ergebnisse und Bindungen zur Miningstruktur.

Miningmodellinhalt

Die Metadaten legen den Namen des Modells und des Servers, auf dem es gespeichert ist, und eine Definition des Modells fest, einschließlich einer Liste der Spalten aus der Miningstruktur, die bei der Erstellung des Modells herangezogen wurden, der Definitionen der optionalen Filter, die bei der Verarbeitung des Modells angewandt wurden, und eines Algorithmus, der für die Analyse der Daten verwendet wurde. Die Auswahl von Spalten, Filtern und Algorithmus hat beträchtliche Auswirkungen auf die Ergebnisse der Analyse. Wenn Sie beispielsweise ein Clusteringmodell und ein Entscheidungsstrukturmodell bei Verwendung der gleichen Daten erstellen, kann der Modellinhalt sehr unterschiedlich ausfallen, da diese Modelle unterschiedliche Algorithmen und Filter verwenden.

Die im Modell gespeicherten Ergebnisse unterscheiden sich in Abhängigkeit vom Algorithmus, aber können Muster, Itemsets, Regeln und Formeln enthalten. Diese Ergebnisse können zum Treffen von Vorhersagen verwendet werden.

Die im Modell gespeicherten Bindungen verweisen auf die in der Miningstruktur zwischengespeicherten Daten zurück. Wenn die Daten in der Struktur zwischengespeichert und nach der Verarbeitung nicht bereinigt wurden, können Sie über diese Bindungen einen Drillthrough von den Ergebnissen zu den Fällen durchführen, die die Ergebnisse unterstützen. Aber die tatsächlichen Daten werden im Strukturcache, nicht im Modell, gespeichert.

Definition von Data Mining-Modellen

Ein Data Mining-Modell kann über die folgenden Schritte erstellt werden:

  • Erstellen sie die zugrunde liegende Miningstruktur.
  • Wählen Sie einen Algorithmus aus.
  • Legen Sie die Modellspalten und die Verwendung der Spalten fest.
  • Legen Sie optional Parameter fest, die die Verarbeitung durch den Algorithmus optimieren.
  • Verarbeiten Sie das Modell.

Analysis Services stellt die folgenden Tools bereit, um die Verwaltung Ihrer Miningmodelle zu unterstützen:

  • Der Data Mining-Assistent unterstützt Sie bei der Erstellung einer Struktur und des zugehörigen Miningmodells. Dies ist die leichteste Vorgehensweise. Der Assistent erstellt automatisch die erforderliche Miningstruktur und unterstützt Sie bei der Konfiguration der wichtigen Einstellungen.
  • Eine DMX CREATE MODEL-Anweisung kann verwendet werden, um ein Modell zu definieren. Die erforderliche Struktur wird automatisch als Teil des Prozesses erstellt. Daher können Sie eine bestehende Struktur mit dieser Methode nicht erneut verwenden. Verwenden Sie diese Methode, wenn Sie bereits wissen, welches Modell Sie erstellen möchten.
  • Eine DMX ALTER STRUCTURE ADD MODEL-Anweisung kann verwendet werden, um ein neues Miningmodell zu einer bestehenden Struktur hinzuzufügen. Verwenden Sie diese Methode, wenn Sie mit unterschiedlichen Modellen experimentieren möchten, die auf dem gleichen Dataset basieren.

Darüber hinaus können Sie Miningmodelle programmgesteuert über AMO oder XML/A oder über den Einsatz anderer Clients, wie dem Data Mining-Client für Excel, erstellen.

Miningmodelleigenschaften

Jedes Miningmodell verfügt über Eigenschaften, die das Modell und seine Metadaten definieren. Hierzu gehören zum Beispiel Name, Beschreibung, Datum der letzten Verarbeitung des Modells, Berechtigungen für das Modell und jegliche Filter auf den Daten, die für das Training verwendet werden.

Jedes Miningmodell verfügt darüber hinaus über Eigenschaften, die sich aus der Miningstruktur ableiten und die vom Modell verwendeten Datenspalten beschreiben. Wenn es sich bei der Spalte um eine geschachtelte Tabelle handelt, kann auf die Spalte auch ein separater Filter angewandt sein.

Zusätzlich enthält jedes Miningmodell zwei besondere Eigenschaften: Algorithm und Usage.

  • Algorithmus-Eigenschaft  Legt den Algorithmus fest, der zur Erstellung des Modells verwendet wird. Die verfügbaren Algorithmen hängen von Ihrem Anbieter ab. Die Algorithm-Eigenschaft gilt für das Miningmodell und kann für jedes Modell nur einmal festgelegt werden. Sie können den Algorithmus zu einem späteren Zeitpunkt ändern, aber einige Spalten im Miningmodell werden möglicherweise ungültig, wenn sie vom ausgewählten Algorithmus nicht unterstützt werden. Darüber hinaus müssen Sie im Anschluss an die Änderungen das Modell immer erneut verarbeiten.
  • Usage-Eigenschaft  Definiert die Verwendung der einzelnen Spalten durch das Modell. Sie können die Spaltenverwendung als Input, Predict, Predict Only oder Key. Die Usage-Eigenschaft gilt für einzelne Spalten des Miningmodells und muss für jede in einem Modell enthaltene Spalte separat festgelegt werden. Wenn die Struktur eine Spalte enthält, die Sie im Modell nicht verwenden möchten, wird die Verwendung auf Ignore festgelegt.

Sie können die Werte der Eigenschaften des Miningmodells nach der Erstellung eines Miningmodells ändern. Allerdings erfordert jede Änderung, auch die des Namens des Miningmodells, eine erneute Verarbeitung des Modells. Nachdem Sie das Modell erneut verarbeitet haben, könnten Sie andere Ergebnisse sehen.

Miningmodellspalten

Wie die Miningstruktur enthält das Miningmodell Spalten. Sie können auswählen, welche Spalten aus der Miningstruktur im Modell verwendet werden sollen. Zusätzlich zur Verwendung der Spalten in der zugrunde liegenden Miningstruktur können Sie Kopien der Miningstrukturspalten erstellen und diese dann umbenennen oder ihre Nutzung ändern.

Abhängig von dem von Ihnen ausgewählten Algorithmus können einige Spalten in der Miningstruktur inkompatibel mit dem Modell sein oder zu schlechten Ergebnissen führen. Sie sollten die Daten in der Struktur sorgfältig prüfen und nur die Spalten in das Modell einbeziehen, die für die Analyse hilfreich sind. Wenn Sie der Meinung sind, dass eine Spalte nicht verwendet werden sollte, müssen Sie diese nicht aus der Miningstruktur oder dem Miningmodell löschen, sondern können stattdessen die Spalte mit einem Flag versehen, das festlegt, dass diese Spalte bei der Erstellung des Modells ignoriert werden soll. Dies bedeutet, dass die Spalte in der Miningstruktur erhalten bleibt, aber nicht im Miningmodell verwendet wird. Allerdings können Sie die Informationen aus der Spalte zu einem späteren Zeitpunkt abfragen, wenn Drillthrough vom Modell zur Miningstruktur aktiviert ist.

Nach der Erstellung des Modells können Sie Änderungen vornehmen. Hierzu gehören zum Beispiel das Hinzufügen oder Löschen von Spalten oder das Ändern des Modellnamens. Allerdings erfordern alle Änderungen, auch solche, die ausschließlich an den Modellmetadaten vorgenommen werden, eine erneute Verarbeitung des Modells.

Verarbeiten von Miningmodellen

Beim Data Mining-Modell handelt es sich bis zu seiner Verarbeitung um ein leeres Objekt. Bei der Verarbeitung eines Modells werden die Daten, die von der Struktur zwischengespeichert werden, durch einen Filter geschickt, falls einer im Modell definiert wurde, und durch den Algorithmus analysiert. Der Algorithmus identifiziert die Regeln und Muster innerhalb der Daten und verwendet diese dann zum Auffüllen des Modells.

Nach seiner Verarbeitung speichert das Miningmodell auch Informationen über die Ergebnisse der Analyse.

Anzeigen und Abfragen von Miningmodellen

Nachdem Sie ein Data Mining-Modell verarbeitet haben, können Sie dies anhand der in Business Intelligence Development Studio oder SQL Server Management Studio verfügbaren benutzerdefinierten Viewer durchsuchen.

Darüber hinaus können Sie Abfragen des Miningmodells erstellen, um entweder Vorhersagen zu treffen oder Modellmetadaten oder vom Modell erstellte Muster abzufragen. Abfragen werden über Data Mining-Erweiterungen (DMX; Data Mining Extensions) erstellt.

Miningstrukturen

In der Miningstruktur werden die Daten definiert, aus denen Miningmodelle erstellt werden. Es wird die Quelldatensicht, die Anzahl und der Typ von Spalten sowie eine optionale Partitionierung in Trainings- und Testsätze angegeben. Eine einzelne Miningstruktur kann mehrere Miningmodelle unterstützen, die die gleiche Domäne verwenden. In der folgenden Abbildung ist die Beziehung der Data Mining-Struktur zur Datenquelle und zu den dazugehörigen Data Mining-Modellen dargestellt.

Beziehung der Data Mining-Struktur zur Datenquelle und zu den dazugehörigen Data Mining-Modellen

Die Miningstruktur in der Abbildung basiert auf einer Datenquelle, die mehrere Tabellen oder Sichten enthält, die über das Feld CustomerID verknüpft sind. Eine Tabelle enthält Informationen zu Kunden, wie geografische Region, Alter, Einkommen und Geschlecht, während die dazugehörige geschachtelte Tabelle mehrere Zeilen mit Zusatzinformationen zu den einzelnen Kunden enthält, z. B. vom Kunden gekaufte Produkte. Die Abbildung zeigt, dass mehrere Modelle für eine Miningstruktur erstellt werden können und dass die Modelle unterschiedliche Spalten der Struktur verwenden können.

Modell 1  Verwendet CustomerID, Einkommen, Alter, Region und filtert die Daten nach der Region.
Modell 2  Verwendet CustomerID, Einkommen, Alter, Region und filtert die Daten nach dem Alter.
Modell 3  Verwendet CustomerID, Alter, Geschlecht und die geschachtelte Tabelle ohne Filter.

Da die Modelle unterschiedliche Spalten als Eingabe verwenden und zwei Modelle die im Modell verwendeten Daten mithilfe von Filtern zusätzlich beschränken, können die Modelle stark unterschiedliche Ergebnisse aufweisen, obwohl sie auf denselben Daten basieren. Beachten Sie, dass die Spalte CustomerID in allen Modellen erforderlich ist, da es sich um die einzige Spalte handelt, die als Fallschlüssel verwendet werden kann.

Definieren von Miningstrukturen

Zum Einrichten einer Data Mining-Struktur müssen folgende Schritte ausgeführt werden:

  • Definieren einer Datenquelle
  • Auswählen von Strukturspalten und Definieren eines Schlüssels
  • Partitionieren von Quelldaten in einen Trainingssatz und einen optionalen Testsatz
  • Verarbeiten der Struktur

Datenquellen für Miningstrukturen  Beim Definieren einer Miningstruktur können Sie Spalten verwenden, die einer vorhandenen Datenquellensicht verfügbar sind. Mithilfe einer Datenquellensicht können Sie mehrere Datenquellen miteinander verbinden und diese in der erstellten Struktur oder im Miningmodell als eine einzelne Datenquelle verwenden. Die ursprünglichen Datenquellen für Clientanwendungen nicht sichtbar.

Wenn Sie mehrere Miningmodelle aus der gleichen Miningstruktur erstellen, können in den Modellen unterschiedliche Spalten aus der Struktur in unterschiedlicher Weise verwendet werden. Sie können z. B. eine einzelne Struktur erstellen und dann auf deren Grundlage separate Entscheidungsstruktur- und Clusteringmodelle erstellen, wobei in jedem Modell unterschiedliche Spalten verwendet und verschiedene Attribute vorhergesagt werden.

Die Data Mining-Struktur speichert nur die Bindungen zu den Quelldaten.

Miningstrukturspalten  Die Grundbausteine der Miningstruktur sind die Miningstrukturspalten, die die in der Datenquelle enthaltenen Daten beschreiben. Diese Spalten enthalten Informationen, z. B. über den Datentyp, den Inhaltstyp und die Verteilung der Daten. In der Miningstruktur sind keine Informationen über die Verwendung der Spalten für bestimmte Miningmodelle enthalten, und auch keine Informationen über den Algorithmustyp, der zum Erstellen eines Modells verwendet wird. Diese Informationen werden im Miningmodell selbst definiert.

Eine Miningstruktur kann auch geschachtelte Tabellen enthalten. Eine geschachtelte Tabelle stellt eine 1:n-Beziehung zwischen der Entität eines Falls und der damit verknüpften Attribute dar. Bei Informationen beispielsweise, die beschreiben, dass sich ein Kunde in einer Tabelle und die Einkäufe des Kunden in einer anderen Tabelle befinden, können Sie geschachtelte Tabellen verwenden, um die Informationen in einem einzelnen Fall zu kombinieren. Der Kundenbezeichner ist die Entität, und die Einkäufe sind die verknüpften Attribute.

Um in Business Intelligence Development Studio ein Data Mining-Modell zu erstellen, müssen Sie zunächst eine Data Mining-Struktur erstellen. Der Data Mining-Assistent führt Sie durch die Erstellung einer Data Mining-Struktur, die Datenauswahl und das Hinzufügen eines Miningmodells.

Wenn Sie mithilfe der Data Mining-Erweiterungen (DMX) ein Miningmodell erstellen, können Sie das Modell und die darin enthaltenen Spalten angeben. DMX erstellt dann automatisch die erforderliche Data Mining-Struktur.

Trainings- und Testdaten  Wenn Sie die Daten für die Miningstruktur definieren, können Sie auch angeben, dass einige Daten für Trainings- und andere für Testzwecke verwendet werden sollen. Daher ist es nicht mehr erforderlich, die Daten vor der Erstellung einer Data Mining-Struktur zu partitionieren. Sie können angeben, dass ein bestimmter Prozentsatz der Daten für Testzwecke zurückgehalten und der Rest zum Training verwendet werden soll, oder Sie können eine bestimmte Anzahl von Fällen als Testdataset angeben. Die Partitionsinformationen werden mit der Miningstruktur zwischengespeichert. Daher kann der gleiche Testsatz mit allen Modellen verwendet werden, die auf dieser Struktur basieren.

Aktivieren von Drillthrough  Sie können der Miningstruktur Spalten hinzufügen, auch wenn Sie nicht beabsichtigen, die betreffenden Spalten in einem bestimmten Miningmodell zu verwenden. Wenn Sie keine Verwendung für eine Spalte angeben, wird die Spalte bei der Analyse und Vorhersage ignoriert. Sie kann jedoch trotzdem in Abfragen verwendet werden, wenn Sie Drillthrough für das Miningmodell aktivieren. Wenn Sie über die erforderlichen Berechtigungen verfügen, können Sie z. B. einen Drillthrough von einem bestimmten Ergebnis in einem Miningmodell ausführen, um detaillierte Informationen zu den Fällen in diesem Knoten abzurufen. Sie können sogar auf Strukturspalten zugreifen, die im Modell nicht verwendet wurden.

Verarbeiten von Miningstrukturen  Eine Miningstruktur ist bis zu ihrer Verarbeitung lediglich ein Metadatencontainer. Beim Verarbeiten einer Miningstruktur erstellt Analysis Services einen Cache, in dem statistische Informationen zu den Daten, Informationen zur Diskretisierung kontinuierlicher Attribute sowie weitere Informationen gespeichert werden, die später von Modellen verwendet werden. Das Miningmodell selbst speichert keine Daten, sondern verweist auf die Informationen im Cache. Wenn Sie ein Miningmodell verarbeiten, muss der Strukturcache verfügbar sein. Falls die Struktur nicht verfügbar ist, muss sie neu verarbeitet werden, bevor das Modell erstellt werden kann.

Wenn keine Daten zwischengespeichert werden sollen, können Sie die CacheMode-Eigenschaft der Miningstruktur in ClearAfterProcessing ändern. Der Cache wird dann gelöscht, nachdem alle Modelle verarbeitet wurden. Wenn Sie die CacheMode-Eigenschaft auf ClearAfterProcessing setzen, wird der Drillthrough des Miningmodells deaktiviert.

Solange die im Cache gespeicherten Daten verfügbar sind, muss die Miningstruktur nicht erneut verarbeitet werden, wenn Sie dieser ein neues Miningmodell hinzufügen. Sie können nur das Modell verarbeiten.

Anzeigen von Miningstrukturen  Sie können keine Viewer verwenden, um die Daten in einer Miningstruktur zu durchsuchen. In Business Intelligence Development Studio können Sie allerdings die Registerkarte Miningstruktur im Data Mining-Designer verwenden, um die Strukturspalten und deren Definitionen anzuzeigen.

Wenn Sie die Daten in der Miningstruktur überprüfen möchten, können Sie mithilfe der Data Mining-Erweiterungen (DMX) Abfragen erstellen. So gibt zum Beispiel die Anweisung SELECT * FROM <structure> .CASES alle Daten in der Miningstruktur zurück. Zum Abrufen dieser Informationen muss die Miningstruktur verarbeitet und die Ergebnisse der Verarbeitung müssen zwischengespeichert worden sein.

Die Anweisung SELECT * FROM <model>.CASES gibt die gleichen Spalten zurück, aber nur für die Fälle in dem betreffenden Modell.

Verwenden von Data Mining-Modellen mit Miningstrukturen

Ein Data Mining-Modell wendet einen Miningmodellalgorithmus für die Daten an, welcher durch eine Miningstruktur dargestellt wird. Ein Miningmodell ist ein Objekt, das einer bestimmten Miningstruktur angehört. Es erbt alle Werte der durch die Miningstruktur definierten Eigenschaften. Das Modell kann alle Spalten oder eine Teilmenge der Spalten der Miningstruktur enthalten. Sie können einer Struktur mehrere Kopien einer Strukturspalte hinzufügen. Außerdem können Sie einem Modell mehrere Kopien einer Strukturspalte hinzufügen und dann den einzelnen Strukturspalten im Modell verschiedene Namen, so genannte Aliase, zuweisen.