Clusteranalyse

Aus BVM Wiki

Wechseln zu: Navigation, Suche

Clusteranalyse bezeichnet ein strukturentdeckendes multivariates Verfahren der Datenanalyse, das ausgewählte Objekte bzw. Personen zu Clustern, Klassen oder Gruppen so zusammenfasst, dass zwischen Objekten derselben Klasse größtmögliche Ähnlichkeit und zwischen Objekten unterschiedlicher Klassen größtmögliche Verschiedenheit erreicht wird. Ziel ist damit die Komprimierung der Datenkomplexität. Auswertungstechnisch geht es darum, die Ähnlichkeiten der Objekte hinsichtlich aller in der Analyse einbezogenen Merkmale durch Konstruktion eines Distanzmaßes zu komprimieren und darauf aufbauend eine Zusammenfassung ähnlicher Elemente (aggregierendes Verfahren) oder eine zunehmende Aufteilung der Gesamtgruppe (divisives Verfahren) in immer kleinere Teilmengen vorzunehmen.


[bearbeiten] Prinzip

Die zu untersuchenden Objekte werden als Zufallsvariablen aufgefasst und in der Regel in Form von Vektoren als Punkte in einem Vektorraum dargestellt, deren Dimensionen die Eigenschaftsausprägungen bilden. Ein Cluster ist eine Anhäufung von Punkten (Punktwolke), wobei bei Streudiagrammen zum Beispiel die Abstände der Punkte zueinander oder die Varianz innerhalb eines Clusters als Proximitätsmaße dienen. Ein Cluster kann auch als eine Gruppe von Objekten definiert werden, die in Bezug auf einen berechneten Schwerpunkt eine minimale Abstandssumme haben. Dazu ist die Wahl eines Distanzmaßes erforderlich. In bestimmten Fällen sind die Abstände (bzw. umgekehrt die Ähnlichkeiten) der Objekte untereinander direkt bekannt, so dass sie nicht aus der Darstellung im Vektorraum ermittelt werden müssen.

Ansichten
Persönliche Werkzeuge