Statistics Toolbox

Multivariate Statistik

Multivariate Statistik stellt Algorithmen und Funktionen zur Analyse von mehrfachen Variablen zur Verfügung. Üblicherweise beinhalten Anwendungen Verringerung der Dimensionalität durch Eigenschaftstransformation und Eigenschaftsauswahl sowie Untersuchung der Beziehungen zwischen Variablen mithilfe von Visualisierungstechniken wie Scatter-Plot-Matrizen und klassischer mehrdimensionaler Skalierung.

Angleichung einer orthogonalen Regression mit der Hauptkomponentenanalyse (Beispiel)
Implementierung der Deming-Regression (Total Least Squares).

Eigenschaftstransformation

Die Eigenschaftstransformation (manchmal auch als Merkmalsextraktion bezeichnet) ist eine Technik zur Verringerung der Dimensionalität, mit der bestehende Merkmale in neue Merkmale (Prädiktorvariablen) umgewandelt werden, wobei weniger aussagekräftige Merkmale weggelassen werden können. Die Toolbox bietet die folgenden Ansätze zur Eigenschaftstransformation:

Partial Least Squares Regression und Principal Components Regression (Beispiel)
Modell einer Antwortvariablen in Gegenwart von hoch korrelierten Prädiktoren.

Merkmalsauswahl

Merkmalsauswahl ist eine Technik zur Verringerung der Dimensionalität, bei der nur die Teilmenge der gemessenen Merkmale (Prädiktorvariablen) ausgewählt wird, die bei Modellierung der Daten die beste Vorhersage bietet. Sie ist nützlich, wenn Sie mit hochdimensionalen Daten arbeiten oder das Erfassen von Daten für alle Merkmale zu kostenintensiv ist.

Methoden der Merkmalsauswahl:

  • Die schrittweise Regression fügt Merkmale schrittweise hinzu oder entfernt sie, bis sich die Vorhersagegenauigkeit nicht mehr verbessert; sie kann zusammen mit linearen Regressions- oder generalisierten linearen Regressionsalgorithmen verwendet werden.
  • Die sequentielle Merkmalsauswahl ist der schrittweisen Regression ähnlich und kann zusammen mit jedem Algorithmus für überwachtes maschinelles Lernen und einem benutzerdefinierten Leistungsmaß verwendet werden.
  • Die Regularisierung (Lasso und elastisches Netz) nutzt Schrumpfungsschätzfunktionen zur Entfernung von redundanten Merkmalen, indem ihre Gewichtungen (Koeffizienten) auf null reduziert werden.

Die Merkmalsauswahl kann wie folgt verwendet werden:

  • Verbesserung der Genauigkeit eines Algorithmus für maschinelles Lernen
  • Leistungssteigerung bei sehr hochdimensionalen Daten
  • Verbesserung der Interpretierbarkeit des Modells
  • Verhinderung von Überanpassung

Auswahl von Merkmalen zur Klassifizierung von hochdimensionalen Daten (Beispiel)
Auswahl von wichtigen Merkmalen zur Krebserkennung.

Multivariate Visualisierung

Statistics Toolbox bietet Graphen und Tabellen, mit denen Sie multivariate Daten visuell untersuchen können, darunter sind:

  • Scatter-Plot-Matritzen
  • Dendrogramme
  • Biplots
  • Parallel-Koordinaten-Tabellen
  • Andrews-Diagramme
  • Glyph-Diagramme
Gruppen-Scatter-Plot-Matrix, die zeigt, wie das Modelljahr die unterschiedlichen Variablen beeinflusst.

Gruppen-Scatter-Plot-Matrix, die zeigt, wie das Modelljahr die unterschiedlichen Variablen beeinflusst.

Biplot, das die ersten drei Lasten einer Hauptkomponentenanalyse zeigt.

Biplot, das die ersten drei Lasten einer Hauptkomponentenanalyse zeigt.

Andrews-Diagramm, das die Auswirkung des Ursprungslandes auf die Variablen zeigt.

Andrews-Diagramm, das die Auswirkung des Herkunftslandes auf die Variablen zeigt.

Weiter: Wahrscheinlichkeitsverteilungen

Probieren Sie Statistics Toolbox

Testsoftware anfordern

Machine Learning with MATLAB

Webinar anzeigen