Linear Regression

Was ist die lineare Regression?

Die lineare Regression ist eine statistische Modellierungsmethode, um eine kontinuierliche abhängige Variable als Funktion von einer oder mehreren Prädiktorvariablen zu beschreiben. Sie kann helfen, das Verhalten von komplexen Systemen zu verstehen und vorherzusagen oder experimentelle, finanzielle und biologische Daten zu analysieren.

Verfahren der linearen Regression werden verwendet, um ein lineares Modell zu erstellen. Das Modell beschreibt die Beziehung zwischen einer abhängigen Variable \(y\) (auch als Reaktion bezeichnet) als eine Funktion aus einer oder mehreren unabhängigen Variablen \(X_i\) (als Prädiktoren bezeichnet). Die allgemeine Gleichung für ein lineares Regressionsmodell sieht folgendermaßen aus:

\[Y = \beta_0 + \sum \ \beta_k X_k + \epsilon_i\]

wobei \(\beta\) die linearen Parameter-Schätzungen darstellt, die berechnet werden müssen, und \(\epsilon\) die Fehlerkomponenten darstellt.

Arten linearer Regressionsmodelle

Einfache lineare Regression: Modelle mit nur einem Prädiktor. Die allgemeine Gleichung lautet:

\[Y = \beta_0 + \beta_1 X+ \epsilon\]

Diagramm mit linearer Regressionslinie, Rückmeldewerten (tödliche Verkehrsunfälle pro Staat) und Prädiktorwerten (Einwohnerzahl des Staats).

Einfaches Beispiel für eine lineare Regression zur Vorhersage der Anzahl tödlicher Verkehrsunfälle in einem Bundesstaat (Reaktionsvariable, \(Y\)) im Vergleich zur Bevölkerung des Bundesstaats (Prädiktorvariable, \(X\).). (Sehen Sie sich das MATLAB®-Codebeispiel und die Verwendung des mldivide-Operators zur Schätzung der Koeffizienten für eine einfache lineare Regression an.)

Mehrfache lineare Regression: Modelle mit mehreren Prädiktoren. Diese Regression hat mehrere \(X_i\), um die Reaktion \(X\) vorherzusagen. Ein Beispiel dieser Gleichung sieht folgendermaßen aus:

\[Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2+ \epsilon\]

Diagramm mit mehreren linearen Regressionen, Rückmeldewerten (Kraftstoffverbrauch) und Prädiktorwerten (Gewicht und Leistung).

Beispiel für eine mehrfache lineare Regression, die den Benzinverbrauch (l/100km) verschiedener Autos (Reaktionsvariable, \(Y\)) basierend auf Gewicht und PS (Prädiktorvariablen, \(X_j\)) vorhersagt. (Sehen Sie sich das Beispiel für MATLAB Programmcode an und lernen Sie, wie die Funktion regress verwendet und die Bedeutung der mehrfachen linearen Regressionsbeziehung bestimmt wird.)

Multivariate lineare Regression: Modelle für mehrere Reaktionsvariablen. Bei dieser Regression werden mehrere \(Y_i\) aus denselben Daten \(Y\) abgeleitet. Sie werden in verschiedenen Formeln ausgedrückt. Ein Beispiel dieses Systems mit zwei Gleichungen sieht folgendermaßen aus:

\[Y_1 = \beta_{01} + \beta_{11} X_1 + \epsilon_1\]

\[Y_2 = \beta_{02} + \beta_{1 2}X_1 + \epsilon_2\]

Diagramm mit multivariater linearer Regression, Rückmeldewerten (Grippeschätzungen für 9 Regionen) und Prädiktorwerten (Kalenderwoche).

Beispiel für eine multivariate lineare Regression zur Vorhersage der Grippeschätzungen für 9 Regionen (Reaktionsvariablen, \(Y_i\)), basierend auf der Woche des Jahres (Prädiktorvariable, \(X\)). (Sehen Sie sich das Beispiel für MATLAB Programmcode an und lernen Sie, wie Sie mit der Funktion mvregress die geschätzten Koeffizienten für eine multivariate lineare Regression bestimmen können.)

Multivariate mehrfache lineare Regression: Modelle mit mehreren Prädiktoren für mehrere Reaktionsvariablen. Diese Regression hat mehrere \(X_i\) zur Vorhersage mehrerer Reaktionen \(Y_i\). Verallgemeinert lautet die Gleichung folgendermaßen:

Gleichung für die Berechnung mehrerer Rückmeldungen Yi aus mehreren Prädiktoren Xi mithilfe von multivariater linearer Regression.

Beispiel für eine multivariate mehrfache lineare Regression, die den Kraftstoffverbrauch im Stadt- und Autobahnverkehr (als Reaktionsvariablen, \(Y_1\) und \(Y_2\)) aus drei Variablen berechnet: Radstand, Leergewicht und Kraftstofftyp (Prädiktorvariablen, \(X_1\), \(X_2\) und \(X_3\)). (Sehen Sie sich das Beispiel für MATLAB Programmcode an und lernen Sie, wie die Funktion mvregress zum Schätzen der Koeffizienten verwendet wird.)

Anwendungen linearer Regression

Lineare Regressionen zeichnen sich durch Eigenschaften aus, die sie für die folgenden Anwendungen sehr interessant machen:

  • Vorhersage oder Prognose – verwenden Sie ein Regressionsmodell zum Erstellen eines Prognosemodells für einen bestimmten Datensatz. Von diesem Modus aus können Sie die Regression verwenden, um Reaktionswerte vorherzusagen, für die nur die Prädiktoren bekannt sind.
  • Stärke der Regression – verwenden Sie ein Regressionsmodell, um herauszufinden, ob es eine Beziehung zwischen einer Variablen und einem Prädiktor gibt und wie stark diese Beziehung ist.

Lineare Regression mit MATLAB

Ingenieure erstellen mit MATLAB üblicherweise einfache lineare Regressionsmodelle. Für die mehrfache und die multivariate lineare Regression können Sie die Statistics and Machine Learning Toolbox™ von MATLAB verwenden. Sie ermöglicht der mehrfachen, schrittweisen, robusten und multivariaten Regression Folgendes:

  • Erzeugen von Prognosen
  • Vergleichen von linearen Modellanpassungen
  • Veranschaulichen von Residuen
  • Bewerten der Anpassung
  • Erkennen von Ausreißern

Genaueres zum Erstellen eines linearen Modells, das zu den Kurven und Oberflächen Ihrer Daten passt, finden Sie in der Curve Fitting Toolbox™.