Matroids Matheplanet Forum Index
Moderiert von Kleine_Meerjungfrau Monkfish epsilonkugel
Mathematik » Stochastik und Statistik » Fragen zur korrekten Interpretation eines linearen Modells
Druckversion
Druckversion
Antworten
Antworten
Autor
Universität/Hochschule Fragen zur korrekten Interpretation eines linearen Modells
Kugelteddy
Aktiv Letzter Besuch: im letzten Quartal
Dabei seit: 15.02.2014
Mitteilungen: 25
Zum letzten BeitragZum nächsten BeitragZum vorigen BeitragZum erstem Beitrag  Themenstart: 2021-02-24


Hallo zusammen,

Ich habe Daten aufgezeichnet (nennen wir sie X und Y) und möchte nun wissen, ob zwischen Ihnen ein Zusammenhang besteht.
Dazu schätze ich ein einfaches lineares Modell (y = a*x + b) in R.

Folgende zwei Szenarien gibt es nun:
(1) Der Parameter a ist ungleich 0 und dessen p-Wert ist signifikant (<0.05). Daraus kann ich schließen, dass zwischen den Variablen ein linearer Zusammenhang besteht.

(2) Der Parameter a ist ungleich 0 und der p-Wert ist nicht significant (>0.05). Kann ich darauß schliessen, dass kein linearer Zusammenhang besteht? Oder kann ich garnichts darauß schließen und muss ein anderes Modell nutzen? D.h. kann das daran liegen, dass ich weitere Features/Covariates mit in mein Modell aufnehmen muss (ich habe noch ein paar weitere Daten, V1, V2, V3, ...)? Ich habe hierzu schon zum Simposons Paradoxon gelesen, weiß aber nicht, wie ich entscheiden kann, welche Covaraites ich aufnehmen sollte.

Danke an alle im Voraus!



Eine Notiz zu diese Forumbeitrag schreiben Notiz   Profil  Quote  Link auf diesen Beitrag Link
luis52
Senior Letzter Besuch: in der letzten Woche
Dabei seit: 24.12.2018
Mitteilungen: 474
Zum letzten BeitragZum nächsten BeitragZum vorigen BeitragZum erstem Beitrag  Beitrag No.1, eingetragen 2021-02-24


Moin, zuenaechst einmal:  Du solltest unterscheiden zwischen dem *Modell*, sagen wir $y=\alpha x+\beta+u$, und seiner *Schaetzung* mit $a$ fuer $\alpha$ und $b$ fuer $\beta$.

Aus Daten gewinnst du die Schaetzung, wobei $a$ als nicht signifikant ausgewisesen wird.  Das kann viele Ursachen haben.  Z.B. kann es sein, dass du zu wenig Daten hast, dass deine Daten verschmutzt sind, dass gewisse Modellannahmen verletzt sind, aber auch dass dein Modellansatz ueber den Zusammenhang zwischen $x$ und $y$ nicht angemessen ist oder dass es gar keinen gibt.

Kurzum, dass ein p-Wert nicht auf Signifikanz hindeutet gibt keine Hinweise auf die Ursache(n).

vg Luis



Eine Notiz zu diese Forumbeitrag schreiben Notiz   Profil  Quote  Link auf diesen Beitrag Link
Kugelteddy
Aktiv Letzter Besuch: im letzten Quartal
Dabei seit: 15.02.2014
Mitteilungen: 25
Zum letzten BeitragZum nächsten BeitragZum vorigen BeitragZum erstem Beitrag  Beitrag No.2, vom Themenstarter, eingetragen 2021-02-25


Danke!

Wenn ich verschiedene zusätzliche Features mit in mein Modell aufnehme, ändern sich die p-Werte mancher Variablen.
Gibt es hier Regeln, woher ich weiß, welche Variablen ich mit aufnehmen sollte? Ansonsten kann ich mir ja beliebig welche zusammensuchen?



Eine Notiz zu diese Forumbeitrag schreiben Notiz   Profil  Quote  Link auf diesen Beitrag Link
AnnaKath
Senior Letzter Besuch: in der letzten Woche
Dabei seit: 18.12.2006
Mitteilungen: 3506
Wohnort: hier und dort (s. Beruf)
Zum letzten BeitragZum nächsten BeitragZum vorigen BeitragZum erstem Beitrag  Beitrag No.3, eingetragen 2021-02-25


Huhu Kugelteddy,

vielleicht schaust Du zunächst einmal bei Wikipedia nach. Die grundlegenden Strategien sind dort erläutert.

Beachte aber bitte auch den Abschnitt "Criticism"; wenn Du korrekt arbeiten willst, darfst Du nämlich die Kenngrössen des finalen Modells (z.B. $p$-Werte) nicht ohne Weiteres nutzen.
Für ernsthafte Modellierung sind also unbedingt weitere Techniken anzuwenden (z.B. Aufteilen der erhobenen Daten in ein "development" und ein "validation" sample) um solche multiplen Tests zu vermeiden und valide Aussagen über die Modellgüte treffen zu können.

lg, AK



Eine Notiz zu diese Forumbeitrag schreiben Notiz   Profil  Quote  Link auf diesen Beitrag Link
luis52
Senior Letzter Besuch: in der letzten Woche
Dabei seit: 24.12.2018
Mitteilungen: 474
Zum letzten BeitragZum nächsten BeitragZum vorigen BeitragZum erstem Beitrag  Beitrag No.4, eingetragen 2021-02-25


2021-02-25 10:41 - Kugelteddy in Beitrag No. 2 schreibt:
Wenn ich verschiedene zusätzliche Features mit in mein Modell aufnehme, ändern sich die p-Werte mancher Variablen.

Das ist nicht verwunderlich.  Beispielsweise kann man zeigen, dass das Bestimmtheitsmass nie faellt, wenn eine zusaetzliche erklaerende Variable im Regressionsmodell aufgenommen wird, das Modell dann scheinbar "besser" wird.

2021-02-25 10:41 - Kugelteddy in Beitrag No. 2 schreibt:
Gibt es hier Regeln, woher ich weiß, welche Variablen ich mit aufnehmen sollte? Ansonsten kann ich mir ja beliebig welche zusammensuchen?

Es gibt mindestens zwei Moeglichkeiten, sinnvolle Ergebnisse mit einem Regressionsmodell zu erhalten.  Die erste besagt, dass du im Vorfeld der Schaetzung einen theoretischen Zusammenhang in Form einer Funktion $y=f(x_1,x_2,\dots)$ herstellst, wobei Werte von $y$ auf den Einfluss der erklaerenden Variablen $x_1,x_2,\dots$ zurueckgefuehrt werden.  Als Approximation kannst du schreiben $y\approx \beta_0+\beta_1x_1 +\beta_2x_2 +\dots$, was wiederum zu einem statistischen Modell $y= \beta_0+\beta_1x_1 +\beta_2x_2 +\dots+u$ wird.  Die Modellschaetzung dient der Ueberpruefung, inwieweit der Modellansatz stichhaltig ist.  Wichtig dabei ist, dass man nicht nach Belieben Variablen fortlaesst oder hinzufuegt.

Der zweite Ansatz besteht in einer explorativen Analyse, zu der ich auch Formen der Variablenselektion zaehlen wuerde, auf die AnnaKath hingewiesen hat.  Ziel dabei ist die Hypothesenfindung, die hilfreich sein kann, um theoretische Modelle zu entwickeln, die dann mit den Methoden oben analysiert werden koennen.  Google man "exploratory data analysis regression".

Kannst du etwas Genaueres zum Hintergrund deiner Fragen sagen?

vg Luis            



Eine Notiz zu diese Forumbeitrag schreiben Notiz   Profil  Quote  Link auf diesen Beitrag Link
Kugelteddy hat die Antworten auf ihre/seine Frage gesehen.
Kugelteddy wird per Mail über neue Antworten informiert.
Neues Thema [Neues Thema] Antworten [Antworten]    Druckversion [Druckversion]

 


Wechsel in ein anderes Forum:
 Suchen    
 
All logos and trademarks in this site are property of their respective owner. The comments are property of their posters, all the rest © 2001-2021 by Matroids Matheplanet
This web site was originally made with PHP-Nuke, a former web portal system written in PHP that seems no longer to be maintained nor supported. PHP-Nuke is Free Software released under the GNU/GPL license.
Ich distanziere mich von rechtswidrigen oder anstößigen Inhalten, die sich trotz aufmerksamer Prüfung hinter hier verwendeten Links verbergen mögen.
Lesen Sie die Nutzungsbedingungen, die Distanzierung, die Datenschutzerklärung und das Impressum.
[Seitenanfang]