Antworte auf:  Fragen zur korrekten Interpretation eines linearen Modells von Kugelteddy
Forum:  Stochastik und Statistik, moderiert von: Kleine_Meerjungfrau Monkfish epsilonkugel

[Zur Forum-Gliederung] [Wie man Fragen beantwortet] [Themenstart einblenden]

  Alle registrierten Mitglieder können Mitteilungen schreiben.
Benutzername:
Passwort:
Nachricht-Icon:                   
                  
              
Nachricht:


 
 


Input assistance tools (JavaScript): [Link extern intern] [MathML?] [$$?]
[fed-area] [LaTeX-inline] [LaTeX-display] [Tikz] [hide-area][show-area] [Source code [num.]][?]
 Show Preview      Write using fedgeo formula editor or Latex.

Smilies for your message:
😃 😄 😁 🙂 🙃 😉 🤗 🤫 🤔 🙄 😴 🤒 😎 😮 😲 😂
🙁 😖 😒 😐 😡 👌 👍 👎 🤢 🤧 🥵 🥶 😵 🤯 😛 😷
Optionen: Deaktiviere HTML in dieser Nachricht
Deaktiviere MATHML in dieser Nachricht. Wenn Dein Text $-Zeichen enthält, die nicht LaTeX-Formeln begrenzen.
Deaktiviere Smilies in dieser Nachricht
Zeige die Signatur (Kann in 'Mein Profil' editiert werden.)
    [Abbrechen]
 
Beachte bitte die [Forumregeln]


Themenübersicht
luis52
Senior
Dabei seit: 24.12.2018
Mitteilungen: 540
 Beitrag No.4, eingetragen 2021-02-25 17:27    [Diesen Beitrag zitieren]

2021-02-25 10:41 - Kugelteddy in Beitrag No. 2 schreibt:
Wenn ich verschiedene zusätzliche Features mit in mein Modell aufnehme, ändern sich die p-Werte mancher Variablen.

Das ist nicht verwunderlich.  Beispielsweise kann man zeigen, dass das Bestimmtheitsmass nie faellt, wenn eine zusaetzliche erklaerende Variable im Regressionsmodell aufgenommen wird, das Modell dann scheinbar "besser" wird.

2021-02-25 10:41 - Kugelteddy in Beitrag No. 2 schreibt:
Gibt es hier Regeln, woher ich weiß, welche Variablen ich mit aufnehmen sollte? Ansonsten kann ich mir ja beliebig welche zusammensuchen?

Es gibt mindestens zwei Moeglichkeiten, sinnvolle Ergebnisse mit einem Regressionsmodell zu erhalten.  Die erste besagt, dass du im Vorfeld der Schaetzung einen theoretischen Zusammenhang in Form einer Funktion $y=f(x_1,x_2,\dots)$ herstellst, wobei Werte von $y$ auf den Einfluss der erklaerenden Variablen $x_1,x_2,\dots$ zurueckgefuehrt werden.  Als Approximation kannst du schreiben $y\approx \beta_0+\beta_1x_1 +\beta_2x_2 +\dots$, was wiederum zu einem statistischen Modell $y= \beta_0+\beta_1x_1 +\beta_2x_2 +\dots+u$ wird.  Die Modellschaetzung dient der Ueberpruefung, inwieweit der Modellansatz stichhaltig ist.  Wichtig dabei ist, dass man nicht nach Belieben Variablen fortlaesst oder hinzufuegt.

Der zweite Ansatz besteht in einer explorativen Analyse, zu der ich auch Formen der Variablenselektion zaehlen wuerde, auf die AnnaKath hingewiesen hat.  Ziel dabei ist die Hypothesenfindung, die hilfreich sein kann, um theoretische Modelle zu entwickeln, die dann mit den Methoden oben analysiert werden koennen.  Google man "exploratory data analysis regression".

Kannst du etwas Genaueres zum Hintergrund deiner Fragen sagen?

vg Luis            


AnnaKath
Senior
Dabei seit: 18.12.2006
Mitteilungen: 3523
Wohnort: hier und dort (s. Beruf)

 Beitrag No.3, eingetragen 2021-02-25 15:14    [Diesen Beitrag zitieren]

Huhu Kugelteddy,

vielleicht schaust Du zunächst einmal bei Wikipedia nach. Die grundlegenden Strategien sind dort erläutert.

Beachte aber bitte auch den Abschnitt "Criticism"; wenn Du korrekt arbeiten willst, darfst Du nämlich die Kenngrössen des finalen Modells (z.B. $p$-Werte) nicht ohne Weiteres nutzen.
Für ernsthafte Modellierung sind also unbedingt weitere Techniken anzuwenden (z.B. Aufteilen der erhobenen Daten in ein "development" und ein "validation" sample) um solche multiplen Tests zu vermeiden und valide Aussagen über die Modellgüte treffen zu können.

lg, AK


Kugelteddy
Aktiv
Dabei seit: 15.02.2014
Mitteilungen: 31
 Beitrag No.2, eingetragen 2021-02-25 10:41    [Diesen Beitrag zitieren]

Danke!

Wenn ich verschiedene zusätzliche Features mit in mein Modell aufnehme, ändern sich die p-Werte mancher Variablen.
Gibt es hier Regeln, woher ich weiß, welche Variablen ich mit aufnehmen sollte? Ansonsten kann ich mir ja beliebig welche zusammensuchen?


luis52
Senior
Dabei seit: 24.12.2018
Mitteilungen: 540
 Beitrag No.1, eingetragen 2021-02-24 15:01    [Diesen Beitrag zitieren]

Moin, zuenaechst einmal:  Du solltest unterscheiden zwischen dem *Modell*, sagen wir $y=\alpha x+\beta+u$, und seiner *Schaetzung* mit $a$ fuer $\alpha$ und $b$ fuer $\beta$.

Aus Daten gewinnst du die Schaetzung, wobei $a$ als nicht signifikant ausgewisesen wird.  Das kann viele Ursachen haben.  Z.B. kann es sein, dass du zu wenig Daten hast, dass deine Daten verschmutzt sind, dass gewisse Modellannahmen verletzt sind, aber auch dass dein Modellansatz ueber den Zusammenhang zwischen $x$ und $y$ nicht angemessen ist oder dass es gar keinen gibt.

Kurzum, dass ein p-Wert nicht auf Signifikanz hindeutet gibt keine Hinweise auf die Ursache(n).

vg Luis


Kugelteddy
Aktiv
Dabei seit: 15.02.2014
Mitteilungen: 31
 Themenstart: 2021-02-24 14:14    [Diesen Beitrag zitieren]

Hallo zusammen,

Ich habe Daten aufgezeichnet (nennen wir sie X und Y) und möchte nun wissen, ob zwischen Ihnen ein Zusammenhang besteht.
Dazu schätze ich ein einfaches lineares Modell (y = a*x + b) in R.

Folgende zwei Szenarien gibt es nun:
(1) Der Parameter a ist ungleich 0 und dessen p-Wert ist signifikant (<0.05). Daraus kann ich schließen, dass zwischen den Variablen ein linearer Zusammenhang besteht.

(2) Der Parameter a ist ungleich 0 und der p-Wert ist nicht significant (>0.05). Kann ich darauß schliessen, dass kein linearer Zusammenhang besteht? Oder kann ich garnichts darauß schließen und muss ein anderes Modell nutzen? D.h. kann das daran liegen, dass ich weitere Features/Covariates mit in mein Modell aufnehmen muss (ich habe noch ein paar weitere Daten, V1, V2, V3, ...)? Ich habe hierzu schon zum Simposons Paradoxon gelesen, weiß aber nicht, wie ich entscheiden kann, welche Covaraites ich aufnehmen sollte.

Danke an alle im Voraus!


 
All logos and trademarks in this site are property of their respective owner. The comments are property of their posters, all the rest © 2001-2021 by Matroids Matheplanet
This web site was originally made with PHP-Nuke, a former web portal system written in PHP that seems no longer to be maintained nor supported. PHP-Nuke is Free Software released under the GNU/GPL license.
Ich distanziere mich von rechtswidrigen oder anstößigen Inhalten, die sich trotz aufmerksamer Prüfung hinter hier verwendeten Links verbergen mögen.
Lesen Sie die Nutzungsbedingungen, die Distanzierung, die Datenschutzerklärung und das Impressum.
[Seitenanfang]