Matroids Matheplanet Forum Index
Moderiert von luis52
Mathematik » Stochastik und Statistik » Interpretation von Konfidenzintervallen
Autor
Universität/Hochschule Interpretation von Konfidenzintervallen
Pter87
Wenig Aktiv Letzter Besuch: vor mehr als 3 Monaten
Dabei seit: 09.11.2018
Mitteilungen: 425
  Themenstart: 2022-07-03

Hallo, es ist langer her seit ich mich zuletzt mit Statistik/Wahrscheinlichkeitstheorie befasst habe und brauche es nun im Master wieder, weswegen ich mich wieder vermehrt damit beschäftige. Ich lese gerade auch noch ein Buch über Statistik ("The Art of Statistics" von Spiegelhalter), wo es mehr um das "Wieso" und den Kontext ,in der Statistik benutzt, wird geht als um das "Wie genau". In dem Buch geht es nicht so sehr um die ganzen Formalien(die werden genannt aber nicht formal mathematisch eingeführt) sondern, wieso man denn "X" und "Y" macht und was der Sinn von den ganzen Methoden ist, vorallem im Bezug auf das Datenzeitalter. Ich bin bei dem Thema angelangt, wo es darum geht, zu untersuchen wie "glaubhaft" meine erhobene Statistik denn ist. Dort geht es dann unter anderem um den zentralen Grenzwertsatz als quasi eines der Fundamente induktiver Statistik. Und dort erklärt er unter anderem, dass nach diesem Satz die Verteilung des Stichprobenmittels einer Normalverteilung "ähnelt" sofern die Stichprobengröße groß genug ist. Bis hier kommt mir das alles bekannt vor. Was mir allerdings so nicht klar war, ist folgende Interpretation eines Konfidenzintervalls: "a confidence interval is the range of population parameters for which our observed statistic is a plausible consequence" Was meint er hier mit "plausible consequence"? Wenn ich zum Beispiel von irgendeiner Population zum Beispiel das Stichprobenmittel berechne(sagen wir Stichprobengröße n=100), dann kann ich ja das Stichprobenmittel(als ZV betrachtet) als annähernd normalverteilt betrachten. Die Idee ist sehr logisch, aber was bedeutet es denn jetzt, dass mein berechnetes Stichprobenmittel plausibel oder wahrscheinlich ist bzgl. einer Verteilung? Die Wahrscheinlichkeit für genau dieses Stichprobenmittel ist doch immer 0 egal welche Parameter ich für die Verteilung wähle. Irgendwo meine ich auch gelesen zu haben, dass ein 95% Konfidenzintervall das Intervall sei, welche die Populationsparameter enthalte, welche meinem errechneten Stichprobenmittel eine Wahrscheinlichkeit von mehr als 0.05 zuordnen würden(das war in einem diskreten Setting und sollte und war sicherlich nur eine starke Vereinfachung). Kann mir das mal jemand erklären?


   Profil
luis52
Senior Letzter Besuch: in der letzten Woche
Dabei seit: 24.12.2018
Mitteilungen: 908
  Beitrag No.1, eingetragen 2022-07-04

\(\begingroup\)\(%**************************************************************** %************************** Abkuerzungen ************************ %**************************************************************** \newcommand{\eps}{\epsilon} \newcommand{\veps}{\varepsilon} \) Moin, Spiegelhalter spricht von einem "range", also einer Menge und nicht von einer einzigen Variablen, fuer die (im stetigen Fall) bspw. $P(\bar X=\theta)=0$ gilt. Ich versuche mal eine Interpretation: Ein KI ist zunaechst einmal ein Zufallsintervall $[\hat\Theta_u,\hat\Theta_o]$, fuer das nach Vorgabe des Konfidenzniveaus $1-\alpha$ gilt: $P(\hat\Theta_u\le\theta\le\hat\Theta_o)=1-\alpha$. Dabei sind $\hat\Theta_u,\hat\Theta_o$ Zufallsvariablen, i.d.R. Stichprobenfunktionen. Wird eine konkrete Stichprobe (observed statistic) gezogen, so resultiert auch ein konkretes Konfidenzinzintervall $[\hat\theta_u,\hat\theta_o]$. Es ueberdeckt den Parameter $\theta$ oder nicht, aber alle Werte im Intervall sind wegen der Vorgabe oben eine plausible consequence. vg Luis \(\endgroup\)


   Profil
Pter87
Wenig Aktiv Letzter Besuch: vor mehr als 3 Monaten
Dabei seit: 09.11.2018
Mitteilungen: 425
  Beitrag No.2, vom Themenstarter, eingetragen 2022-07-04

Hallo luis52, ich habe mich jetzt nochmal etwas weiter damit beschäftigt und ich glaube jetzt ist es mir klar geworden. Das Konfidenzintervall ist doch sowas wie ein "Zufallsintervall" analog zur "Zufallsvariable" oder? Ich hätte noch 2 weitere Fragen: 1.Wieso ist es falsch zu sagen, dass z.B. ein realisiertes 95%-Konfidenzintervall mit einer Wahrscheinlichkeit von 95% den echten Mittelwert enthält? Es wird immer betont, dass das nur bedeutet, dass im Mittel 95% auf diese Weise berechneten Intervalle den Wert enthalten und 5% nicht. Ich weiß, dass das wohl mit der frequentistischen Sichtweise zusammenhängt, da aus dieser Perspektive der wahre Mittelwert eine Konstante ist und es damit keine Wahrscheinlichkeit für die gäbe(die ist entweder drin oder nicht). Intuitiv würde ich die falsche und richtige sinngemäße Definition als äquivalent erachten. 2.Wie kommt man eigentlich darauf, dass der zentrale Grenzwertsatz für sehr viel mehr Teststatistiken angewendet werden kann? Der ZGS wird ja über das Stichprobenmittel definiert, aber anscheinend gelten die Aussagen für andere Teststatistiken wie z.B. dem Berechnen von Proportionen. Auf Stack Mathematics hat auch jemand geschrieben: "In 'layman's terms' the CLT says that the errors associated with estimating any parameter using a random sample from any population will follow a normal (or t) distribution." Vorallem das er hier "any parameter" benutzt, hat mich ein wenig überrascht.


   Profil
Martin_Gal
Wenig Aktiv Letzter Besuch: vor mehr als 3 Monaten
Dabei seit: 29.05.2019
Mitteilungen: 31
  Beitrag No.3, eingetragen 2022-07-04

Ich denke, du kennst die Antwort auf deine Frage bereits: Ja, es hängt mit der frequentistischen Sichtweise zusammen: Dort sind die Daten zufällig, nicht der statistische Parameter. Zur Schärfung der Intuition möchte ich eine Empfehlung aussprechen. Wenn dich derartige Grundsatzfragen interessieren, du aber auch an theoretischen Statistik-Grundlagen Interesse hast und vielleicht auch an Data Science Themen: Computer Age Statistical Inference könnte dir gefallen! PDF kostenlos: https://hastie.su.domains/CASI_files/PDF/casi.pdf Abschnitt 3.3 gibt ein Beispiel, wo dieser Unterschied zwischen Bayesianischer und frequentistischer Sichtweise zum Tragen kommt. Das ist zwar auf erwartungswerttreue Schätzer und nicht auf Konfidenzintervalle bezogen, das Prinzip ist aber ähnlich. Zu deiner zweiten Frage: Die Behauptung halte ich für gewagt.


   Profil
luis52
Senior Letzter Besuch: in der letzten Woche
Dabei seit: 24.12.2018
Mitteilungen: 908
  Beitrag No.4, eingetragen 2022-07-05

\(\begingroup\)\(%**************************************************************** %************************** Abkuerzungen ************************ %**************************************************************** \newcommand{\eps}{\epsilon} \newcommand{\veps}{\varepsilon} \) \quoteon(2022-07-04 18:30 - Pter87 in Beitrag No. 2) Hallo luis52, ich habe mich jetzt nochmal etwas weiter damit beschäftigt und ich glaube jetzt ist es mir klar geworden. Das Konfidenzintervall ist doch sowas wie ein "Zufallsintervall" analog zur "Zufallsvariable" oder? \quoteoff Man sollte unterscheiden zwischen der Methode und ihrem Ergebnis. Die Methode KI ist das Zufallsintervall mit bestimmten theoretischen Eigenschaften, das Resultat KI ist ein konkreter Bereich, z.B. [2.45,7.81]. \quoteon(2022-07-04 18:30 - Pter87 in Beitrag No. 2) Ich hätte noch 2 weitere Fragen: 1.Wieso ist es falsch zu sagen, dass z.B. ein realisiertes 95%-Konfidenzintervall mit einer Wahrscheinlichkeit von 95% den echten Mittelwert enthält? Es wird immer betont, dass das nur bedeutet, dass im Mittel 95% auf diese Weise berechneten Intervalle den Wert enthalten und 5% nicht. Ich weiß, dass das wohl mit der frequentistischen Sichtweise zusammenhängt, da aus dieser Perspektive der wahre Mittelwert eine Konstante ist und es damit keine Wahrscheinlichkeit für die gäbe(die ist entweder drin oder nicht). Intuitiv würde ich die falsche und richtige sinngemäße Definition als äquivalent erachten. \quoteoff Ich beschreibe mal die Frequentisten-Methode eines 95%-KI. In einer Urne befinden sich 95 rote und 5 gruene Kugeln. Im Dunkeln zieht jemand eine Kugel. Da es dunkel ist, weiss er nicht, ob die gezogene Kugel rot ist. Sie ist rot oder gruen. Da er aber um das Mischungsverhaeltnis in der Urne weiss, ist er sehr zuversichtlich (confident), dass sie rot ist. \quoteon(2022-07-04 18:30 - Pter87 in Beitrag No. 2) 2.Wie kommt man eigentlich darauf, dass der zentrale Grenzwertsatz für sehr viel mehr Teststatistiken angewendet werden kann? Der ZGS wird ja über das Stichprobenmittel definiert, aber anscheinend gelten die Aussagen für andere Teststatistiken wie z.B. dem Berechnen von Proportionen. Auf Stack Mathematics hat auch jemand geschrieben: "In 'layman's terms' the CLT says that the errors associated with estimating any parameter using a random sample from any population will follow a normal (or t) distribution." Vorallem das er hier "any parameter" benutzt, hat mich ein wenig überrascht. \quoteoff Hier ist mir auch nicht so recht klar, was gemeint ist. Liegt ein parametrisches Modell vor, fuer das der Parameter $\theta$ geschaetzt werden soll, so gilt als Folge des CLT: \[P\left(\dfrac{\bar X-\operatorname{E}[X]}{\sqrt{\operatorname{Var}[X]}}\sqrt{n}\le z\right)\approx\Phi(z)\] fuer hinreichend grosse Stichprobenumfaenge $n$. Sind $\operatorname{E}[X]$ und $\operatorname{Var}[X]$ Funktionen von $\theta$, so lassen sich damit vielfach approximative KI fuer $\theta$ konstruieren. Bsp: $\operatorname{E}[X]=1/\lambda$ und $\operatorname{Var}[X]=1/\lambda^2$ bei der Exponentialverteilung. Aber ich bezweifle, dass dieser Ansatz als ein Allheilmittel fuer jede Art der Parameterschaetzung geeignet ist. Den Hinweis auf die t-Verteilung halte ich fuer irrefuehrend. vg Luis \quoteoff\(\endgroup\)


   Profil
Pter87 hat die Antworten auf ihre/seine Frage gesehen.

Wechsel in ein anderes Forum:
 Suchen    
 
All logos and trademarks in this site are property of their respective owner. The comments are property of their posters, all the rest © 2001-2023 by Matroids Matheplanet
This web site was originally made with PHP-Nuke, a former web portal system written in PHP that seems no longer to be maintained nor supported. PHP-Nuke is Free Software released under the GNU/GPL license.
Ich distanziere mich von rechtswidrigen oder anstößigen Inhalten, die sich trotz aufmerksamer Prüfung hinter hier verwendeten Links verbergen mögen.
Lesen Sie die Nutzungsbedingungen, die Distanzierung, die Datenschutzerklärung und das Impressum.
[Seitenanfang]