Die Mathe-Redaktion - 23.05.2018 22:31 - Registrieren/Login
Auswahl
ListenpunktHome
ListenpunktAktuell und Interessant ai
ListenpunktArtikelübersicht/-suche
ListenpunktAlle Links / Mathe-Links
ListenpunktFach- & Sachbücher
ListenpunktMitglieder / Karte
ListenpunktRegistrieren/Login
ListenpunktArbeitsgruppen
Listenpunkt2 im Schwätz / Top 15
ListenpunktWerde Mathe-Millionär!
ListenpunktAnmeldung MPCT Juli
ListenpunktFormeleditor fedgeo
Schwarzes Brett
Aktion im Forum
Suche
Stichwortsuche in Artikeln und Links von Matheplanet
Suchen im Forum
Suchtipps

Bücher
Englische Bücher
Software
Suchbegriffe:
Mathematik bei amazon
Naturwissenschaft & Technik
In Partnerschaft mit Amazon.de
Kontakt
Mail an Matroid
[Keine Übungsaufgaben!]
Impressum

Bitte beachten Sie unsere Nutzungsbedingungen, die Distanzierung, unsere Datenschutzerklärung und
die Forumregeln.

Sie können Mitglied werden. Mitglieder können den Matheplanet-Newsletter bestellen, der etwa alle 2 Monate erscheint.

Der Newsletter Okt. 2017

Für Mitglieder
Mathematisch für Anfänger
Wer ist Online
Aktuell sind 576 Gäste und 29 Mitglieder online.

Sie können Mitglied werden:
Klick hier.

Über Matheplanet
 
Zum letzten Themenfilter: Themenfilter:
Matroids Matheplanet Forum Index
Moderiert von Kleine_Meerjungfrau Monkfish epsilonkugel
Mathematik » Stochastik und Statistik » Machine Learning, Regression, kleinste Quadrate, Herleitung
Druckversion
Druckversion
Antworten
Antworten
Autor
Universität/Hochschule Machine Learning, Regression, kleinste Quadrate, Herleitung
Traumfabrik123
Neu Letzter Besuch: vor mehr als 3 Monaten
Dabei seit: 20.01.2018
Mitteilungen: 1
Aus:
Zum letzten BeitragZum nächsten BeitragZum vorigen BeitragZum erstem Beitrag  Themenstart: 2018-01-20


Zeige, dass fuer ein lineares Regressionsmodel mit

y=X*beta+e

y ein n-dimensionaler vector an outputs

X ein nxp deterministische design matrix

beta ein p-dimensionaler vector von koeeffizienten

e ist unabhaengige Stoerglied mit mittelwert 0 und Varianz sigma^2
 
die Vorhersage mit kleisten quadraten dem folgenden entspricht:




~y ist eine unabhaengige kopie von y

~beta nennt sich ordinary least-squares estimator on the full model of p covariates ( kann das leider nicht gut uebersetzen)

Kann mir jemand Hilfestellung leisten, wie ich So eine Fragestellung anpacke?





  Profil  Quote  Link auf diesen Beitrag Link
StefanVogel
Senior Letzter Besuch: in der letzten Woche
Dabei seit: 26.11.2005
Mitteilungen: 2972
Aus: Raun
Zum letzten BeitragZum nächsten BeitragZum vorigen BeitragZum erstem Beitrag  Beitrag No.1, eingetragen 2018-01-20

\(\begingroup\)
Hallo Traumfabrik123,
herzlich Willkommen auf dem Matheplanet!

Wenn man sich nicht so sehr damit auskennt und das anhand der Definitionen verstehen will, dann fehlen noch die Definitionen von \(\tilde{y}\) und \(\hat{\beta}\). E bezeichnet den Erwartungswert, das weiß ich schon.

Viele Grüße,
  Stefan

EDIT: Auch mit der nachträglichen Ergänzung ~y und ~beta kann man nicht losrechnen. Man muss irgendwie von der linken Seite durch Anwendung bestimmter Rechenregeln auf die rechte Seite kommen. Worte in eine Formel einsetzen hilft ja nicht und mehr wie du weiß ich auch nicht, das muss alles in irgendeiner Form zu der Aufgabe dazustehen.
\(\endgroup\)


  Profil  Quote  Link auf diesen Beitrag Link
StefanVogel
Senior Letzter Besuch: in der letzten Woche
Dabei seit: 26.11.2005
Mitteilungen: 2972
Aus: Raun
Zum letzten BeitragZum nächsten BeitragZum vorigen BeitragZum erstem Beitrag  Beitrag No.2, eingetragen 2018-01-21

\(\begingroup\)
Nach etwas googeln habe ich mir das Beispiel am Ende des Abschnittes https://en.wikipedia.org/wiki/Linear_regression#Introduction herausgesucht. Ein Ball wird mit unbekannter Geschwindigkeit \(\beta_1\) nach oben geworfen und dabei durch die unbekannte Erdbeschleunigung \(\beta_2\) abgebremst. Zu fünf verschiedenen, genau bekannten Zeitpunkten \(x_{11}, x_{21}, x_{31}, x_{41}, x_{51}\) werden die erreichten Höhen \(\tilde{y}_1, \tilde{y}_2, \tilde{y}_3, \tilde{y}_4, \tilde{y}_5\) gemessen und das mit einem zufälligen Meßfehler \(\varepsilon_1, \varepsilon_2, \varepsilon_3, \varepsilon_4, \varepsilon_5\). Dann wird zusammen mit \(x_{2i}=x_{1i}^2, i=1..5\) die Matrix \(X\) aufgestellt und mit der Least-squares_estimation und den gemessenen \(\tilde{y}_i, i=1...5\) der Vektor \(\hat{\beta}\) berechnet, welcher eine Schätzung für die unbekannten \(\beta_1, \beta_2\) ist. Daraus kann man dazugehörige Höhen \(\hat{y} = X \hat{\beta}\) berechnen. Aufgabe ist nun zu zeigen, dass für den Mittelwert der quadratischen Abweichungen der gemessenen von den berechneten Höhen \(\frac{1}{n}\left|\tilde{y}-\hat{y}\right|^2\) ein Wert \((1+p/n)\sigma^2\) mit \(n=5, p=2\) zu erwarten ist. Wie das zu beweisen geht habe ich noch keine Idee. Ich würde durchaus auch mal versuchen, das zu simulieren, ob das wirklich nach vielen Wiederholungen des Versuchs annähernd herauskommt. Vielleicht ergibt sich dabei irgendein Ansatzpunkt für einen Beweis.
\(\endgroup\)


  Profil  Quote  Link auf diesen Beitrag Link
StefanVogel
Senior Letzter Besuch: in der letzten Woche
Dabei seit: 26.11.2005
Mitteilungen: 2972
Aus: Raun
Zum letzten BeitragZum nächsten BeitragZum vorigen BeitragZum erstem Beitrag  Beitrag No.3, eingetragen 2018-01-22

\(\begingroup\)
Folgende Beispielwerte habe ich genommen: n=6, p=2,

\(X = \begin{pmatrix} 1 & 1 \\ 2 & 4 \\ 3 & 9 \\ 4 & 16 \\ 5 & 25 \\ 6 & 36 \end{pmatrix}\),

\(\beta = \begin{pmatrix} 1 \\ 1  \end{pmatrix}\) soll unbekannt sein,

\(\epsilon = \begin{pmatrix} 1 \\ -1 \\ 1 \\ -1 \\ 1 \\ -1 \end{pmatrix} \) als simulierten Meßfehler.

Für \(\frac{1}{n}\left|\tilde{y}-\hat{y}\right|^2\) erhalte ich 209/224, zu erwarten wäre etwas bei (1+p/n)=4/3, also irgendwas oder noch mehr mache ich da verkehrt.
gap-Logfile
gap> XM:=[[1,1],[2,4],[3,9],[4,16],[5,25],[6,36]]; #=X 
[ [ 1, 1 ], [ 2, 4 ], [ 3, 9 ], [ 4, 16 ], [ 5, 25 ], [ 6, 36 ] ]
gap> XT:=TransposedMat(XM);
[ [ 1, 2, 3, 4, 5, 6 ], [ 1, 4, 9, 16, 25, 36 ] ]
gap> XTXMINV:=(XT*XM)^-1;
[ [ 325/1792, -9/256 ], [ -9/256, 13/1792 ] ]
gap> ywelle:=[[3],[5],[13],[19],[31],[41]];
[ [ 3 ], [ 5 ], [ 13 ], [ 19 ], [ 31 ], [ 41 ] ]
gap> betadach:=XTXMINV*XT*ywelle;
[ [ 535/448 ], [ 61/64 ] ]
gap> ydach:=XM*betadach;
[ [ 481/224 ], [ 1389/224 ], [ 681/56 ], [ 2243/112 ], [ 6675/224 ], [ 9291/224 ] ]
gap> ydiff:=ywelle-ydach;
[ [ 191/224 ], [ -269/224 ], [ 47/56 ], [ -115/112 ], [ 269/224 ], [ -107/224 ] ]
gap> norm:=TransposedMat(ydiff)*ydiff/6;
[ [ 209/224 ] ]

Ich versuche auch ein noch einfacheres Beispiel mit n=p=1.
\(\endgroup\)


  Profil  Quote  Link auf diesen Beitrag Link
Folgende Antworten hat der Fragesteller vermutlich noch nicht gesehen.
Er/sie war noch nicht wieder auf dem Matheplaneten
schnitzel
Aktiv Letzter Besuch: in der letzten Woche
Dabei seit: 26.02.2009
Mitteilungen: 111
Aus:
Zum letzten BeitragZum nächsten BeitragZum vorigen BeitragZum erstem Beitrag  Beitrag No.4, eingetragen 2018-01-22


Tag,
ich hab das mal versucht in python umzusetzen:
python
import numpy as np
np.random.seed(934)
from sklearn.linear_model import LinearRegression
 
 
def fehler(y_noise, y_pred):
    return 1/6 * np.sum((y_noise - y_pred)**2, 0)
 
X = np.array([[1, 2, 3, 4, 5, 6], [1, 4, 9, 16, 25, 36]]).T
beta = np.array([[1, 1]]).T
y = X@beta # matrix mutliplikation
 
n = 1000000
noise = np.random.standard_normal((6, n)) 
y_noise = y + noise # shape (6, n)
 
lin = LinearRegression(fit_intercept=False)
lin.fit(X, y_noise) # fit an die Daten 
 
y_predicted = lin.predict(X)
 
print(np.mean(fehler(y_noise, y_predicted))) # ---> 0.666636837282

Kann es sein, dass da ein Minus statt einem Plus stehen muss auf der rechten Seite?
Gruß



  Profil  Quote  Link auf diesen Beitrag Link
StefanVogel
Senior Letzter Besuch: in der letzten Woche
Dabei seit: 26.11.2005
Mitteilungen: 2972
Aus: Raun
Zum letzten BeitragZum nächsten BeitragZum vorigen BeitragZum erstem Beitrag  Beitrag No.5, eingetragen 2018-01-27

\(\begingroup\)
Ich habe zwei PN's erhalten, die nach meiner Einschätzung klar mit in den Thread gehören:

2018-01-20 20:41 - Traumfabrik123 schreibt:
Hier ist mal die ganze Aufgabe, vielleicht habe ich ja etwas vergessen. Danke fuer die Hilfe mit der Formatierung :)



*** die zweite PN habe ich auf Wunsch wieder gelöscht. Das Zitat im nächsten Beitrag war aus dieser PN. ***

Zu der Vermutung mit dem Minus kann ich auch noch zwei Beispiele beisteuern.

Bei \(n=p\) ist die Matrix \(X\) quadratisch. Wenn sie dann auch noch invertierbar ist, erhält man \(\hat{y}=\tilde{y}\) und das passt zur rechten Seite \((1-\dfrac{p}{n})\).

Wenn \(X\) nur aus einer Spalte mit alles Einsen besteht, dann ist \(\hat{y}\) der Stichprobenmittelwert, und damit wird die korrigierte Stichprobenvarianz gebildet. Sie ist erwartungstreu (Herleitung hier) und das wäre für diesen speziellen Fall der Beweis zur Aufgabe. Vielleicht lässt sich das noch verallgemeinern für beliebige \(X\).
\(\endgroup\)


  Profil  Quote  Link auf diesen Beitrag Link
schnitzel
Aktiv Letzter Besuch: in der letzten Woche
Dabei seit: 26.02.2009
Mitteilungen: 111
Aus:
Zum letzten BeitragZum nächsten BeitragZum vorigen BeitragZum erstem Beitrag  Beitrag No.6, eingetragen 2018-01-27

\(\begingroup\)
Tag,


Den Code von Schnitzel in Beitrag#4 verstehe ich nicht. Die Anzahl der Reihen von $X$ sollte doch von $n$ abhängen?

Da es hier ja um den Erwartungswert geht, habe ich eben diese Näherung für 1000000 verschiedene, (standard normalverteilte) epsilons (mit shape (6, 1)) durchgeführt. Was vermutlich Verwirrung stiftet ist, dass mein n nicht übereinstimmt mit dem aus dem Startbeitrag.

Gruß
\(\endgroup\)


  Profil  Quote  Link auf diesen Beitrag Link
StefanVogel
Senior Letzter Besuch: in der letzten Woche
Dabei seit: 26.11.2005
Mitteilungen: 2972
Aus: Raun
Zum letzten BeitragZum nächsten BeitragZum vorigen BeitragZum erstem Beitrag  Beitrag No.7, eingetragen 2018-01-29

\(\begingroup\)
In der zweiten PN hatte ich den Hinweis "Siehe dazu auch Gleichung 3.22 in diesem Skript" erhalten. Die Herleitung dieser Gleichung sollte doch den gesuchten Beweis ergeben. Ich schreibe grob die Beweisschritte auf:

\(E\left\{n^{-1}\left\|\tilde{y}-X\hat{\beta}\right\|_2^2\right\} \)
 \( = n^{-1} E\left\{\left\|\tilde{y}-X\hat{\beta}\right\|_2^2\right\}\) (konstanten Faktor ausklammern)
 \( = n^{-1} E\left\{e^T e\right\}\) (einsetzen von \(e=\tilde{y}-X\hat{\beta}\) )
 \( = n^{-1} E\left\{\mathrm{Spur}\left(e^T e\right)\right\}\) (Spur einer 1x1-Matrix ist gleich dem Matrixelement)
 \( = n^{-1} E\left\{\mathrm{Spur}\left(e e^T\right)\right\}\) (Eigenschaft \(\mathrm{Spur}(AB)=\mathrm{Spur}(BA)\))
 \( = n^{-1} \mathrm{Spur}\left(E\left\{e e^T\right\}\right)\) (wegen \(E(X+Y)=E(X)+E(Y)\))
 \( = n^{-1} \mathrm{Spur}\left(\sigma^2M\right)\) (wegen Eigenschaft \(e=M\varepsilon\) und \(E\left\{\varepsilon \varepsilon^T\right\}=\sigma^2 I_n\) und \(M^2=M\)..., siehe Skript)
 \( = n^{-1} \sigma^2 (n-p)\) (auch siehe Skript Herleitung Gleichung 3.22)
 \( =\left(1-\dfrac{p}{n}\right) \sigma^2\)
\(\endgroup\)


  Profil  Quote  Link auf diesen Beitrag Link
majoka
Senior Letzter Besuch: in der letzten Woche
Dabei seit: 25.02.2014
Mitteilungen: 727
Aus:
Zum letzten BeitragZum nächsten BeitragZum vorigen BeitragZum erstem Beitrag  Beitrag No.8, eingetragen 2018-01-29

\(\begingroup\)
Ich sollte mich eigentlich nicht in dieses Thema einmischen, weil mir genaue Überblick fehlt. Aber bist Du Dir sicher, dass
2018-01-29 05:26 - StefanVogel in Beitrag No. 7 schreibt:
(einsetzen von \(e=\tilde{y}-X\hat{\beta}\) )

gilt? Das $e$ im Skript ist doch das Residual, das nur aus den Trainingsdaten berechnet wird. $\tilde{y}$ soll aber laut Aufgabenstellung davon unabhängig sein. D.h. es geht um den erwarteten Fehler für einen neuen Datenpunkt, der nicht in die Berechnung von $\hat{\beta}$ eingegangen ist.

Siehe dazu auch hier und hier

Wenn man annimmt das der Bias verschwindet, dann kommt man doch mit Folie 18 und Folie 35 aus dem zweiten Link auf das Ergebnis von Aufgabe a)?




\(\endgroup\)


  Profil  Quote  Link auf diesen Beitrag Link
StefanVogel
Senior Letzter Besuch: in der letzten Woche
Dabei seit: 26.11.2005
Mitteilungen: 2972
Aus: Raun
Zum letzten BeitragZum nächsten BeitragZum vorigen BeitragZum erstem Beitrag  Beitrag No.9, eingetragen 2018-02-03

\(\begingroup\)
2018-01-29 09:49 - majoka in Beitrag No. 8 schreibt:
... bist Du Dir sicher, dass
2018-01-29 05:26 - StefanVogel in Beitrag No. 7 schreibt:
(einsetzen von \(e=\tilde{y}-X\hat{\beta}\) )

gilt? Das $e$ im Skript ist doch das Residual, ...
Ja, ich habe diese Bezeichnung nicht benutzt, doch in https://en.wikipedia.org/wiki/Linear_regression#Introduction wird mehrfach der Link residuals verwendet, von dort wechsle ich zur Sprache Deutsch Residuum_(Statistik)#Multiple_lineare_Regression mit der obigen Gleichung "\(...-X\hat{\beta}\)" (es werden nur andere Formelzeichen verwendet).


...das nur aus den Trainingsdaten berechnet wird...
Auch ja, \(e\) wird allein aus dem gegebenen \(X\) und \(\tilde{y}\) berechnet, wegen \(\hat{\beta}=\left(X^TX\right)^{-1}X^T\tilde{y}\). Diese \(\tilde{y}\) habe ich als die Messwerte bezeichnet, laut Folie 8 müssten das die Trainigsdaten sein.


.. $\tilde{y}$ soll aber laut Aufgabenstellung davon unabhängig sein...
Aha, da liegt möglicherweise ein Missverständnis vor. Die Originalbezeichnung "independent copy" war mir auch unbekannt und ich habe \(\tilde{y}\) versuchsweise als Messwerte interpretiert und das hat nie zu Widersprüchen geführt. Richtig wäre aber gewesen, wenigstens einmal danach zu googeln https://math.stackexchange.com/questions/1957534/terminology-independent-copy-of-random-variables. Danach wäre die richtige deutsche Übersetzung Realisierung oder auch Ausprägung. So allgemein brauchen wir die Bezeichnung jetzt nicht, Messwerte reicht bestimmt aus.


... D.h. es geht um den erwarteten Fehler für einen neuen Datenpunkt, der nicht in die Berechnung von $\hat{\beta}$ eingegangen ist...

Das ist möglicherweise auch ein Missverständnis. Bezieht sich deine Aussage auf Folie 10? Das ist nicht die richtige Fortsetzung. Es wird nicht ein neuer Datenpunkt hinzugenommen, sondern der gesamte Versuch wird mehrfach wiederholt, ab Folie 12. Dann stellt sich heraus, dass als durchschnittliche Varianz der "residuals" \(E\left\{n^{-1}\left\|\tilde{y}-X\hat{\beta}\right\|_2^2\right\}\) nicht ganz die Varianz der Messfehler herauskommt, sondern nur das \(\left(1-\dfrac{p}{n}\right)\)-fache davon. Soweit erstmal.
\(\endgroup\)


  Profil  Quote  Link auf diesen Beitrag Link
Traumfabrik123 wird per Mail über neue Antworten informiert.
Neues Thema [Neues Thema] Antworten [Antworten]    Druckversion [Druckversion]

 


Wechsel in ein anderes Forum:
 Suchen    
 
All logos and trademarks in this site are property of their respective owner. The comments are property of their posters, all the rest © 2001-2018 by Matroids Matheplanet
This web site was made with PHP-Nuke, a web portal system written in PHP. PHP-Nuke is Free Software released under the GNU/GPL license.
Ich distanziere mich von rechtswidrigen oder anstößigen Inhalten, die sich trotz aufmerksamer Prüfung hinter hier verwendeten Links verbergen mögen.
Lesen Sie die Nutzungsbedingungen, die Distanzierung, die Datenschutzerklärung und das Impressum.
[Seitenanfang]