Forum:  Programmieren
Thema: Python: Cumulative Distribution Function implementieren
Themen-Übersicht
Lucky_7
Aktiv
Dabei seit: 21.01.2018
Mitteilungen: 140
Aus:
Themenstart: 2019-04-26 11:38

Hey,

ich versuche gerade einen so genannten Kolmogorov-Smirnov Test zu implementieren.

Hierbei habe ich eine geschätze Wahrscheinlichkeitsdichte-Funktion (PDF) gegeben und möchte die Cumulative-Distribution-Function (CDF) hieraus bilden. Das sollte eigentlich nur das Integral der PDF sein.
Ich habe gedacht, das würde ich durch diese Zeile:
python
cdf[idx] = np.sum(pdf[:idx])
im unten stehenden Code erreichen.

Irgendetwas mache ich aber falsch, weil meine CDF, die ich aus der geschätzten PDF berechne, Werte deutlich größer 1 annimmt:


Ich erkenne wirklich nicht, wo der Fehler liegt.
Dies ist der Code, den ich verwende:
python
cdf = np.zeros(len(pdf))
hypoCdf = np.zeros(len(pdf))
d_u = np.zeros(len(pdf)) #upper
d_l = np.zeros(len(pdf)) #lower
alpha = 0.05
for idx in range(0, len(pdf)):
    cdf[idx] = np.sum(pdf[:idx])
    hypoCdf[idx] = norm(loc=mean(pdf), scale=np.std(pdf)).cdf(idx) #cdf of gaussian distribution that we assume as our null hypothesis 
for idx in range(0, len(cdf)):
    d_u[idx] = abs(cdf[idx] - hypoCdf[idx])
    if idx == 0:
        d_l[idx] = 0  # is this correct ? 
    else:
        d_l[idx] = abs(cdf[idx-1] - hypoCdf[idx])
d_crit = np.sqrt(-0.5*np.log(alpha/2))/np.sqrt(len(pdf))
d_u_max = np.max(d_u)
d_l_max = np.max(d_l)
if d_u_max > d_crit or d_l_max > d_crit:
    print("result: null hypothesis rejected")
else:
    print("result: failed to reject null hypothesis")
plt.figure()
plt.plot(x_grid, cdf, linewidth = 1, alpha = 1, color = 'r')
plt.plot(x_grid, hypoCdf, linewidth = 1, alpha = 1, color = 'k')
plt.show()

..wenn euch das komplette Skript, oder die Daten interessieren, die ich zum Erzeugen der pdf verwendet habe, findet ihr einen Link in dieser Frage hier


Lucky_7
Aktiv
Dabei seit: 21.01.2018
Mitteilungen: 140
Aus:
Beitrag No.1, vom Themenstarter, eingetragen 2019-04-26 17:20

ok, ich denke es ist notwendig die gebildete Summe noch durch die Gesamtsumme zu teilen:
python
for idx in range(0, len(pdf)):
    if idx == 0:
        cdf[idx] = pdf[idx]/np.sum(pdf)
    else:
        cdf[idx] = np.sum(pdf[:idx])/np.sum(pdf)
    hypoCdf[idx] = norm(loc=mean(pdf), scale=np.std(pdf)).cdf(x_grid[idx])

Davon abgesehen, habe ich auch die hypothetische CDF falsch ausgewertet.
Für die CDF der geschätzten PDF dürfte es so aber stimmen. ..


schnitzel
Aktiv
Dabei seit: 26.02.2009
Mitteilungen: 139
Aus:
Beitrag No.2, eingetragen 2019-04-26 19:33

Hi,

Schleifen über Indices ist in python oft vermeidbar. Wenn man Schleifen benutzt, dann am besten direkt über die Elemente.
Hier sollte das aber auch mit der Funktion np.cumsum funktionieren.

Gruß


Lucky_7
Aktiv
Dabei seit: 21.01.2018
Mitteilungen: 140
Aus:
Beitrag No.3, vom Themenstarter, eingetragen 2019-04-27 12:36

Ok. Um d_l zu berechnen, benötige ich aber weiterhin eine Schleife - sehe ich das richtig ?
python
alpha = 0.05 # 5% significance level
cdf = np.cumsum(pdf)/np.sum(pdf)
hypoCdf = norm(loc=mean(pdf), scale=np.std(pdf)).cdf(x_grid) #cdf of gaussian distribution that we assume as our null hypothesis 
d_u = abs(cdf - hypoCdf) # upper limit
d_l = np.zeros(len(cdf))
for idx in range(0, len(cdf)):
    if idx == 0:
        d_l[idx] = 0  
    else:
        d_l[idx] = abs(cdf[idx-1] - hypoCdf[idx]) #lower limit
d_crit = np.sqrt(-0.5*np.log(alpha/2))/np.sqrt(len(pdf))
d_u_max = np.max(d_u)
d_l_max = np.max(d_l)
if d_u_max > d_crit or d_l_max > d_crit:
    print("result: null hypothesis rejected")
else:
    print("result: failed to reject null hypothesis")

... kannst du mir erklären, warum der KS-Test überhaupt d_l berechnet? Sollte es nicht eigentlich genügen, sich d_u anzuschauen? d_u vergleicht doch die CDF der Hypothese und der Sample-Distribution. Wozu gibt es dann noch d_l ?




Dieses Forumbeitrag kommt von Matroids Matheplanet
https://https://matheplanet.de

Die URL für dieses Forum-Thema ist:
https://https://matheplanet.de/default3.html?topic=241415=5101
Druckdatum: 2019-06-20 13:45