Középiskolai Matematikai és Fizikai Lapok
Informatika rovattal
Kiadja a MATFUND Alapítvány
Már regisztráltál?
Új vendég vagy?

Fórum: Statisztika

Szeretnél hozzászólni? Jelentkezz be.
[22] marcius82020-09-16 19:17:59

Köszönöm szépen ezt a segítséget is Péter! Nem tudok elég hálás lenni! Megmondom őszintén, úgy érzem, hogy a statisztika több szempontból mintha kiforratlan lenne olyan szempontból, hogy vannak benne szubjektív dolgok. (megbízhatóság stb..) Igaz, vannak mérhető objektív dolgok is.

Előzmény: [20] Erben Péter, 2020-09-07 15:02:45
[21] marcius82020-09-16 19:14:48

Köszönöm szépen a segítséget Péter! Ezt eddig is tudtam a korrelációs eh.-ról, meg a legkisebb négyzetek módszeréről. Csak abban voltam bizonytalan, hogy akadnak olyan tankönyvek, amelyek úgy írják, hogy a korrelációs eh. az adatpárok elemei közötti bármilyen összefüggés erősségét jelzi. Kicsit megerősítettél a tudatomban, hogy valójában jó az, amit én gondolok erről a korrelációs eh.-ról.

Előzmény: [19] Erben Péter, 2020-09-03 16:25:00
[20] Erben Péter2020-09-07 15:02:45

Szerintem itt több dolog keveredik.

1. Értelmes-e az összehasonlítás, ha a két adathalmaz értékei más egységben vannak (pl. fitying/fabatka vagy kg/cm)?

2. Mit mondhatunk, ha az egység azonos, de az értékek nagyságrendje eltér (pl. [1, 2, 3] / [100, 200, 300])?

3. Igaz-e az, hogy ha az adathalmazok eloszlása ,,azonos szerkezetű'', akkor azt mondhatjuk, hogy kiegyensúlyozottságuk egyforma?

A 3-at úgy próbálom értelmezni, hogy ha ábrázoljuk az (érték, érték gyakorisága) párokat valamiféle hisztogram segítségével, akkor két adathalmaz azonosan kiegyensúlyozott, ha a hisztogramok megkaphatók egymásból valamilyen egybevágósági transzformációval.

Ha így értelmezzük, amit írtál, akkor vitatom, hogy az egybevágósági transzformációk nincsenek hatással a kiegyensúlyozottságra, de egyben ezt egy szubjektív ítéletnek gondolom, ami függ attól, hogy milyen egységben gondolkozunk.

Maradjunk fizetéseknél és egyféle valutában.

Cég A.: a dolgozók harmada 100000 forintot keres, harmada 200000 forintot, harmada 300000 forintot.

Cég B.: a dolgozók harmada 1100000 forintot keres, harmada 1200000 forintot, harmada 1300000 forintot.

Ebben az esetben is azt mondanád, hogy azonos az adathalmazok kiegyensúlyozottsága, mert az ,,eloszlásuk szerkezete azonos''?

Előzmény: [18] marcius8, 2020-08-01 16:59:56
[19] Erben Péter2020-09-03 16:25:00

Ha nem egészítjük ki valamivel a korrelációs együttható kifejezést, akkor ez alatt a Pearson-féle korrelációs együtthatót szokás érteni, ami valóban csak a lineáris kapcsolat ,,erősségét'' próbálja számszerűsíteni, de nem mond semmit arról, hogy például mennyire jól illeszthető az adatokra egy harmadfokú polinom.

De mit jelent az, hogy a ,,lineáris kapcsolat erőssége''?

Az egyik lehetséges megközelítés a következő. A pontokra két egyenest illesztünk lineáris regresszió segítségével, és akkor mondjuk, hogy erős a lineáris kapcsolat, ha a két regressziós egyenes ,,közel van egymáshoz''.

Lineáris regresszió

Tegyük fel, hogy adottak a \(\displaystyle P_i(x_i; y_i), i = 1, 2, \ldots, n\) pontok és keresünk egy \(\displaystyle y=ax+b\) egyenletű egyenest, ami a lehető legjobban illeszkedik a \(\displaystyle P_i\) pontokra. Az illeszkedés ,,jóságának'' méréséhez egy hibafüggvényt definiálunk:

\(\displaystyle H(a, b) = \sum_{i=1}^n (y_i-(ax_i+b))^2,\)

és keressük azt az \(\displaystyle (a;b)\) párt, amire \(\displaystyle H(a,b)\) minimális. Szemléletesen ez azt jelenti, hogy minden \(\displaystyle i\)-re megnézzük, az \(\displaystyle (a;b)\) párhoz tartozó egyenes megfelelő pontja mennyivel tér el \(\displaystyle y_i\)-től, és ezen eltérések négyzetösszegét tekintjük a hibának.

Centralizálás

Kicsit minden szebbé válik, ha a \(\displaystyle P_i\) pontokból álló ponthalmazt eltoljuk úgy, hogy a ponthalmaz súlypontja az origóba kerüljön. Szemléletesen látszik, hogy az így kapott ponthalmazra legjobban illeszkedő egyenest ,,visszatolva'' megkapjuk a választ eredeti kérdésünkre.

Az eltolás formálisan azt jelenti, hogy a \(\displaystyle P(x_i; y_i)\) pont helyett a \(\displaystyle Q(x_i-\overline{x}; y_i-\overline{y})\) pontot tekintjük, ahol \(\displaystyle \overline{x}=\frac{1}{n}\sum x_i\) és \(\displaystyle \overline{y}=\frac{1}{n}\sum y_i\).

A folytatásban az egyszerűség kedvéért feltesszük, hogy az \(\displaystyle (x_i; y_i)\) pontok már egy centralizált ponthalmazt alkotnak.

Minimalizálás

A hibafüggvény minimumát egyszerű számolással megkapjuk.

\(\displaystyle H(a, b) = \sum_{i=1}^n (y_i-(ax_i+b))^2 = \sum y_i^2 + a^2\sum x_i^2 + n\cdot b^2 -2a\sum x_iy_i - 2b\sum y_i + 2ab\sum x_i\)

Felhasználjuk, hogy a ponthalmaz centralizált, ezért \(\displaystyle \sum x_i = \sum y_i = 0\).

\(\displaystyle H(a, b) = \sum y_i^2 + a^2\sum x_i^2 + n\cdot b^2 -2a\sum x_iy_i\)

Világos, hogy a \(\displaystyle b\)-től függő rész külön minimalizálható \(\displaystyle b=0\)-val.

Az \(\displaystyle a\)-tól függő rész egy másodfokú függvény (\(\displaystyle a\)-ban), a főegyüttható pozitív (feltéve, hogy a pontok közül legalább egy nem esik az origóba), ezért a minimumhely egyszerűen

\(\displaystyle a_{opt} = \frac{2\sum x_iy_i}{2\sum x_i^2} = \frac{\sum x_iy_i}{\sum x_i^2}\)

A most kapott \(\displaystyle a\) érték tehát a legjobban illeszkedő regressziós egyenes meredeksége.

Regressziós egyenesek és korrelációs együttható

Most, hogy ki tudjuk számolni a legjobban illeszkedő \(\displaystyle y=ax+b\) egyenletű egyenes meredekségét, megcsinálhatjuk ugyanezt úgy is, hogy \(\displaystyle x\)-et fejezzük ki \(\displaystyle y\)-ból, vagyis a legjobban illeszkedő \(\displaystyle x=a^{*}y+b^{*}\) egyenletű egyenest keressük. (Fogalmazhattunk volna úgy is, hogy most a függőleges eltérések helyett a vízszintes eltérések négyzetösszegét minimalizáljuk.)

A fentiekhez hasonlóan, most

\(\displaystyle a^{*}_{opt}=\frac{\sum x_iy_i}{\sum y_i^2}\)

Visszarendezve \(\displaystyle y\)-ra:

\(\displaystyle y = \frac{x-b^{*}}{ a^{*}},\)

tehát második regressziós egyenesünk meredeksége

\(\displaystyle \frac{1}{a^{*}_{opt}} = \frac{\sum y_i^2}{\sum x_iy_i}\)

Most jön a ,,fogadjuk el'' rész. Azt fogjuk mondani, hogy az \(\displaystyle (x_i;y_i)\) pontok között akkor erős a lineáris kapcsolat, ha a két regressziós egyenes meredeksége közel egyenlő, vagyis

\(\displaystyle \frac{\sum x_iy_i}{\sum x_i^2} \approx \frac{\sum y_i^2}{\sum x_iy_i} \Leftrightarrow \frac{\sum x_iy_i}{\sum x_i^2}\cdot \frac{\sum x_iy_i}{\sum y_i^2} \approx 1\)

Kicsit pontosabban, a kapott szorzat jele \(\displaystyle R^2\), és ennek az a négyzetgyöke, aminek előjele \(\displaystyle \sum x_iy_i\) előjelével egyezik, az a korrelációs együttható:

\(\displaystyle R = \frac{\sum x_iy_i}{\sqrt{\sum x_i^2}\cdot\sqrt{\sum y_i^2}}\)

A Cauchy-Bunyakovszkij-Schwarz egyenlőtlenségből következik, hogy \(\displaystyle |R|\le 1\), és a fenti levezetés alapján azt mondjuk, hogy minél közelebb esik \(\displaystyle R\) abszolút értéke 1-hez, annál erősebb a lineáris kapcsolat az \(\displaystyle x\) és \(\displaystyle y\) koordináták között.

A korrelációs együttható (másik) geometriai jelentése

Van egy másik érdekes interpretációja is \(\displaystyle R\)-nek. Maradva a centralizált ponthalmaznál, akkor van erős lineáris kapcsolat, ha minden \(\displaystyle i\)-re \(\displaystyle y_i\approx m\cdot x_i\).

Ezt úgy is felfoghatjuk, hogy az \(\displaystyle \underline{y}=(y_1, y_2, \ldots, y_n)\) és \(\displaystyle \underline{x}=(x_1, x_2, \ldots, x_n)\) \(\displaystyle n\)-dimenziós vektorok ,,közel párhuzamosak'', \(\displaystyle \underline{y} \approx m\cdot \underline{x}\).

Viszont \(\displaystyle n\)-dimenzióban kiszámíthatjuk (definiálhatjuk) két vektor bezárt szögének koszinuszát a normalizált vektorok skalárszorzata alapján, így a \(\displaystyle \varphi\) bezárt szögre azt kapjuk, hogy

\(\displaystyle \cos \varphi = \frac{\underline{x}\cdot \underline{y}}{|\underline{x}|\cdot|\underline{y}|} = \frac{\sum x_iy_i}{\sqrt{\sum x_i^2}\cdot\sqrt{\sum y_i^2}} = R,\)

és valóban, ha két vektor ,,közel párhuzamos'', akkor bezárt szögük 0 fokhoz vagy 180 fokhoz van közel. Első esetben közel 1, második esetben közel \(\displaystyle -1\) a bezárt szög koszinusza.

Előzmény: [16] marcius8, 2020-08-01 16:37:12
[18] marcius82020-08-01 16:59:56

Még egy kis kérdésem van. Van egy olyan fogalom, hogy relatív szórás. Egy adathalmaz relatív szórása egyenlő az adathalmaz szórásának és átlagának hányadosával. A relatív szórás segítségével össze lehet hasonlítani, hogy két adathalmazt összehasonlítva, melyik adathalmaz elemei szélsőségesebbek, ingadozóbb jellegűek. Két adathalmaz közül annak az adathalmaznak az elemei szélsőségesebbek, amelyiknek a relatív szórása nagyobb, legalább is ezt láttam valahol. De ez így szerintem nem igaz. Tekintsük a következő példát: Egy üzemben két részleg van. Az egyik részlegben 10 dolgozó 100 fabatkát keres, 20 dolgozó 200 fabatkát keres, 30 dolgozó 300 fabatkát keres, 40 dolgozó 400 fabatkát keres. A másik részlegben 100 dolgozó 40 fityinget keres, 200 dolgozó 30 fityinget keres, 300 dolgozó 20 fityinget keres, 400 dolgozó 10 fityinget keres. Ekkor:

Az egyik részlegben a dolgozók fizetésének átlaga 300 fabatka, szórása 100 fabatka.

A másik részlegben a dolgozók fizetésének átlaga 20 fitying, szórása 10 fitying.

Így a két részleg fizetésének szórását nem tudjuk összehasonlítani, ugyanis az egyik részleg fizetése fabatkában van megadva, a másik részleg fizetése fityingben van megadva, és hát nem tudjuk, hogy a fabatka és a a fitying pénzegységek között milyen kapcsolat van. Ezért lenne jó a relatív szórás. Ekkor az egyik részlegben a dolgozók fizetésének relatív szórása 1/3, a másik részlegben a dolgozók fizetésének relatív szórása 1/2. Hát ez így már jó is lenne, így mondhatnánk, hogy az első részlegben a dolgozók fizetése kevésbé szélsőségesebbek, kiegyensúlyozottabbak, ugyanakkor a második részlegben a dolgozók fizetése szélsőségesebbek. De ez így megint nem igaz, hiszen a két részlegben a dolgozók fizetésének eloszlása azonos szerkezetű. Oszlopdiagramon ábrázolva a két részlegben a különböző fizetések eloszlásának relatív gyakoriságát látszik, hogy a két részlegben a fizetések eloszlása azonos szerkezetű.

Akkor most milyen mutatóval lehet megállapítani, hogy két adathalmaz között melyik adathalmaz elemi szélsőségesebbek és melyik adathalmaz elemei kiegyensúlyozottabbak? Előre is köszönöm mindenki segítségét. BZ.

[17] marcius82020-08-01 16:43:27

Köszi szépen, erre is gondoltam!

Előzmény: [13] SmallPotato, 2020-07-21 01:17:37
[16] marcius82020-08-01 16:37:12

Köszönöm szépen a segítséget! Nagyon elgondolkoztató, amit írtál Péter!!! Akkor most még egy kérdés, ami lehet, hogy triviális. A kétváltozós statisztikában mit mér a korrelációs együttható? A legtöbb helyen úgy találom, hogy ha van egy adatpárokból álló halmaz, akkor itt a korrelációs együttható azt méri, hogy mennyire függenek az adatpárok tagjai egymástól. Ha a korrelációs együttható abszolút-értéke közel van 1-hez, akkor az adatpárok tagjai nagyon függenek egymástól, ha a korrelációs együttható értéke közel van 0-hoz, akkor az adatpárok tagjai alig függenek egymástól. Na ez szerintem így nem biztos, hogy igaz. Ugyanis például ha nézzük a következő adatpárokat: (2; 3), (7; 1), (4; 5), (3; 2), (6; 7), (1; 6); (9; 4). Hát ha nézzük, az adatpárok tagjai első közelítésben nagyon nem függenek egymástól, és a korrelációs együttható értéke is közel van 0-hoz. (\(\displaystyle R^2=0,018\)). De egy regressziós polinomot illesztve ezekre az adatpárokra, csak található az adatpárok tagjai között összefüggés. Nem tudom, hogy jól fogalmazok-e akkor, ha azt mondom, hogy a korrelációs együttható azt mutatja meg, hogy mennyire közelíthető jól lineáris összefüggéssel az adatpárok tagjai közötti összefüggés. Előre is köszönöm a segítséget. BZ.

Előzmény: [15] Erben Péter, 2020-07-26 09:54:11
[15] Erben Péter2020-07-26 09:54:11

Érdemes kicsit formálisabban is megnézni, mi is történt az előző számításokban.

Entrópia-alapú diszkretizálás

Továbbra is két osztályra akarjuk bontani az adathalmazt, de az osztályonként fellépő darabszámokat most betűkkel jelöljük.

\(\displaystyle K\)-nál fiatalabb \(\displaystyle K\)-nál idősebbösszesen
megbetegedett \(\displaystyle b_1\) \(\displaystyle b_2\) \(\displaystyle b=b_1+b_2\)
összes fertőzött \(\displaystyle S_1\) \(\displaystyle S_2\) \(\displaystyle S=S_1+S_2\)
betegség valószínűsége \(\displaystyle p_1=\frac{b_1}{S_1}\) \(\displaystyle p_2=\frac{b_2}{S_2}\) \(\displaystyle p=\frac{b}{S}\)

Ezekkel a jelölésekkel a célfüggvényünk értéke

\(\displaystyle L(K) = p_1^{b_1}\cdot (1-p_1)^{S_1 - b_1} \cdot p_2^{b_2}\cdot (1-p_2)^{S_2 - b_2} \)

Ennek ugyanott van a maximuma mint kettes alapú logaritmusának (amit egyszerűen \(\displaystyle \log\) fog jelölni):

\(\displaystyle \log(L(K)) = \sum_{i=1}^{2} \left(b_i\cdot\log(p_i) + (S_i - b_i)\cdot\log(1-p_i)\right) \)

Még az sem változtatja meg a maximum helyét, ha osztunk az adathalmaz számosságával:

\(\displaystyle \frac{1}{S}\cdot \log(L(K)) = \sum_{i=1}^{2} \frac{1}{S}\cdot\left(b_i\cdot\log(p_i) + (S_i - b_i)\cdot\log(1-p_i)\right), \)

majd az \(\displaystyle 1 = \frac{S_i}{S_i}\) tényezők becsempészésével

\(\displaystyle \frac{1}{S}\cdot \log(L(K)) = \sum_{i=1}^{2} \frac{1}{S}\cdot\left(\frac{S_i}{S_i}\cdot b_i\cdot\log(p_i) + \frac{S_i}{S_i}\cdot(S_i - b_i)\cdot\log(1-p_i)\right) = \)

\(\displaystyle = \sum_{i=1}^{2} \frac{S_i}{S}\cdot\left(\frac{b_i}{S_i} \cdot\log(p_i) + \frac{S_i - b_i}{S_i}\cdot\log(1-p_i)\right) = \sum_{i=1}^{2} \frac{S_i}{S}\cdot\left(p_i \cdot\log(p_i) + (1-p_i)\cdot\log(1-p_i)\right) \)

Amit a belső zárójelben látunk (\(\displaystyle p_i \cdot\log(p_i) + (1-p_i)\cdot\log(1-p_i)\)) az az \(\displaystyle i\) osztály entrópiájának negatívja.

Ezek az entrópiák itt az osztályok mérete szerint súlyozottan vannak átlagolva, vagyis a következő átfogalmazást kaptuk:

A fenti naiv ,,maximum-likelihood'' módszerünk olyan \(\displaystyle K\) értéket választ optimumnak, ami minimalizálja a keletkező osztályok entrópiájának súlyozott átlagát. Ezt szokás úgy is megfogalmazni (az információ-elméletben), hogy maximalizáljuk az információ nyereséget (information gain).

Merre tovább?

Az entrópia-alapú osztályozás többféle általánosításra alkalmas.

Több osztópont meghatározása.

Az entrópia, mint hibafüggvény (vagy információ nyereség, mint célfüggvény) bevezetése után már össze tudjuk hasonlítani két különböző osztályozás ,,jóságát''. Innentől algoritmikus kérdés, hogyan keresünk több osztópontot.

Első lépésben általában korlátozzuk az osztópontok lehetséges pozícióit. Ha életkor szerint osztályozunk, akkor mondhatjuk például, hogy egy osztópont csak 5-tel osztható szám lehet.

Ezután korlátozzuk az osztópontok számát. Erre nem feltétlen használunk matematikai mérőszámot, lehet praktikus megfontolás is a döntés mögött. De mondhatjuk azt is, hogy akkor állunk le új osztópontok hozzáadásával, ha a célfüggvényünk már csak picit javítható.

Végül az előző döntésektől függően próbálkozhatunk ,,nyers erővel'', ha az összes eset kipróbálása lehetséges (ez gyorsítható dinamikus programozással), vagy használhatunk valamilyen mohó algoritmust, például azt, hogy mindig egy meglévő intervallumot vágunk ketté az előzőekben ismertetett módszerrel.

Nem bináris címkék becslése.

A példánkban a vizsgált címke a ,,megbetegedés'' volt, lehetséges értékei pedig az ,,igen'' és a ,,nem'', 1-gyel és 0-val kódolva. Ezért egy osztályon belül \(\displaystyle p_i\) és \(\displaystyle 1-p_i\) adta meg a lehetséges címke értékek előfordulásának valószínűségét. Ez nem kell, hogy így legyen. A \(\displaystyle p_1, p_2, \ldots, p_n\) eloszlás entrópiája hasonlóan definiálható (most már a negatív előjelet is visszatéve):

\(\displaystyle H = -\sum_{i=1}^{n} p_i\cdot \log p_i, \)

tehát nem bináris címkék esetén is használható mérőszámunk.

Osztályozás több attribútum alapján.

A gépi tanulás (és az alkalmazott statisztika) általában olyan adathalmazokkal foglalkozik, amelyekben egy adatpontot egynél több attribútum ír le. A fenti példánkban például az életkor mellé bekerülhetne a nem, a testsúly, a lakóhely és még számtalan más jellemző.

Az egyik közismert gépi tanulás algoritmus az ID3, ami iteratívan több attribútum szerint határoz meg osztályozást, és egy döntési fát állít elő a kérdéses címke becsléséhez. Ez az algoritmus nem csak azt nézi, hogy egy adott attribútum szerint hol érdemes felvenni az osztópontokat, hanem azt is, hogy melyik attribútummal érdemes kezdeni, és esetleg melyek azok, amelyek nem igazán hasznosak a címke becslése céljából.

Előzmény: [14] Erben Péter, 2020-07-26 09:52:13
[14] Erben Péter2020-07-26 09:52:13

Ahhoz, hogy matematikai értelmet adjunk az ,,optimálisan'' jelzőnek, először azt kell megmondanunk, mit szeretnénk kideríteni az adathalmazunk alapján. Ha ez megvan, akkor arról is döntenünk kell, hogyan kívánjuk mérni, mennyire ,,jó'' a válasz, amit találtunk. Ehhez szükségünk van valamilyen célfüggvényre vagy hibafüggvényre, amit optimalizálni szeretnénk. Ha más a célunk, más lehet az optimális felosztás.

A folytatáshoz érdemes elengedni azt a feltételt, hogy az osztályok egyenlő hosszúak legyenek. Egyrészt azért, mert ha megtartanánk ezt a feltételt, akkor az egyetlen megmaradt szabad paraméter a felosztásban szereplő osztályok száma, és ebből már következne, hova kerülnek az osztópontok. Másrészt azért, mert a legtöbb ismert osztályozási módszert könnyű abban az esetben is használni, amikor csak egyenlő szélességű osztályok megengedettek.

A gépi tanulás (,,alkalmazott statisztika''?) foglalkozik az osztályok optimális szélességének kérdésével. Megpróbálom bemutatni ezt egy egyszerű példán keresztül.

Egy naiv példa

Tegyük fel, hogy egy új, eddig ismeretlen, gyorsan terjedő vírus hatását próbáljuk megérteni. Mivel a vírus egy éve még ismeretlen volt, csak a legújabb kórházi adatok állnak rendelkezésünkre.

eset azonosító 12345678910
életkor 4592176756378354859
megbetegedés 1101100001

A táblázat olyan emberek adatait tartalmazza, akik igazoltan megfertőződtek az új vírussal. A ,,megbetegedés'' sor azt jelenti, hogy a fertőzött személy megbetegedett-e (ekkor az érték 1) vagy tünetmentesen átvészelte a fertőzést (ekkor az érték 0).

Azt nem gondoljuk, hogy az életkor egyértelműen meghatározná a fertőzés kimenetelét, ezért csak azt szeretnénk tudni, hogy az életkor függvényében hogyan változik a megbetegedés kockázata, vagyis az

\(\displaystyle f(x) = P( ~\text{a fertőzött megbetegszik} ~|~ \text{az életkora \(\displaystyle x\)}~) \)

függvényt szeretnénk minél jobb közelítéssel meghatározni.

Mi köze ennek az osztályokba soroláshoz?

Amikor egy adathalmazt osztályokba sorolunk (általánosabban egy folytonos változót diszkretizálunk), akkor információt veszítünk.

Illusztrációként nézzük meg, mit mondhatunk, ha fenti adathalmazunkat egy osztályba soroljuk. Ez azt jelenti, hogy ,,eldobtuk'' az életkor információt, így csak az maradt, hogy mennyi a megbetegedések relatív gyakorisága. Tehát az egyetlen logikus közelítésünk az lehet, hogy \(\displaystyle f(x) \approx \frac{5}{10} = 50\%\), és ez nem függ az életkortól.

A másik extrém, hogy adathalmazunkat egy év szélességű osztályokba soroljuk, tehát minden adatpontunk más osztályt ír le. Innen olyanok következnének, hogy például a 45 évesek körébe 100% a megbetegedés kockázata, ellenben a 48 évesek körében 0%. (Az ehhez hasonló problémákat a gépi tanulásban túltanulásnak (overfitting) hívják.)

Érezzük, hogy mindkét szélső esetben használhatatlan becslést kaptunk az \(\displaystyle f\) függvényre, van tehát értelme valamilyen közbülső (optimális) osztályozást keresni.

Felosztás két részre

Nézzük meg, milyen közelítést kaphatunk \(\displaystyle f\)-re, ha összesen két osztályba soroljuk az embereket életkor szerint. A két osztály közötti osztópont értékét jelölje \(\displaystyle K\).

\(\displaystyle f \approx f_K(x) = \begin{cases} \frac{\text{K-nál fiatalabb betegek száma}}{\text{K-nál fiatalabb fertőzöttek száma}} & \text{ha, \(\displaystyle x < K\)}\\ ~&~\\ \frac{\text{K-nál idősebb betegek száma}}{\text{K-nál idősebb fertőzöttek száma}} & \text{ha, \(\displaystyle x \ge K\)} \end{cases} \)

Az történik tehát, hogy az \(\displaystyle f\) függvényt egy szakaszonként konstans függvénnyel közelítjük, ahol szakaszonként a megfigyelt relatív gyakoriságot használjuk a valószínűség becslésére.

Mi a célfüggvény?

Kérdésünk most az, hogy melyik \(\displaystyle K\) a legjobb lehetséges osztópont. Ehhez most már definiálnunk kell, hogy mi szerint akarunk optimalizálni. A gépi tanulásban többféle definíciót használnak, az egyik gyakori a ,,maximum-likelihood'' célfüggvény, ami példánkban szemléletesen a következőnek felel meg: keressük azt a \(\displaystyle K\) értéket, amire a

\(\displaystyle L(K) = P(~ \text{a táblázatunkban látható adatokat kapjuk}~|~ f = f_K~) \)

feltételes valószínűség maximális. Átfogalmazva: Milyen \(\displaystyle K\) esetén maximális az adathalmazunk valószínűsége, feltéve, hogy \(\displaystyle f = f_K\)?

Elsőre ez talán kicsit furcsának tűnő, de gyakran használt célfüggvény. A konkrét példánkra vonatkoztatva könnyebb megérteni.

Legyen mondjuk az első próbálkozásunk \(\displaystyle K=30\). 30 év alatt 2-en fertőződtek meg és senki nem lett beteg, 30 év felett 8-an fertőződtek meg és 5-en lettek betegek, ezért a két osztályunkban a megbetegedés valószínűségét 0%-kal és \(\displaystyle \frac{5}{8}=\)62,5%-kal becsüljük. Mennyi most a célfüggvényünk értéke? Ennek kiszámításához sorra vesszük a táblázatban szereplő embereket, egymástól függetlennek tekintjük megbetegedésük valószínűségét és használjuk az előbb kapott becsléseinket az osztályokon belül

\(\displaystyle P(~\text{adataink}~|~K=30~) = \frac{5}{8}\cdot \frac{5}{8} \cdot 1 \cdot \ldots \cdot \frac{3}{8} \cdot \frac{5}{8} \approx 0{,}503\% \)

Itt például az utolsó előtti tényező azt jelenti, hogy a 9-ces sorszámú fertőzött nem betegedett meg, bár a nagyobb kockázatú csoportban (30 felett) van.

Ha a hasonló számolásokat \(\displaystyle K=40\) mellett is elvégezzük, akkor

\(\displaystyle P(~\text{adataink}~|~K=40~) = \frac{5}{7}\cdot \frac{5}{7} \cdot 1 \cdot \ldots \cdot \frac{2}{7} \cdot \frac{5}{7} \approx 1{,}518\% \)

adódik, ami jobb, mint az előző érték, tehát a \(\displaystyle K=40\) jobb osztópont, mint a \(\displaystyle K=30\).

Konkrét példánk esetében könnyen végignézhető az összes lényegesen különböző eset és az derül ki, hogy \(\displaystyle K=40\) a legjobb ,,vágás'', tehát ha csak két osztályba akarjuk sorolni adatainkat, akkor a 40-nél fiatalabbakat és a 40-nél idősebbeket érdemes külön kezelni.

Előzmény: [12] marcius8, 2020-07-16 14:16:39
[13] SmallPotato2020-07-21 01:17:37

Erre gondoltál?

Előzmény: [12] marcius8, 2020-07-16 14:16:39
[12] marcius82020-07-16 14:16:39

Amit nem igazán tanítanak a statisztikában, vagy legalább is én nem tudok róla:

Van egy adathalmaz, amelyben nagyon sok adat van, mondjuk például 5000 adat. Ekkor az adathalmaz elemeit osztályokba érdemes sorolni. Azonban ha túl kevés osztályba soroljuk az adathalmaz elemeit, akkor nem sok következtetést lehet levonni az adathalmazból. Például, ha 5000 tanuló tanulmányi átlagát akarjuk kiértékelni, akkor nem szerencsés, ha csak úgy nézzük a tanulmányi átlagokat, hogy a 3 alatti átlagok és 3 feletti átlagok.. De az sem szerencsés dolog, hogy ha nagyon sok osztályba soroljuk az adathalmaz elemeit, mert ekkor a lényeg nem biztos, hogy kicsúcsosodik. Például, ha 5000 tanuló tanulmányi átlagát akarjuk kiértékelni, akkor nem szerencsés, ha úgy nézzük a tanulmányi átlagokat, hogy a 0,0001 szélességű osztályokba soroljuk a tanulmányi átlagokat. Adott elemszámú adathalmaz optimálisan hány egyenlő szélességű osztályba érdemes sorolni az adatokat, és ekkor hogyan érdemes megállapítani az osztályok alsó határát és felső határát?

[11] Dolgos Tamás2016-02-13 22:37:24

Sziasztok,

Pár éve aktív kömal-ozó voltam, azóta pedig a matek Bsc-t is elvégeztem. Meglepő, hogy nem igazán találtam visszamenőleg sem túl sok statisztikával kapcsolatos témát. Jelenleg külföldön statisztikát tanulok Msc-n. Szívesen beszélgetnék marcius8-al (és a többiekkel) arról, hogy odahaza a statisztika oktatás hogyan folyik, mik a tapasztalatok, nehezen érthető dolgok. Sajnos középiskolában nagyon keveset tanultam erről (Emelt érettségiben kevesebb volt a stat, mint a középben), s bár ez a szám nőtt hatványozottam a bsc vége felé, ennek ellenére úgy érzem, hogy gyakorlatilag teljes mértékben el van rontva odahaza az oktatás. Kíváncsi lennék a többiek véleményére is, hogy érzik ezt. (Akár egyetemistákéra, akár tanárokéra, esetleg középiskolásokéra.)

[9] marcius82016-01-26 22:14:09

Az előző hozzászólásomhoz néhány kérdést írtam, amelyek a következők

1. Mekkora a minta példányainak hosszának átlaga, szórása?

2. Mekkora a minta példányainak tömegének átlaga, szórása?

3. Mekkora a minta példányainak életkorának átlagos abszolút eltérése?

4. Készítsünk kördiagramot, amely a mintában levő egyszínű példányok szín szerinti eloszlását mutatja!

5. Készítsünk kördiagramot, amely a mintában levő példányok elejének színeloszlást mutatja!

6. Készítsünk kördiagramot, amely a mintában levő példányok közepének színeloszlást mutatja!

7. Készítsünk kördiagramot, amely a mintában levő példányok hátuljának színeloszlást mutatja!

8. Közös oszlopdiagramon ábrázoljuk a mintában levő példányok elejének, közepének, hátuljának színeloszlását!

9. Hogyan változik a példányok hosszának átlaga, szórása, ha minden példány egyszerre nyújtózkodik, és így minden példány hossza 99 cm-rel hosszabb lesz?

10. Hogyan változik a példányok tömegének átlaga és szórása, ha minden példány nagy hirtelen egyszerre 99-szeresére hízik?

11. Hogyan változik a példányok életkorának átlaga és átlagos abszolút eltérése, ha minden példány 99 perccel fiatalabb lesz?

12. Adjunk becslést az állatközösségben élő egyszínű példányok és háromszínű példányok számára a minta alapján!

13. Adjunk becslést az állatközösségben élő egyszínű példányok és háromszínű példányok számára a minta alapján, ha tudjuk, hogy a minta szín szerint reprezentatív!

14. Készítsünk táblázatot, amely a minta elejének és közepének együttes színeloszlást mutatja!

15. Készítsünk táblázatot, amely a minta hátuljának és közepének együttes színeloszlását mutatja!

16. Független-e a mintabeli példányok elejének és hátuljának színeloszlása?

17. Független-e a mintabeli példányok elejének és közepének színeloszlása?

18. Független-e a mintabeli példányok hátuljának és közepének színeloszlása?

19. Adjunk becslést az állatközösségben élő szürke közepű példányok és háromszínű példányok számára a minta alapján!

20. Adjunk becslést az állatközösségben élő szürke közepű példányok és háromszínű példányok számára a minta alapján, ha tudjuk, hogy a minta szín szerint reprezentatív!

21. Legalább mennyi egyszínű példányt kell még a mintához tenni, ha azt akarjuk, hogy a minta alsó kvartilise egyenlő legyen a minta minimumával? Milyen színűek legyenek ezek a hozzátett példányok? (Feltesszük, hogy tudunk szerezni elegendő ilyen példányt.)

22. Legalább mennyi egyszínű példányt kell még a mintához tenni, ha azt akarjuk, hogy a minta mediánja egyenlő legyen a minta minimumával? Milyen színűek legyenek ezek a hozzátett példányok? (Feltesszük, hogy tudunk szerezni elegendő ilyen példányt.)

23. Legalább mennyi egyszínű példányt kell még a mintához tenni, ha azt akarjuk, hogy a minta felső kvartilise egyenlő legyen a minta minimumával? Milyen színűek legyenek ezek a hozzátett példányok? (Feltesszük, hogy tudunk szerezni elegendő ilyen példányt.)

24. Tekintsük a mintában levő egyszínű példányokat! Ezek közül legalább mennyit kell véletlenszerűen (csukott szemmel) kivenni, hogy a kivett példányok között minden színűből legyen?

25. Tekintsük a mintában levő egyszínű példányokat! Ezek közül legalább mennyit kell véletlenszerűen (csukott szemmel) kivenni, hogy a mintában megmaradt egyszínű példányok egyforma színűek legyenek?

...... és így tovább....

Ezeket a kérdéseket órán megbeszéltük több-kevesebb sikerrel. Természetesen ezeket a kérdéseket lehet módosítani, és lehet újabb kérdéseket feltenni. Azzal is tisztában vagyok hogy ez így egy igencsak összetett feladat. Ugyanakkor azt tapasztaltam, hogy egy tanítási óra keretén belül átlagosan 7-8 kérdést meg tudtam beszélni a tanulókkal.

Várok más statisztikai jellegű rövid és tanulságos feladatokat, amelyeket az átlagosnál gyengébb képességű tanulókkal is meg lehet beszélni, ugyanakkor megfelel az érettségi követelményeknek is. És ha itt sok ilyen feladat lesz, akkor nem kell a statisztika tanítása miatt mindig 5-6 feladatgyűjteményből összeollózni gyakorló feladatokat.

Előzmény: [8] marcius8, 2016-01-26 22:03:29
[8] marcius82016-01-26 22:03:29

Az érettségin mindig szerepel statisztikai jellegű feladat. Ugyanakkor a jelenlegi matematika feladatgyűjteményekben szereplő statisztika feladatok legtöbbször hosszadalmasak és nem kicsi táblázatokat kell kiértékelni. Így ezek a feladatgyűjteményekben feladatok többsége matek-órán nehezen használhatók gyakorlásra, mert ezeknek a feladatoknak a megoldására elég sok időt rá kell fordítani. (Szerintem ezek a feladatgyűjteményben szereplő statisztika feladatok inkább excell-vizsgafeladatok, mint matematika feladatok.) Javaslom, hogy akinek van statisztika feladata, amely gyakorlásra alkalmas, rövid, kevés számolással jár, ugyanakkor tanulságos vagy érdeklődést felkeltő, az tegye közzé lehetőleg itt.

Kezdem én!

Egyszer régen egy messzi-messzi galaxisban.... Egy bolygón egy pantyóka nevű állatfaj élt. Ezek a pantyókák nagyon különleges állatkák, minden pantyóka a fehér-szürke-fekete színekben pompázik. Ráadásul minden pantyóka vagy egyszínű, vagy háromszínű. Mégpedig, ha egy pantyóka elejének és hátuljának színe azonos, akkor a pantyóka közepének színe megegyezik az elejének és hátuljának színével. Továbbá, ha egy pantyóka elejének és hátuljának a színe különbözik, akkor a közepének a színe eltér az elejének és a hátuljának a színétől. (Tehát, ha egy pantyóka eleje fehér és hátulja szürke, akkor a közepe fekete.)

Az alábbi táblázat egy pantyóka (különleges állatfaj) 99000 tagot számláló populációjából kiválasztott 450 tagú mintájának színeloszlását mutatja.

eloszás eleje fehér eleje szürke eleje fekete
hátulja fehér 10 db 40 db 70 db
hátulja szürke 60 db 90 db 20 db
hátulja feket 30 db 80 db 50 db

Az állatközösséggel foglalkozó professzorok a következő tulajdonságokat állapították meg:

Aa.) Ha egy példány eleje fehér, akkor a példány hossza 1 cm.

Ab.) Ha egy példány eleje szürke, akkor a példány hossza 4 cm.

Ac.) Ha egy példány eleje fekete, akkor a példány hossza 9 cm.

Ba.) Ha egy példány közepe fehér, akkor a példány tömege 2 gramm.

Bb.) Ha egy példány közepe szürke, akkor a példány tömege 3 gramm.

Bc.) Ha egy példány közepe fekete, akkor a példány tömege 7 gramm.

Ca.) Ha egy példány hátulja fehér, akkor a példány életkora 5 nap.

Cb.) Ha egy példány hátulja szürke, akkor a példány életkora 6 nap.

Cc.) Ha egy példány hátulja fekete, akkor a példány életkora 8 nap.

Néhány felvetett kérdést a következő hozzászólásomban közlök.

[7] Fernando2010-04-17 11:48:00

Oltóanyag-hatásosság vizsgálati ügyben jó esetben néhány év múlva tudok nyilatkozni. Itt egy újabb probléma: adott egy ponthalmaz, teszteljük azt, hogy véletlenszerűen keletkezett (=az egyenletességi hipotézis teljesül rá). Erre találjunk ki vmi. módszert, ami megadott szinten hivatott ezt ellenőrizni. Mondjuk legyen a síkon véges sok pont először is. Ezt egy másik topic ihlette...:) Nekem van egy nem túl erős ötletem rá.

[6] Maga Péter2010-02-06 20:55:26

Természetesen jöhet más téma is. Meg kell azonban vallanom, hogy nekem a matematikai statisztika nem okoz olyan esztétikai élményt, hogy önmagáért foglalkozzak vele. Tehát nem biztos, hogy minden kérdéshez hozzá fogok szólni. Mivel érteni sem értek hozzá, ezért a számomra érdekesebb esetekben is inkább csak kérdezni fogok. Mint ahogy tettem ezt a H1N1 esetében is.

Előzmény: [5] Fernando, 2010-02-05 21:45:36
[5] Fernando2010-02-05 21:45:36

Kedves Péter!

Beszéltem egy biológus PhD hallgatóval, ő is gondolkodik a dolgon. Azt mondta, hogy "az állatkísérletek alapvetően nem rosszak" (bocs az állatvédőktől, de itt emberi életekről is szó van)

Tovább torzítja az emberi adatokat az, hogy akik pl megkapták az oltást valószínűleg nem egy reprezentatív csoport, hanem inkább a kockáztatottabbak.

Hallottam amúgy olyan szakemberről, aki éppen ilyen jellegű témákkal foglalkozik, ha ráér, megkérdezem.

Mivel Te indítottad a témát, nem akarok kibújni alóla, de én örülnék ha itt mindenféle matematikai statisztikai témákról is lehetne beszélni. Érdekes, hogy amúgy máshol még nem is láttam statisztikai témát a fórumban.

[4] Fernando2010-02-04 12:06:22

Én is kíváncsi lennék egy igazi szakértő véleményére!

Addig is okoskodhatunk! Fizikás szlenggel élve a fő baj, hogy nagyon "zajosak" az adatok. Maga a khí-négyzet próba az már nem okozna gondot, (leszámítva, hogy valóban elég gyönge lenne), gondolom úgy nézne ki a kontingencia táblázat, hogy oltott/nem oltott, túlélő/(sajnálatos) áldozat.

Csak persze kik kerülnének bele a táblázatba? Akik biztosan elkapták? Na igen, de akikről tudjuk, hogy biztosan elkapták, azok már eleve a súlyos esetek, ahogy azt írtad is.

Matematikailag más módszer jobb lehet, nevezetesen R. A.Fisher nevéhez köthető, felhasználva a Finney-Latscha-Bennett-Hsu táblázatot. Nyugi ezt nem tudom fejből, azért vannak a könyvek...:) Ez olvasható Vincze István: Matematikai statisztika ipari alkalmazásokkal című könyve 140-től 143-dik oldalon.

Kevésbé zajos adatokat pl állatkísérlettel tisztázott laboratóriumi körülmények között nyerhetnénk.

Előzmény: [3] Maga Péter, 2010-02-03 22:56:00
[3] Maga Péter2010-02-03 22:56:00

Hát ugye a "triviális" függetlenségvizsgálat valahogy úgy nézne ki, hogy túlélők oltott/oltatlan partíciója és elhunytak oltott/oltatlan partíciója (a védőoltás elvileg a betegség kialakulását akadályozza meg, de arra vonatkozó adatokat sajnos nem nagyon lehet kapni, hogy hányan kapták el a betegséget, mivel egy jelentős részük otthon kiheveri meleg teával). Ily módon valójában persze csak a védőoltás sokak által életmentőnek mondott hatását lehetne mérni (és nem a tényleges védőoltás-funkciót), de ebbe törőjünk bele. És igen, akkor egy \chi2-próba, természetesen. Sajnos az én statisztikai tudásom eddig, illetve ennél nem sokkal tovább terjed. Ezért is érdekelne, mit mond a téma egy szakértője. Azért sajnos, mert a leírt egyszerű módszerrel vannak bajok.

Mik is? Egyrészt az egyes számok között elég komoly nagyságrendi különbségek vannak, helyenként milliós nagyságrendű számok, mások tízes nagyságrendben. Ilyenkor a próba nem lesz túl erős.

Másrészt amikor elkezdték az embereket beoltani, már tíz körüli (lehet inkább 15) halálos áldozata volt a betegségnek, amit nem lehet elhanyagolni (figyelembe véve, hogy összesen kb. 80 van eddig).

Ez két tisztán matematikai jellegű nehezítése a "két vérnyomáscsökkentő és két adatsor" feladatnak, amikről nem tudom, hogyan lehet őket kezelni.

És akkor még vannak a beoltottak, akiknél nem telt le az oltás és a betegség megkapása között a két hét, ami után a védettség -- a forgalmazók szerint -- garantált. Őket valahová kell számolni, esetleg valamilyen súllyal ide is, oda is. Ez is matematikai, bár ezt tudom értelemszerűen kezelni.

És hát még biztosan lehetne folytatni a sort.

Megjegyzem, engem személy szerint a matematikai statisztika sokkal inkább szórakoztat, mint ténylegesen érdekel. Csupán a környezetemben levő nézetkülönbségek hatására jutottam el arra a kérdésre: Mit mond erről a tudomány (ti. a matematika)?

Előzmény: [2] Fernando, 2010-02-03 10:11:47
[2] Fernando2010-02-03 10:11:47

Kedves Péter!

Én is furcsának tartom, hogy matematikai statisztikával kapcsolatban ez az első téma.

Én is azt gondolom, hogy maradjunk a MATEMATIKAI STATISZTIKÁNÁL. (bár a grafikonhamisítós se rossz...)

Ez az oltóanyag-hatásosság messze nem tűnik triviális kérdésnek, mert nagyon sok körülmény befolyásolja. Ez valóban nem olyan egyszerű mint amikor van két vérnyomáscsökkentő és két adatsor...

Függetlenségvizsgálatnál pl. milyen mintát és hogyan vennél? és konkrétebben khi-négyzet próbára gondoltál?

[1] Maga Péter2010-01-23 17:46:16

Lehet, hogy már létezik ilyen téma, akkor mindenek előtt elnézést kérek a moderátortól, aki arra kényszerül, hogy összevonja egy másikkal.

Másodsorban le szeretném szögezni, hogy bár felvetésemnek rengeteg más (aktuálpolitikai, orvosszakmai, etikai stb.) vonatkozása is létezik, erre fórumra csak a matematikai aspektus megvitatása illik, a többit -- többek között a békesség érdekében -- csak akkor feszegessük, ha közvetlen következményei vannak az általunk vizsgált területen.

Szóval hosszú bevezetés után jöjjön a kérdés. Hatásos-e a Magyarországon használt oltóanyag (ti. a H1N1 elleni)? Hogyan lehet ezt megmérni? Vannak számadatok az utóbbi hónapokról, amik segítségével az oltóanyag hatékonysága a matematikai statisztika módszereivel vizsgálható (pl. függetlenségvizsgálat). Ha van valaki, aki ebben a témában 'expert', akkor ossza meg velünk a tudását, gondolom, nem csak engem foglalkoztat a kérdés.