Parametri d’interesseIUT Nice – Côte d’Azur
Département STID
6 Janvier 2006 SondagesCorso di campionamento
Parametri d’interesse
IUT Nice – Côte d’Azur
Département STID
6 Janvier 2006 SondagesCorso di campionamento
Nomenclatura
Indicheremo con U una popolazione, con N la sua numerosità, con k la sua etichetta e con lettere maiuscole i valori di interesse (Yk)
Se Y è un carattere quantitativo sono di interesse il totale, la media aritmetica e la varianza
Se Y è qualitativo interessano le proporzioni degli elementi suddivise per ogni modalità
Indicheremo con c un campione, con n la sua numerosità, con i la sua etichetta, con Yi* la variabile aleatoria continua associata e con le lettere maiuscole le realizzazioni campionarie (yi)
Stimatori
La struttura di un generico stimatore lineare è una funzione delle variabile aleatoria continua dove ai rappresenta un coefficiente o un peso Le proprietà più importanti di uno stimatore che permettono di valutarne la qualità sono:
Correttezza: valore atteso di * è uguale a
Consistenza: limite n p(n*) converge a
Efficienza: l’errore quadratico medio di *, ossia E(* - )2, tende alla varianza di * *
Disposizioni con ripetizione
Consideriamo un campione di ampiezza n=2 di una popolazione U={1, 2, 3, 4} con quindi N=4 I campioni sono “ordinati”
Gli elementi dell’insieme sono:
(1,1) (1,2) (1,3) (1,4) (2,1) (2,2) (2,3) (2,4) (3,1) (3,2) (3,3) (3,4) (4,1) (4,2) (4,3) (4,4)
è formato da 16 punti campione: Nⁿ = 2n = 16
Notare che (1,1), (2,2), (3,3), (4,4) derivano dall’aver “pescato” due volte lo stesso elemento
Disposizioni senza ripetizione
Consideriamo un campione di ampiezza n=2 di una popolazione U={1, 2, 3, 4} con quindi N=4 I campioni sono sempre “ordinati”
Gli elementi dell’insieme sono:
(1,1) (1,2) (1,3) (1,4) (2,1) (2,2) (2,3) (2,4) (3,1) (3,2) (3,3) (3,4) (4,1) (4,2) (4,3) (4,4)
è formato adesso da 12 punti campione, cioè (N)n = N (N-1) (N-2) ….. (N-n+1) = 4 · 3 = 12
Notare che l’elemento (i, j) è distinto da (j, i)
Combinazioni con ripetizione
Consideriamo un campione di ampiezza n=2 di una popolazione U={1, 2, 3, 4} con quindi N=4 I campioni non tengono conto dell’ordine
Gli elementi dell’insieme sono:
(1,1) (1,2) (1,3) (1,4) (2,2) (2,3) (2,4) (3,3) (3,4) (4,4)
è formato da 10 punti campione:
Combinazioni senza ripetizione
Consideriamo un campione di ampiezza n=2 di una popolazione U={1, 2, 3, 4} con quindi N=4 I campioni non tengono conto dell’ordine e non possono essere ripetuti
Gli elementi dell’insieme sono:
(1,2) (1,3) (1,4) (2,3) (2,4) (3,4)
è formato da 6 punti campione:
Esempio 1
Consideriamo una popolazione X={1, 2, 3, 4, 5} in cui ogni elemento ha probabilità 0.2 e una popolazione Y={1, 2, 3, 4, 5} con elementi aventi probabilità p(Y) = (0.4, 0.2, 0.2, 0.1, 0.1)
Valori della popolazione
Media e varianza della popolazione X è:
E(X) = X = k=1…N xk p(xk) = 3
Var(X) = X2 = k=1…N (xk – E(X))2 / N = 2 Il problema è quello di stimare i parametri e della popolazione usando i dati del campione Media e varianza della popolazione Y è:
E(Y) = Y = k=1…N xk p(yk) = 2.3
Var(Y) = Y2 = k=1…N (yk – E(Y))2 / N = 1.81
Considerando le variabili aleatorie X e Y E(var(X))= i=1,N var(xi) p(var(xi)) = 1 (0 · 0.20 + 0.25 · 0.32 + 1 · 0.24 + 2.25 · 0.16 + 4 · 0.08) E(var(Y))= i=1,N var(yi) p(var(yi)) = 0.905 (0 · 0.26 + 0.25 · 0.30 + 1 · 0.24 + 2.25 · 0.12 + 4 · 0.08) La varianza della distribuzione delle medie ha valore quello della varianza della popolazione divisa per la numerosità del campione E(X ) = 3 = µX E(Y ) = 2.3 = µY
Valore medio della media
In generale X rappresenta una caratteristica della popolazione con E(X)=µ sconosciuta e var(X) = 2 sconosciuta = n / n Se x1, x2, …, xn è un campione estratto da X si considerano X1, X2, …, Xn variabili aleatorie con la stessa legge (uguale media e varianza) di X La media del valore di X risulta = ( + + …. + ) / n = = [E(X1) + E(X2) + …. + E(Xn)] / n = E(X) = E((X1 + X2 + …. + Xn) / n) = =
Varianza della media
= n2 / n2 = (2 + 2 + …. + 2) / n2 = = [var(X1) + var(X2) + …. + var(Xn)] / n2 = var(X) = var((X1 + X2 + …. + Xn) / n) = = / n In conclusione la distribuzione delle medie ha la medesima media della distribuzione della popolazione ma dispersione minore (2/n) Questa quantità è chiamata errore standard della media (mean standard error, MSE) e viene indicata con x = / n
Stima
Uno degli scopi della statistica inferenziale è quello di ottenere informazioni circa i parametri di una popolazione (considerati fissi) a partire da valori determinati in base al campione
I valori del campione possono essere considerati come i valori assunti da variabili aleatorie che hanno la stessa legge della popolazione dalla quale provengono
Si cercano indicazioni il più possibile precise sui parametri ignoti di una popolazione (media e varianza) attraverso i valori campionari (processo di stima)
Stimatore
La stima dei parametri di una popolazione si effettua attraverso uno stimatore che fornisce un valore approssimato del parametro
lo stimatore è una funzione T(X1, X2, ...., Xn) del campione
la stima è il risultato dello studio: t(x1, x2, ...., xn) Siano X1, X2, ...., Xn n variabili aleatorie indipendenti con la legge uguale a X
siano x1, x2, ...., xn i valori assunti dalle n variabili aleatorie nella realizzazione dello studio
Processo di stima
Lo stimatore T è quindi una regola che si utilizza per determinare il possibile valore del parametro incognito (media, varianza)
Quando la regola è stata stabilita saranno i valori del campione a determinare la stima t del parametro.
Se una caratteristica X (variabile aleatoria) della popolazione ha legge f(x) significa che ciascun elemento del campione X1, X2, ...., Xn è a sua volta una variabile aleatoria di legge f(x) ed è quindi possibile determinare f(x1), f(x2), ...., f(xn)
Determinare la “norma”
Risulta sempre nota la legge di X ma non sono noti (incognite) uno o più parametri della sua distribuzione Ad esempio:
X ha legge Binomiale [X~B(n,p)]: p è sconosciuto
X ha legge di Poisson [X~P(k)]: k è sconosciuto
X ha legge di Gaussiana [X~N(µ,)]: µ e/o sono sconosciuti
Comments