ANALISI DELLA VARIANZA A UNA VIA Anno accademico 2009/2010
Corso: Metodi di Applicazioni Statistiche
Prof: Salmaso Luigi
Realizzata da:
Guidolin Elisa
Ferrari Enrico
Folco Manuele
Zanotto Marco
ANALISI DELLA VARIANZA A UNA VIA Anno accademico 2009/2010
Corso: Metodi di Applicazioni Statistiche
Prof: Salmaso Luigi
Realizzata da:
Guidolin Elisa
Ferrari Enrico
Folco Manuele
Zanotto Marco
Strategia della sperimentazione Gli esperimenti sono una parte fondamentale dell'ingegneria e del processi di decision-making scientifici.
Design of Experiment (DOE): Insieme di tecniche e metodi di programmazione esperimenti che permette di determinare l'influenza di uno o più fattori su una variabile risposta di interesse (Ronald Fisher, 1920)
Randomizzazione Tecnica con la quale si realizzano le osservazioni per i diversi campioni.
Trattamenti: diversi livelli di studio del fattore di analisi.
Unità sperimentali: campioni su cui è eseguita
l'analisi. Devono essere
identici tra di loro
Il principio prevede che le osservazioni di ogni trattamento siano prese scegliendo in ordine casuale sia i trattamenti che le unità sperimentali.
Randomizzazione (2)
La randomizzazione è estremamente importante perchè:
Permette l’applicabilità dei modelli probabilistici, sui quali si regge dal punto di vista metodologico l’intero studio.
Assicura che in media la risposta ha valore nullo per l'errore.
Randomizzazione (3)
Ogni osservazione è sempre affetta da errori Yij = i + ij
Componente di errore: ij = ’ij + ”ij
’ij = errore dovuto a unità sperimentale
”ij = errore tecnico
Con randomizzazione: (ij) = 0 (Yij) = i
Esempio Un'azienda che produce borsette di cartone è interessata nel migliore la resistenza a tensione del proprio prodotto. Si vuole studiare il comportamento per diverse percentuali di concentrazione di cellulosa. In particolare si vogliono analizzare quattro livelli: 5%, 10%, 15%, 20%. Nella tabella seguente sono riportate le osservazioni rilevate:
L’ANOVA è una procedura che permette il confronto tra le medie di più gruppi, determinati sulla base di variabili indipendenti chiamate fattori.
Ipotesi:
Casualità e indipendenza delle osservazioni
(conseguenza della randomizzazione)
Distribuzione normale delle osservazioni
Omogeneità delle varianze.
ANALISI DELLA VARIANZA
Modello statistico lineare Con i =1,...,a ; j = 1,...,n
a = numero trattamenti
n = numero osservazioni Consideriamo un modello bilanciato (numero osservazioni uguale per ogni trattamento) Y sono le osservazioni sperimentali. μ è la media complessiva. τ è l'effetto del trattamento. ε è l'errore casuale. La media del campione può essere espressa μi = μ + τi.
Si assume che gli errori ε sono normalmente distribuiti con media zero (randomizzazione).
Ogni trattamento può essere visto come una popolazione normale di media μi e varianza δ^2.
Verifica dell'ipotesi Ipotesi
H0 : τ1 = τ2 = ...= τa = 0
H1 : le τi ≠ 0 per almeno una i
che coincide all'ipotesi:
H0 : μ1 = μ2 = ...= μa
H1 : le μi non tutte uguali tra loro (almeno una diversa dalle altre).
Scomposizione degli scarti Somma degli scarti totali: Somma scarti tra trattamenti (BETWEEN): Somma scarti nei trattamenti (WITHIN):
Scarti come stima della varianza Se l’ipotesi nulla è vera: Indipendentemente dall’ipotesi: Quindi per verificare l’ipotesi di ugualianza delle medie si utilizza una statistica F che confronta MSTreatments e MSE
Assumendo che ogni a popolazione possa essere modellata come una distribuzione normale, si può verificare se l’ipotesi H0 è vera, grazie a: Con una F-distribuzione di a-1 e a(n-1) gradi di libertà. Se l’ipotesi nulla è falsa allora si avrà F0 > Fα,a-1,a(n-1) rifiutare H0 se Fo > Fα,a-1,a(n-1)
altrimenti non rifiutare H0
Tabella riassuntiva
Tabella riassuntiva (2)
23 512,958 Totale (Corr.) 6,50833 20 130,167 Intra-gruppo 0 19,61 127,597 3 382,792 Tra i gruppi P-value Rapporto F Media dei quadrati Gradi libertà Somma dei quadrati Sorgente Si rifiuta H0 perché F è maggiore di F critico.
Modello non bilanciato In qualche esperimento a singolo fattore, il numero delle osservazioni prese di
ogni trattamento potrebbe essere differente. Le formule diventano: Tuttavia è consigliato scegliere l’analisi con modello bilanciato in quanto il test è molto più efficace
L’intervallo di confidenza al 100(1-α) percento per la media del trattamento µi è dato da:
nel quale viene usato MSE come stima di σ2 e dove è il valore critico della distribuzione t di Student con a(n -1) gradi di libertà.
L’intervallo di confidenza al 100(1 – α) percento sulla differenza tra qualunque coppia di medie di popolazione di trattamento µi - µj è dato da:
dove rappresenta la varianza.
INTERVALLI DI CONFIDENZA
ANALISI DEI RESIDUI
OBIETTIVO: verificare che gli errori siano normalmente e indipendentemente distribuiti con varianza costante.
GRAFICO DI PROBABILITA’ DISTR.NORMALE
NORMALE DEI RESIDUI
GRAFICO DEI RESIDUI IN FUNZIONE VARIANZA
DEI LIVELLI DEL FATTORE O DI COSTANTE
GRAFIO DEI RESIDUI RISPETTO AL INDIPENDENZA
TEMPO
Comments