Metodi Quantitativi per Economia, Finanza e ManagementLezione n° 10
Metodi Quantitativi per Economia, Finanza e ManagementLezione n° 10
Equazione di regressione lineare multipla i-esima oss. su Y i-esima oss. su X1 errore relativo all’i-esima oss. intercetta
coefficiente di X1 La matrice X=[1,X1,…,Xp] è detta matrice del disegno. Il modello di regressione lineare
Le ipotesi del modello
Errori a media nulla Errori con varianza costante (omoschedasticità) Errori non correlati (per ogni i≠j) Errori con distribuzione Normale * 1 – 3 hp deboli
1 – 4 hp forti Il modello di regressione lineare
Le ipotesi del modello
Stimando la retta di regressione si commette un errore di previsione: Metodo dei Minimi Quadrati Y X VALORE STIMATO VALORE OSS. ERRORE Il modello di regressione lineare
La stima del modello
Equazione teorica coefficienti non noti Equazione stimata coefficienti stimati (una delle infinite rette possibili) stime dei coefficienti errore di previsione previsione Il modello di regressione lineare
La stima del modello
Proprietà dello stimatore LS
non distorto
consistente (se valgono certe hp su X’X)
coincide con lo stimatore di max verosimiglianza sotto
hp forti
BLUE (Best Linear Unbiased Estimator)
Il modello di regressione lineare
La stima del modello
Consistenza vale sotto particolari ho sugli elementi di X’X si ha consistenza sse gli elementi diagonali della matrice inversa di X’X vanno a 0 per n che va a infinito
Indicatori sintetici di bontà del Modello R-quadro adjusted OK valori alti R-quadro OK valori alti Il modello di regressione lineare
La stima del modello Test F OK p-value con valori bassi
Test t per valutare la significatività dei singoli coefficienti
ipotesi nulla (j=1,…,p) valutazione il coefficiente è significativo (significativamente diverso da 0) se il corrispondente p-value è piccolo (ossia, rifiuto l’ipotesi di coefficiente nullo) il regressore a cui il coefficiente è associato è rilevante per la spiegazione del fenomeno statistica test Il modello di regressione lineare
La stima del modello
Interpretazione dei coefficienti
impatto di Xj su Y posto che nel modello sono presenti altre variabili
tasso di variazione di Y al variare di Xj
come varia Y al variare di una unità di Xj se gli altri regressori non variano
Il modello di regressione lineare
La stima del modello
Segno del coefficiente
indica la direzione dell’impatto del regressore a cui è associato
segno atteso diverso da quello osservato può indicare interazione tra i regressori (multicollinearità)
Ordine di grandezza
dipende dall’unità di misura
per valutarlo usare coefficienti standardizzati Il modello di regressione lineare
La stima del modello
Il modello di regressione lineare Introduzione ai modelli di regressione – Case Study
Obiettivi
Le ipotesi del modello
La stima del modello
La valutazione del modello
Commenti
OUTLIERS ? INFLUENTI ? Il modello di regressione lineare
L’analisi di Influenza
Se hii va a 0 residui standardizzati e studentizzati coincidono.
Se hii va a infinito i residui studentizzati sono molto più piccoli di quelli standardizzati.
Valori alti di entrambi i residuioutlier
Valori alti dei residui studentizzati e bassi dei residui standardizzatioss influente
Osservazione anomala rispetto alla variabilità di Y non attira a sé il modello in maniera significativa OUTLIER Il modello di regressione lineare
L’analisi di Influenza
Osservazione anomala rispetto alla variabilità di Y attira a sé il modello in maniera significativa OUTLIER Il modello di regressione lineare
L’analisi di Influenza
Valutazione dell’impatto delle singole osservazioni
osservazioni outlier che creano distorsione nella stima del modello
- plot dei residui
- plot X/Y
osservazioni influenti che contribuiscono in modo “sproporzionato” alla stima del modello
- plot dei residui
- statistiche di influenza
Il modello di regressione lineare
L’analisi di Influenza
Leverage H: i-esimo elemento della diagonale della matrice di proiezione. misura quanto un’osservazione è lontana dal centro dei dati (ma tende a segnalare troppe oss influenti e tratta tutti i regressori nello stesso modo) oss influente se lev H>2*(p+1)/n Distanza di Cook: misura la variazione simultanea dei coefficienti quando un’osservazione viene rimossa
oss influente se D>1 Il modello di regressione lineare
Statistiche di Influenza
Leverage alto per i-esima oss la correlazione tra Yi e il suo valore previsto è quasi 1Yi ha forte influenza sulla stima del valore previsto. Se il valore è piccolo vuol dire che ci sono tante oss che contribuiscono alla stima del valore previsto. Un’oss con alto leverage fa spostare di tanto la retta stimata.
Plot delle statistiche di influenza attenzione alle osservazioni nel quadrante in alto a destra D lev H INFLUENTI - D INFLUENTI – SIA D CHE LEVERAGE H INFLUENTI - LEVERAGE H Il modello di regressione lineare
Statistiche di Influenza
Il modello di regressione lineare
Statistiche di Influenza
171.72861 Coeff Var 0.6200 Adj R-Sq 32431 Dependent Mean 0.6207 R-Square 55693 Root MSE
<.0001 -8.85 2077.96317 -18390 1 Residenza Sud SUD 0.0133 -2.48 2597.25872 -6431.88493 1 Residenza Centro CEN 0.0835 1.73 1994.83468 3453.14705 1 Sesso SESSO 0.5871 0.54 1110.84778 603.36550 1 Numero di liste di appartenenza LISTA <.0001 21.76 683.88703 14881 1 Totale ordini TOT_ORD <.0001 24.98 0.10102 2.52341 1 Pagato con rate mensili PAG_MES <.0001 21.78 0.05485 1.19433 1 Pagato in contrassegno PAG_ORD <.0001 -6.46 2324.86370 -15016 1 Intercept Intercept Pr > |t| t Value StandardError ParameterEstimate DF Label Variable Parameter Estimates
Il modello di regressione lineare
Statistiche di Influenza
Il modello di regressione lineare
Statistiche di Influenza
DATA REGRESS1 (DROP = COOK H REDD_PRE RES_STUD);
SET RESID_0;
WHERE COOK < 0.019 & H < 0.015;
PROC REG DATA=REGRESS1;
MODEL REDD=PAG_ORD PAG_MES TOT_ORD LISTA
SESSO CEN SUD ;
PAINT RSTUDENT.> 2 / SYMBOL='O';
PAINT RSTUDENT.<-2 / SYMBOL='O';
PLOT RSTUDENT.*P.;
PLOT P.*REDD;
PLOT COOKD.*H.;
RUN;
Comments