Conflitto tra varianza e distorsione nell’adattamento di un modello ai dati
giugno 26, 2009 by admin
Filed under Business Intelligence, Statistica, data mining
L’errore quadratico medio è un indice della bontà di una stima. È costituito da 2 componenti principali: distorsione^2 + varianza. Esse sono legate alla complessità del modello:
- bassa complessità: elevata distorsione, varianza contenuta
- elevata complessità: la distorsione si abbassa, ma aumenta la varianza (sovra adattamento del modello ai dati, eccesso di ottimismo nella
valutazione dell’errore di previsione)
Le due componenti non possono essere minimizzate contemporaneamente, è necessario un compromesso.
La distorsione è dovuta al fatto che ignoriamo il meccanismo che genera i dati, altrimenti questa potrebbe essere contenuta da un modello parametrico ben definito. Si opera per tanto in contesti non parametrici…
Tags: distorsione, errore quadratico medio, modello, varianzaRelated posts
“gradi di libertà equivalenti” e di analisi della varianza nel contesto dei modelli additivi.
maggio 21, 2009 by admin
Filed under Business Intelligence, Statistica, data mining
Utilizzati nel GAM
Stabilire se variabile esplicativa sia trascurabile
utilizzati per costruire una tabella di analisi della varianza, matrice di lisciamento S dei residui al posto della matrice di proiezione P utilizzata nei modelli lineari. La distribuzione non è più una chi quadro.
I gradi di libertà equivalenti corrispondenti alla scelta del parametro di lisciamento quantificano la “parziale irregolarità” delle stime della variabile risposta tra 2 poli estremi (interpolazione parametrica lineare – totalmente irregolare) tr(S) rappresenta il numero di parametri equivalenti implicati nel modello e dalla scelta del parametro di lisciamento; n-tr(S) rappresenta la componente di non regolarità, quantifica la parte dei dati allocata alla stima della componente di errore.
Analisi della varianza per i GAM, scomporre variabilità totale in componenti attribuibili ad ogni variabile esplicativa. Differenza di devianza tra modello completo e modello ridotto senza la variabile. Gradi di libertà equivalenti per la componente: differenza tra gradi di libertà del modello completo e quello senza variabile.
Tags: analisi dati, GAM, gradi di libertà, modelli lineari, varianza
