Analyse de la variance (ANOVA)
Prenons le cas d’une ANOVA à 1 facteur avec les notations suivantes :
- soit \(X\) une variable explicative à k modalités \(X_1, X_2, \ldots, X_k\) d’effectifs \(n_1, n_2, \ldots, n_k\).
- soit \(Y\) une variable numérique de moyenne \(\mu\).
- soit \(n\) le nombre total d’individus
L’analyse de la variance teste alors l’indépendance de \(X\) et \(Y\) selon le modèle suivant : \(y_i = \mu + \alpha_i + \epsilon_i\), y est la variable à expliquer, \(\mu\) est une constante, \(\alpha\) la variable explicative à effet fixe ou aléatoire et \(\epsilon\) l’erreur de mesure. On pose l’hypothèse fondamentale que l’erreur suit une loi normale centrée, de variance \(\sigma^2 \).
Contrairement à ce que son nom peut laisser croire, l’ANOVA est un test d’égalité de la moyenne en décomposant la variance de \(Y\) en deux parties :
- Variances interclasses (attribuées aux différences entre groupes)
Soient \(\mu_i\) la moyenne de Y calculée sur tous les individus pour lesquels \(X\) vaut \(X_i\). On définit de même \(V_i\) la variance de \(Y\), soit la somme de \((Y-\mu_i)^2\)/\((n_1-1)\) avec \(n_i\) les individus à l’intérieur de la classe \({x_i}\). - Variances intraclasses ou erreurs (attribuées aux variations aléatoires)
L’intensité de la liaison entre \(X\) et \(Y\) est communément mesurée par le \(R^2\) défini par :
\[R^2 = \frac{\text{somme des carrés interclasses}}{\text{somme des carrés totaux}} = \frac{\sum^k_{i=1} n_i(\mu_i - \mu)^2}{\sum^n_{j=1}(y_i - \mu)^2}\]
Il existe différents types d’ANOVA en fonctions du nombre de variables explicatives et de leur nature. Les fonctions suivantes représentent une partie des fonctions disponibles dans MATLAB :
- anova1, anova2 et anovan pour l’analyse de la variance à 1, 2 ou n facteurs
- multcompare pour le test de comparaison multiple
- kruskalwallis pour le pendant non paramétrique du test de la variance
- manova pour l’analyse multivariée de la variance
- coeftest pour l’analyse multivariée de la variance sur des modèles de mesures répétées.
Exemples et démonstrations
Références
Voir aussi: Apprentissage automatique avec MATLAB, Régression linéaire, Programmation linéaire, Big data, Calcul parallèle, Apprentissage supervisé, Apprentissage non supervisé