Le test du Khi-2 de Pearson est probablement le test statistique le plus populaire en linguistique de corpus, tout particulièrement lorsque l'accent est mis sur la mise en évidence de variations linguistiques entre des corpus. Depuis un certain nombre d'années, son utilisation est remise en cause en raison des très nombreux rejets de l'hypothèse nulle qu'il produit lorsqu'il est appliqué à de grands corpus. Oakes et Farrow (Literary and Linguistic Computing, 2007, 22, 85-99) ont proposé différentes adaptations de ce test afin de le rendre plus adéquat. Au moyen de procédures de rééchantillonnage, la présente recherche démontre la gravité du problème et l'insuffisance des remèdes proposés. Cette conclusion négative constraste avec les bénéfices qu'apporte l'analyse des correspondances, l'approche probablement la plus classique en analyse des données textuelles pour traiter ce genre de questions.

Pearson’s Khi-2 test is probably the most popular statistical test in corpus linguists, especially where emphasis is placed on highlighting linguistic variations between corpus. For a number of years, its use has been challenged because of the large number of rejections of the zero hypothesis it produces when applied to large corpus. Oakes and Farrow (Literary and Linguistic Computing, 2007, 22, 85-99) proposed various adaptations to this test in order to make it more appropriate. By means of re-sampling procedures, this research demonstrates the severity of the problem and the inadequacy of the remedies proposed. This negative conclusion is consistent with the benefits of the matching analysis, which is probably the most classic approach to textual data analysis to deal with such issues.

Analyse des différences lexicales entre des corpus : test ou distance du Khi-2?

Analysis of lexical differences between corpus: test or distance from Khi-2?

Abstract