Méthode pondérative
Cette méthode est basée sur la méthode de pondération TF-IDF (Term Frequency-Inverse Document Frequency) qui prend en compte les fréquences relatives par rapport à l’ensemble du corpus.
Dans la méthode 1 la fréquence dans le texte, calculée pour chaque terme du texte qui était présent dans le corpus d’apprentissage, ne permettait pas de mesurer la spécificité d’un terme par rapport à un document donné ou par rapport à un ensemble de documents. Or, une forme commune à de nombreux documents devrait être moins significative qu’une forme commune à peu d’entre eux.
La méthode pondérée, TF-IDF, définie par Salton permet de corriger ce biais. Term Frequency (TF) correspond au nombre d’occurrences d’un terme dans un texte, sa pondération locale, alors que le Inverted Document Frequency (IDF) désigne la valeur inverse du nombre de documents dans lesquels le terme considéré est présent, sa pondération globale.
Ainsi, la combinaison TF-IDF met en exergue le nombre d’occurrences de la forme dans le document par rapport à sa distribution dans l’ensemble du corpus. Ceci dans la perspective d’évaluer sa pertinence (sa surreprésentation ou, au contraire, sa rareté relative). Historiquement, plusieurs formes de pondération des termes ont été proposées. Nous utilisons ici la formule suivante pour calculer le poids associé à la forme t dans un texte d :

où |D| désigne le nombre de documents du corpus, TFt,d désigne la fréquence d’apparition du terme t dans le document d et DFt représente le nombre de documents comprenant le terme t.