Méthode fréquentielle



Cette première méthode, la plus simple est basée sur l’étude des fréquences des mots.

Un lexique de taille n a été extrait de l’ensemble du corpus de romans qui a servi comme corpus d’apprentissage dans l’étude.

Un texte est donc représenté par une suite de n valeurs (dans un espace vectoriel à n dimensions).

C’est donc l’aspect statistique des fréquences qui permet de catégoriser les textes.
Les étapes sont les suivantes. Après avoir construit un index de l’ensemble du corpus d’apprentissage, il est ordonné par ordre décroissant des fréquences (de la plus grande fréquence à la plus petite).

Chacune des formes du texte est associée à une dimension de l’espace de représentation et chaque texte est alors représenté, dans cet espace, par un vecteur qui prend en compte chacun de ses termes.

Le classifieur utilisé est un classifieur bayésien multinomial.