OK
AJAX error!

Totes los forumsA prepaus del siteEncodatge ? Afixes ?

Encodatge ? Afixes ?

Logique du correcteur (version MySpell).
Le correcteur orthographique se compose de 2 fichiers, le fichier oc_FR.dic qui est la liste des mots > et le fichier oc_FR.aff qui contient les spécifications de créations des préfixes et des suffixes. En effet il vaut mieux que le programme créé les mots en mémoire car il sera plus rapide que de les rechercher sur le disque, ce qui le ralentirait.
Dans dicollecte lorsque tu cliques sur le mot que tu recherches par exemple òme, il te propose òme/slD, òme est le mot de base (lemme) et le codage /slD fait référence au affixes. Si tu cliques sur cette ligne, le programme d'Olivier te donnera tout les flexions du mots trouvées grâce au codage slD c'est à dire qu'il te donnera òme, òmes, l'òme, dòme, d'òmes cela grâce au fichier oc_FR.aff. Si on prend comme exemple > le codage est /s , jardin/s. Cela veut dire que le programme va créér les mots en suivant les directives du /s. Le programme parcourt tout ce fichier et regarde toutes les lignes qui ont comme code s. (voir dessous). Il parcourt toutes les lignes et regarde les conditions de test, la dernière colonne:

SFX veut dire que c'est un suffixe donc les modif sont faites en fin de mot,

[íáaeiournmlrdfp] par exemple sur la première ligne (ci-dessous) veut dire que les mots dont la dernière lettre est "í" ou "á" ou "a" ou eiournmlrdfp" voit un "s" ajouté à la fin du mot. En effet le "0" en première colonne veut dire que l'on ne fait rien et le "s" en seconde colonne veut dire que l'on rajoute le "s".
Si on prend le mot" bòsc" avec "/s", "bòsc/s " il parcourt cette partie SFX s et applique la ligne "SFX s sc sques [s]c " car la 2 dernières lettres du lemme ou mot de base sont bien "[s]c" comme la 1er colonne contient "sc" le programme retire "sc" de la fin du mot et rajoute le contenu de la 2ème colonne cad "sques" cela donne bien "bòsques".


fichier d'affixes pour le codage s
SFX s Y 22
SFX s 0 s [íáaeiournmlrdfp]
SFX s 0 s [^s][t]
SFX s 0 es st
SFX s 0 s [^s][c]
SFX s sc sques [s]c
SFX s 0 s lh
SFX s ós oses [ó]s
SFX s 0 ses [ò]s
SFX s 0 es ch
SFX s ç ces ç
SFX s 0 es g
SFX s tz ses tz
SFX s és eses és
SFX s 0 èses ès
SFX s ís ises ís
SFX s ívol ivoles ívol
SFX s 0 enses ens
SFX s c ques enc
SFX s às asses às
SFX s 0 ses èis
SFX s 0 ses [^úòóàé]s
SFX s ús usses [ú]s

Les codages les plus simples et les plus communs sont
mot òme
/s pluriel òmes
/l l' l'òme
/D d' d'òme, d'òmes

Conjugaison régulière
verbe à l'infinitif et codage
/a cantar/ah
/ih legir/ih
etc...
C'est vrai que pour la conjugaison irrègulière c'est plus lourd heureusement que ces verbes sont réguliers dans leurs irrégularités mais on est obligé de travailler sur le radical du mot avec les suffixes de conjugaison:
ex poder. Il donne;
pòdi/u
podiái/v
poguèri/w
poirai/x
poguda
pogut
Tu peux voir chaque code pour comprendre ce qu'il fait. Même moi je ne m'en rappelle plus mais en lisant la logique du fichier aff je resitue vite la façon de coder. C'est lourd mais logique.

Je dois ajouter que ce type de fichier étaient pour MySpell, l'ancien correcteur. la nouvelle version s'appelle Hunspell (correcteur pour le hongrois). Il est beaucoup plus souple et plus riche , en plus il contient les notions de genre, nombre etc... pour rajouter les bases pour un correcteur grammatical. Dans dicollecte tu as vu qu'ils parlent de Grammalecte (programme adapté au français par Olivier et son groupe). A terme il serait bien de refondre les fichiers anciens (myspell) dans le format de Hunspell ainsi avoir en ligne de mire le correcteur grammatical et orthographique.
Mais dans un premier temps il vaut mieux avoir une base correcte et validée de mots sur laquelle nous pourrons travailler sérieusement.

J'ai fini pour ce cours, j'espère que je ne t'ai pas trop barbé mais tu le vois bien c'est lourd mais logique et compréhensible en lisant les 2 fichiers.

Bona jornada,

Brunon
2013-11-29 11:06

Notificacion per E-mail    0