OK
AJAX error!

Les forumsDictionnaireDictionnaire 4.12

Dictionnaire 4.12

Je viens de publier la version 4.12 des dictionnaires. Pas grand-chose à en dire, une simple évolution de ce qui s’est fait jusqu’à présent. Mais cette version sera a priori la dernière mise à jour de la version 4.
le 13 septembre 2013 à 18:26

Je viens de publier la version 4.12 des dictionnaires.


Excellente nouvelle et merci. Je viens d’essayer de passer LanguageTool de dicollecte-4.10 à dicollecte-4.12 mais les tests échouent. Je vois par exemple que l’adverbe « très » n’est plus étiqueté dans le fichier lexique-dicollecte-fr-v4.12.txt.LT.txt créé par le script DL2LT.py :

Avec dicollecte-4.10:

$ grep très lexique-dicollecte-fr-v4.10.txt.LT.txt
très très A
$ grep très lexique-dicollecte-fr-v4.10.txt
177929 très très mg adv 34157191 263593 94175 34514959 1 0 0.104342609051515 9

Avec dicollecte-4.12:

$ grep très lexique-dicollecte-fr-v4.12.txt.LT.txt
(pas trouvé!?)
$ grep très lexique-dicollecte-fr-v4.12.txt
177929 très très mg adv trés TRS 34157191 263593 94175 34514959 1 0 0.104349481967961 9

Est-ce un bug de DL2LT.py ou un bug dans lexique-dicollecte-fr-v4.12.txt ?

Bizarre aussi ce "trés" au lieu de "très" dans la 6e colonne du fichier lexique-dicollecte-fr-v4.12.txt.
le 13 septembre 2013 à 22:03
C’est curieux, mais ce qui est curieux, c’est que très se trouvait dans le lexique LT 4.10 suite à la conversion. Parce que je dirais que c’est normal maintenant. En effet, le script de conversion exclut normalement (et c’est comme ça depuis le début) tous les mots qui possèdent l’étiquette mg. Ces mots sont censés être repris du vieux fichier inDico fourni dans l’archive.

Je dirais qu’il faut ajouter l’entrée très dans la liste des mots hérités d’inDico.

Quels sont les autres problèmes ?

Bizarre aussi ce "trés" au lieu de "très" dans la 6e colonne du fichier lexique-dicollecte-fr-v4.12.txt.


Non, ne t’inquiète pas de ça. La 6e colonne est expérimentale. Encore un truc pas fini. :)
La 6e colonne est le résultat de mes tests pour créer une graphie phonétique pour le français.
La 7e colonne est une conversion des mots par l’algorithme Metaphone 2 (Double metaphone).
le 13 septembre 2013 à 22:49

Je dirais qu’il faut ajouter l’entrée très dans la liste des mots hérités d’inDico.


OK, je vais ajouter les entrées suivantes dans inDico_mg.LT.txt:

beaucoup beaucoup A
assez assez A
bien bien A
jamais jamais A
très très A

Tous les tests de LT passent maintenant avec Dicollecte-4.12, mais je vais vérifier un peu plus avant de faire un submit dans Git ce week-end. LT-2.3 sortira à la fin de ce mois (sep 2013).
le 13 septembre 2013 à 23:52
J’ai ajouté ces entrées à inDico pour la prochaine version.
le 14 septembre 2013 à 07:19
Je viens de voir un problème probablement avec le script DL2LT.py dans Dicollecte-4.12 :

Avec Dicollecte-4.10 :

$ grep Virginie lexique-dicollecte-fr-v4.10.txt.LT.txt
Virginie Virginie Z e sp
Virginie Virginie Z e sp
Virginie-Occidentale Virginie-Occidentale Z f s

Avec Dicollecte-4.12 :

$ grep Virginie lexique-dicollecte-fr-v4.12.txt.LT.txt
Virginie-Occidentale Virginie-Occidentale Z f s

Pourquoi le mot « Virginie » a disparu dans Dicollecte-4.12 ?
Cela cause une fausse erreur dans LT avec « L’État de la Virginie » (« la » et « Virginie » pas accordés en genre).
le 16 septembre 2013 à 22:08
Oui, apparemment, ce problème concerne deux entrées : Laval et Virginie. Parce qu’elles sont plusieurs natures grammaticales que le convertisseur ne sait pas gérer. Je vais régler ça.
le 16 septembre 2013 à 23:20

Je viens de voir un problème probablement avec le script DL2LT.py dans Dicollecte-4.12 :

Avec Dicollecte-4.10 :

$ grep Virginie lexique-dicollecte-fr-v4.10.txt.LT.txt
Virginie Virginie Z e sp
Virginie Virginie Z e sp
Virginie-Occidentale Virginie-Occidentale Z f s

Avec Dicollecte-4.12 :

$ grep Virginie lexique-dicollecte-fr-v4.12.txt.LT.txt
Virginie-Occidentale Virginie-Occidentale Z f s


Je trouve aussi bizarre que le mot « Virginie » était épicène dans lexique-dicollecte-fr-v4.10.txt.LT.txt.
Le nom propre avec majuscule devrait être féminin uniquement.
le 17 septembre 2013 à 13:26
Oui, j’ai vu, j’ai déjà corrigé.
le 17 septembre 2013 à 17:38

Notification par e-mail    0