OK
AJAX error!

Les forumsDictionnaireDictionnaire 5.0

Dictionnaire 5.0

Pour la version 5, je prévois deux évolutions importantes :

1. La fusion de certaines règles du fichier des affixes

Pour me faire comprendre, je vais prendre comme exemple le verbe manger, dont voici la conjugaison avec les étiquettes :

manger v1_t_p_ infi
mangeant v1_t_p_ ppre
mange v1_t_p_ ipre 1sg
manges v1_t_p_ ipre 2sg
mange v1_t_p_ ipre 3sg
mangeons v1_t_p_ ipre 1pl
mangez v1_t_p_ ipre 2pl
mangent v1_t_p_ ipre 3pl
mangeais v1_t_p_ iimp 1sg
mangeais v1_t_p_ iimp 2sg
mangeait v1_t_p_ iimp 3sg
mangions v1_t_p_ iimp 1pl
mangiez v1_t_p_ iimp 2pl
mangeaient v1_t_p_ iimp 3pl
mangeai v1_t_p_ ipsi 1sg
mangeas v1_t_p_ ipsi 2sg
mangea v1_t_p_ ipsi 3sg
mangeâmes v1_t_p_ ipsi 1pl
mangeâtes v1_t_p_ ipsi 2pl
mangèrent v1_t_p_ ipsi 3pl
mangerai v1_t_p_ ifut 1sg
mangeras v1_t_p_ ifut 2sg
mangera v1_t_p_ ifut 3sg
mangerons v1_t_p_ ifut 1pl
mangerez v1_t_p_ ifut 2pl
mangeront v1_t_p_ ifut 3pl
mangerais v1_t_p_ cond 1sg
mangerais v1_t_p_ cond 2sg
mangerait v1_t_p_ cond 3sg
mangerions v1_t_p_ cond 1pl
mangeriez v1_t_p_ cond 2pl
mangeraient v1_t_p_ cond 3pl
mange v1_t_p_ spre 1sg
manges v1_t_p_ spre 2sg
mange v1_t_p_ spre 3sg
mangions v1_t_p_ spre 1pl
mangiez v1_t_p_ spre 2pl
mangent v1_t_p_ spre 3pl
mangeasse v1_t_p_ simp 1sg
mangeasses v1_t_p_ simp 2sg
mangeât v1_t_p_ simp 3sg
mangeassions v1_t_p_ simp 1pl
mangeassiez v1_t_p_ simp 2pl
mangeassent v1_t_p_ simp 3pl
mange v1_t_p_ impe 2sg
mangeons v1_t_p_ impe 1pl
mangez v1_t_p_ impe 2pl
mangé v1_t_p_ ppas mas
mangés v1_t_p_ ppas mas pl
mangée v1_t_p_ ppas fem
mangées v1_t_p_ ppas fem pl


Chaque déclinaison possède une règle pour elle seule. Ceci n’est pas utile. Il est possible de fusionner certaines règles. Par exemple, les règles suivantes génèrent les mêmes formes fléchies avec des étiquettes différentes :

mange v1_t_p_ ipre 1sg
mange v1_t_p_ ipre 3sg
mange v1_t_p_ spre 1sg
mange v1_t_p_ spre 3sg
mange v1_t_p_ impe 2sg

manges v1_t_p_ ipre 2sg
manges v1_t_p_ spre 2sg

mangeons v1_t_p_ ipre 1pl
mangeons v1_t_p_ impe 1pl

mangez v1_t_p_ ipre 2pl
mangez v1_t_p_ impe 2pl

mangent v1_t_p_ ipre 3pl
mangent v1_t_p_ spre 3pl

mangeais v1_t_p_ iimp 1sg
mangeais v1_t_p_ iimp 2sg

mangerais v1_t_p_ cond 1sg
mangerais v1_t_p_ cond 2sg


Le nouveau dictionnaire fusionnera ces étiquettes :

mange v1_t_p_ ipre spre 1sg 3sg
mange v1_t_p_ impe 2sg

manges v1_t_p_ ipre spre 2sg

mangeons v1_t_p_ ipre impe 1pl

mangez v1_t_p_ ipre impe 2pl

mangent v1_t_p_ ipre spre 3pl

mangeais v1_t_p_ iimp 1sg 2sg

mangerais v1_t_p_ cond 1sg 2sg


Comme vous le constatez, il n’est pas possible de fusionner mange à la deuxième personne de l’impératif sans provoquer de confusion.

L’intérêt est le suivant :
— ça accélérera le fonctionnement de Grammalecte (et réduira le coût mémoire) et devrait simplifier son fonctionnement,
— ça devrait aussi accélérer le fonctionnement de Hunspell (le nombre de règles se trouvant réduit).

Par prudence, je vais quand même maintenir en parallèle une version avec les règles non fusionnées. (En fait, selon la manière dont on conçoit le correcteur grammatical, chacune version peut avoir un avantage. Ceci dit, pour l’instant, la version actuelle n’est pour l’instant pas très utile.)


2. La fusion de certaines entrées du dictionnaire

Jusqu’à présent, il régnait un certain flou dans l’intégration des entrées pouvant être à la fois nom, adjectif et participe passé. En effet, les participes passés sont parfois aussi enregistrés comme adjectifs, parfois pas, ou parfois comme noms et adjectifs.

Par exemple, pour l’instant, on trouve dans le dictionnaire :
— damné, 2 entrées : participe passé // nom et adjectif
— abrégé, 3 entrées : participe passé // adjectif // nom masculin
— mangé, 2 entrées : participe passé // adjectif
— sourcé, 1 entrée : participe passé

Bref, tout ceci n’est pas très cohérent.

Dans le dictionnaire 5, on va fusionner ce qui peut l’être. Les participes passés variables peuvent toujours être considérés comme adjectifs, et seront étiquetés comme tels dans les règles du fichier des affixes. Du coup, de nombreuses entrées du dictionnaires ne seront plus utiles (doublons). Si le participe passé est souvent utilisé comme substantif, comme damné-e-s, on conservera une entrée spécifique qui sera étiquetée nom seulement, et pas adjectif (ce n’est pas nécessaire puisque ce sera déjà étiqueté comme tel dans le fichier des affixes).

J’ai déjà dressé une liste des mots concernés : www.dicollecte.org…

Le dictionnaire sera conséquemment purgé d’environ 3500 entrées (mais les mots seront toujours présents, pas de panique).

Ceci sera fait par script.
le 13 septembre 2013 à 18:26
En résumé, ça ne changera rien pour l’utilisateur (ça devrait être juste plus rapide). Tout ça, c’est juste de la cuisine interne.

La fusion des règles va me prendre du temps, il faut être prudent. Il se peut donc que le lexique ne soit pas publié pour les quelques prochaines versions (ça va dépendre de mon avancement), mais ça reviendra quand tout sera prêt.
le 13 septembre 2013 à 18:31
Bonjour,

c'est toujours un plaisir de voir évoluer cette extension.

Si je comprends bien, cela ne concerne pas (plus) les utilisateurs de LibreOffice/OpenOffice qui installent la version 0.3.5 de Grammalecte qui contient déjà le dictionnaire. La version 4.12 du dictionnaire est donc peut être déjà dans cette version de Grammalecte ou il le sera dans la suivante.


Pierre
le 13 septembre 2013 à 21:39
Grammalecte intègre une version entre 4.11 et 4.12. Je génère les dictionnaires à partir de la base de données. Ce ne sont pas des versions officielles, mais elles sont valides.
le 13 septembre 2013 à 22:49
La fusion des règles d’affixation est terminée, cela a permis de supprimer environ 2546 règles.
Pareillement, j’ai supprimé 3457 entrées du dictionnaire, les adjectifs qui faisaient doublon avec les participes passés.
le 08 novembre 2013 à 14:41
ça veut dire qu'une nouvelle version de grammalecte pointe le bout de son nez ?
le 09 novembre 2013 à 21:28
Rien de prévu pour l’instant. Il faut tester. Mais oui, sans doute une nouvelle version prochainement.
le 10 novembre 2013 à 11:13
La patience est mère de toutes les vertus....
le 10 novembre 2013 à 22:45
J’espère que non, car j’en ai très peu. :)
le 10 novembre 2013 à 23:05
Nouvelle version enfin publiée :
— environ 710 nouvelles entrées,
— fusion des règles d’affixation des conjugaisons (2546 règles supprimées),
— 3457 entrées supprimées (adjectifs redondants avec les participes passés).

La simplification du dictionnaire devrait se traduire par une accélération du mécanisme de suggestion (du moins, je l’espère, car ça ne paraît pas flagrant).
le 08 décembre 2013 à 19:26
J’aimerai mettre à jour LanguageTool pour utiliser Dicollecte-5.0, mais je vois que le lexique (fichier lexique-dicollecte-fr-v5.0.zip) ne contient plus le script DL2LT.py.

Est-ce un oubli ?
le 09 décembre 2013 à 11:44
Non, désolé, ce n’est pas un oubli. En fait, je croyais avoir mentionné il y a longtemps qu’il me faudrait du temps pour réécrire le script de conversion et je m’aperçois que ce n’est pas le cas. Est-il possible de revoir l’étiquetage de LT, c’est-à-dire fusionner les étiquettes comme je l’ai fait pour Grammalecte ?
Ça me simplifierait la tâche du suivi du script de conversion.
le 09 décembre 2013 à 12:20

Est-il possible de revoir l’étiquetage de LT, c’est-à-dire fusionner les étiquettes comme je l’ai fait pour Grammalecte ?


J’avoue ne pas avoir assez suivi les changements dans Dicollecte-5.0 pour pouvoir répondre à la question. Mais a priori, changer les étiquettes de LT est sans doute assez compliqué puisqu’il y a plus de 2200 règles xml qui utilisent ces étiquettes. Si je change les étiquettes (pas encore décidé sans savoir tout ce que ça implique), je ne le ferai pas avant LT-2.4 qui sort fin décembre 2013.
le 09 décembre 2013 à 13:39

Est-il possible de revoir l’étiquetage de LT, c’est-à-dire fusionner les étiquettes comme je l’ai fait pour Grammalecte ?


J’avoue ne pas avoir assez suivi les changements dans Dicollecte-5.0 pour pouvoir répondre à la question. Mais a priori, changer les étiquettes de LT est sans doute assez compliqué puisqu’il y a plus de 2200 règles xml qui utilisent ces étiquettes. Si je change les étiquettes (pas encore décidé sans savoir tout ce que ça implique), je ne le ferai pas avant LT-2.4 qui sort fin décembre 2013.


Après réflexion, je vais écrire moi-même un script de conversion du lexique Dicollecte-5.0 vers le lexique LT. Ça à l’air assez simple et comme cela tu n’auras plus à t’occuper de LT :-) Le script sera disponible dans le source de LT si ça t’interesse. Je ne sais pas encore quand j’aurai le temps, peut-être pendant les vacances de Noël.
le 09 décembre 2013 à 20:05
Oui, merci, c’est un souci de moins. Ce n’est pas compliqué, mais ça m’épargne de devoir tester à chaque version si les choses ont l’air normales.

Pour le dictionnaire 5, grosso modo, les changements ne concernent que les verbes et à la marge certains adjectifs.

Pour la fusion des étiquettes, ça donne :

mange v1_t_p_ ipre 1sg
mange v1_t_p_ ipre 3sg
mange v1_t_p_ spre 1sg
mange v1_t_p_ spre 3sg
mange v1_t_p_ impe 2sg

->

mange v1_t_p_ ipre spre 1sg 3sg
mange v1_t_p_ impe 2sg



En ce qui concerne les participes passés, c’est simple : s’ils sont variables, ils sont aussi étiquetés comme adjectif. Du coup, j’ai effacé les entrées adjectifs correspondantes si elles existaient, ce qui était loin d’être un règle. C’est maintenant plus cohérent.
le 09 décembre 2013 à 20:58
Nouvelle version du dictionnaire : 5.0.1.
Corrige le problème des élisions avec certains participes passés.
le 10 décembre 2013 à 11:21
Merci.
Mis à jour sur www.papou.byethost9.com…
Pour info: 4'30 pour faire le DEB, 2' pour l'installer, 3'30 pour le mettre sur le serveur et modifier la page.
C'est vraiment navrant que personne n'en profite :-(
le 10 décembre 2013 à 14:01
Pourquoi ne pas vous mettre en lien avec les mainteneurs du paquet pour Debian ?
packages.qa.debian.org…
le 10 décembre 2013 à 17:23
Nouvelle version du dictionnaire : 5.0.2.
Corrige le problème des élisions avec certains participes passés des verbes du 3e groupe.
le 18 janvier 2014 à 01:27
Je suis la deuxième personne sur 7 210 186 000 à m'être occupé de ce dictionnaire hunspell-fr sur Ubuntu en ajoutant ma voix et mes commentaires au bug bugs.launchpad.net… ce qui l'a fait passer de New → Confirmed.
Il reste donc 7 210 185 998 personnes, et un peu plus quand vous me lirez, pour insister pour que Ubuntu ouvre le robinet pour faire arriver les paquets de Debian.
Mais, en fait, Debian n'introduit les nouveaux dictionnaires version 5 que sur les systèmes dits "instable" et "test" et ils ne seront en service effectif que dans 6 mois, un an, deux ans, quand ils seront périmés. Il faudrait donc aussi certifier à Debian que (et quand?) les mises à jour peuvent se faire en toute sécurité dans les systèmes courants, ce qui les feraient, je crois, passer quasiment d'office, sauf zèle douanier, en mises à jour d'Ubuntu. (Sinon, Ubuntu devrait se manier pour faire du "backport").
Personnellement, je confirme que mon silence chez Dicollecte signifie l'absence de problèmes sur Ubuntu pour les logiciels usuels que j'utilise et donc probablement tous puisqu'un Ubuntu n'utilise qu'un hunspell et pas dix différents comme le fait, je crois, un Windows quand il n'utilise pas une légion d'autres correcteurs.
le 01 février 2014 à 01:27
Le seul danger qu’il y a à mettre à jour automatiquement le dictionnaire, c’est lors du passage à une nouvelle version majeure. La version 3 a requis pas mal de boulot avant d’être correcte. La version 4 a mis un peu de temps à être “stable” (c.-à-d. complète et utilisable pour le correcteur grammatical, mais c’était la raison de sa sortie et le correcteur grammatical lui-même connaissait alors pas mal de chamboulements qui ont nécessité autant de changements sur le dico). La version 5 est, je pense, stable depuis la version 5.0.2, mais il faut toujours un peu de temps pour dénicher les problèmes subtils, autres que les éventuelles erreurs d’étiquetage. Bref, évitez de sauter sur les versions x.0. Hormis ce point, rien à signaler, c’est le train-train des ajouts, modifications, suppressions des entrées.

Ubuntu n'utilise qu'un hunspell et pas dix différents comme le fait, je crois, un Windows quand il n'utilise pas une légion d'autres correcteurs.


Et c’est très bien comme ça. Foutez la paix à Windows. ;)
J’ai déjà dit combien je trouvais pénibles toutes ces distributions qui ne sont pas foutues de s’accorder sur la maintenance des paquets. Et, en fait, c’est le principe même de la maintenance des paquets qui est à mes yeux absurde. Je ne vais pas revenir sur ce point. Quoi qu’on en pense, pour ma part, je ne veux pas y mettre le doigt, j’ai bien mieux à faire que de m’occuper de ce que je considère être une perte de temps.

(Un jour, il faudra que je fasse un billet pour expliquer mon point de vue sur tout ça, je ne suis pas sûr que ça intéresse beaucoup de monde, mais j’en ai un peu marre de me répéter.)
le 02 février 2014 à 10:49

Après réflexion, je vais écrire moi-même un script de conversion du lexique Dicollecte-5.0 vers le lexique LT.


J’ai finalement pris le temps d’écrire ce script pour convertir le lexique Dicollete-5.0.2 pour LanguageTool. LT utilise maintenant le dictionnaire dicolecte-5.0.2. Le script de conversion se trouve ici :

github.com…

Ce n’est donc plus la peine de maintenir le script DL2LT.py.
le 08 février 2014 à 22:32
C’est super. Un truc en moins à gérer. \o/
En plus, ton script est mieux fait que le mien, toujours modifié à l’arrache au dernier moment. :)
Je ne connais pas Perl, mais tout me paraît clair.
le 09 février 2014 à 09:12

Notification par e-mail    0