OK
AJAX error!

Les forumsDictionnaireQuestions sur le lexique

Questions sur le lexique

J'ai été amené à constater quelques oublis que je vous signalerai lorsque je les aurai listés. Je suis en train de développer un logiciel qui intègre un parser/Tagger français gratuit qui utilise pour le moment (entre autres) une version modifiée de votre lexique. A défaut de connaître l'endroit idéal pour poster tout ça, voilà questions en vrac:

- Pourquoi garder les entrées multiples alors qu'on peut les supprimer avec une requête SQL?
- Pour mon usage personnel, j'ai ajouté deux champs booléens à chaque ligne: NatureGrammaticaleMultiple, et LemmeEtNatureMultiple. Ca permet, en sélectionnant une ligne, de savoir immédiatement s'il y a un arbitrage à faire pour étiqueter grammaticalement.
- Les fonctions de base de données (en tout cas dans mon cas SQLite) ne permettent pas de gérer efficacement les TOLOWER pour faire des recherches insensibles à la casse. Intégrer deux champs avec des versions sans accent et sans majuscule du mot permet de gérer ce type de recherche avec ce qui ne marcherait pas autrement, comme les majuscules accentuées ou les œ et æ.
- Les apostrophes. Aucun mot apostrophé n'est présent (l', s', j', t'), par choix je suppose puisqu'on les retrouve en partie dans une version sans apostrophe. Le problème c'est qu'ils sortent à chaque fois en compagnie des noms construits sur des initiales ("l", "s") ce qui introduit une équivoque qui peut être évitée. J'ai modifié ou créé dans la version 5.1 les lignes avec leurs apostrophes.
-Si ça vous intéresse, j'ai ajouté le nombre de syllabes de chaque mot en me basant sur d'autres dictionnaires et en complétant à l'aide d'une fonction logicielle. Je crois que presque tous les comptes sont corrects, excepté pour d'éventuels acronymes.
- Je sais que le dictionnaire des synonymes n'est plus maintenu. Quelle source utilisez vous à la place? J'envisage de référencer les synsets correspondant pour chaque ligne du lexique, voire pour chacune de leurs natures grammaticales possibles.
- Je cherche aussi une base de locutions courantes mais n'ai pas pu en trouver.

"Il se trouve que l’étiquetage des mots grammaticaux me sert peu tel quel, puisque je préfère, dans de nombreuses règles, lister explicitement les mots plutôt que demander les étiquettes associées."


Dans mon cas je ne gère que les exceptions parmi des étiquettes listées. Ça me permet de "limiter l'inventaire" mais la pertinence de ce choix reste à voir, j'affine encore mon approche. Si ça vous intéresse, je serais heureux de vous présenter mon projet lorsqu'il sera opérationnel.
le 19 octobre 2014 à 13:35

Pourquoi garder les entrées multiples alors qu'on peut les supprimer avec une requête SQL?


Les doublons du lexique sont dus à la genèse des formes fléchies. À cause de la gestion des différentes graphies (classiques, réformées), certains doublons sont inévitables. La gestion des étiquettes grammaticales introduit aussi des redondances dans certains cas. Sur ce dernier point, il y a sans doute à faire pour traquer celles qu’on pourrait éviter.

Intégrer deux champs avec des versions sans accent et sans majuscule du mot permet de gérer ce type de recherche avec ce qui ne marcherait pas autrement, comme les majuscules accentuées ou les œ et æ.


Ça ne nous est pas utile dans notre base. On s’occupe d’orthographe. Les accents, les ligatures et les majuscules ont leur raison d’être. C’est à celui qui intègre le lexique dans sa base de s’occuper de ça, s’il le juge nécessaire. Un script Python utilisant str.maketrans et translate devrait pouvoir générer ça facilement.

- Les apostrophes. Aucun mot apostrophé n'est présent (l', s', j', t'), par choix je suppose puisqu'on les retrouve en partie dans une version sans apostrophe. Le problème c'est qu'ils sortent à chaque fois en compagnie des noms construits sur des initiales ("l", "s") ce qui introduit une équivoque qui peut être évitée. J'ai modifié ou créé dans la version 5.1 les lignes avec leurs apostrophes.


Hormis quelques exceptions, les graphies avec élision des articles et des pronoms (j’avais, l’avion, d'habitude) sont générées par les drapeaux de Hunspell. Ces graphies ne sont pas incluses dans le lexique parce qu’on ne me les a jamais demandées et qu’elles sont, à mon avis, superflues, d’autant plus que de nombreuses formes fléchies générées sont redondantes, beaucoup d’entre elles servant à contourner les limites de Hunspell. Je peux vous envoyer le lexique avec ces graphies, si vous le souhaitez, mais ce ne sera pas le lexique standard.

La gestion des formes élidées, c’est l’une des choses les plus complexes de la correction orthographique du français. C’est ce qui m’a demandé le plus de temps à concevoir. Ça représente approximativement les trois quarts de la complexité du dictionnaire. C’est ce qui permet au correcteur de savoir que la graphie “j’avait” est erronée. J’aurais pu faire bien plus simple et dire au correcteur orthographique de considérer l’apostrophe comme un séparateur de mot. Mais dans ce cas, la graphie “j’avait” ne serait pas identifiée comme une erreur. Il se peut qu’un jour, je transfère la complexité de cette vérification au correcteur grammatical, ce qui permettrait de supprimer environ les trois quarts des règles du dictionnaire orthographique.
Tout ça pour dire que, bien que je ne comprenne pas de quelles équivoques vous parlez et quel est votre problème avec les graphies élidées, il est peu probable que je change quoi que ce soit sur ce point pour l’instant. Je me contente d’ajouter les oublis et de corriger les erreurs lorsqu’on en trouve, ce qui est de plus en plus rare.

Si ça vous intéresse, j'ai ajouté le nombre de syllabes de chaque mot en me basant sur d'autres dictionnaires et en complétant à l'aide d'une fonction logicielle. Je crois que presque tous les comptes sont corrects, excepté pour d'éventuels acronymes


Ça m’intéresse, notamment la fonction logicielle. Je pourrais éventuellement l’intégrer au script qui génère le lexique.
Mon mail : dicollecte /chez/ free /point/ fr

Je sais que le dictionnaire des synonymes n'est plus maintenu. Quelle source utilisez vous à la place?


Nous utilisons celui-là. Il est incomplet mais il est fonctionnel. Je n’en connais pas d’autre qui soit libre.

Je cherche aussi une base de locutions courantes mais n'ai pas pu en trouver


fr.wiktionary.org…
fr.wiktionary.org…
le 20 octobre 2014 à 11:53
- Pour ce qui est des accents et majuscules, je réalise que j'ai souligné ça car je suis dans un contexte différent: je travaille sur des textes considérés comme corrigés et je ne remets (presque) jamais en cause le bien-fondé d'une majuscule ou d'un accent. C'est simplement un élément d'analyse morphologique du mot s'il n'est pas présent en version originale dans le dictionnaire.

- J'ai intégré la gestion des graphies élidées dans mon équivalent de votre correcteur grammatical et ça m'a permis de gérer le problème sans trop de difficultés. Cela dit, encore une fois, je suis dans un contexte différent. Si je ne trouve pas de pronom personnel sujet (ou autre) compatible avec une flexion d'un verbe, je n'interviens pas.

- je vous envoie la fonction. Elle est en vb.net mais peut être simplement traduite en c#. Pour Python, il va falloir une traduction manuelle.

le 20 octobre 2014 à 12:33
Merci pour la fonction de calcul des syllabes.
Note pour mémoire : www.developpez.net…
le 31 octobre 2014 à 11:17

Notification par e-mail    0