OK
AJAX error!

Les forumsÉtiquetage du dictionnaireLiens entre les différentes graphies des mots

Liens entre les différentes graphies des mots

Bonjour,

Ce message s’adresse à l’auteur de Dicollecte.

J’ai besoin d’une liste de tous les mots qui possèdent plusieurs graphies, et pour chaque mot, ses différentes graphies. Je sais que le wikitionnaire en propose pas mal, mais malheureusement pas dans un format exploitable par un logiciel. Aussi j’apprécie beaucoup que vos dictionnaires soient séparés entre Moderne, Réforme 1990 etc. (et aussi votre travail en général), et je pensais me baser sur votre projet pour me constituer cette liste. Mais il faut pour cela que les entrées du dictionnaire soient liées les unes aux autres d’une manière ou d’une autre pour retrouver les graphies alternatives. Ça ne semble pas être le cas, mais est-ce envisagé ? Si oui, pour quand ? Si non, seriez-vous intéressé par cette liste si je parvenais à la constituer ?
le 04 février 2016 à 16:47
Bonjour,

Non, nous n’avons pas relié les mots ayant plusieurs graphies. Tout ce que nous avons ici, ce sont des étiquettes var et alt qui signifient qu’il existe une variante graphique ou un mot alternatif. Mais c’est tout.

Il n’est pas envisagé de le faire pour l’instant, même si le site a ce qu’il faut pour lister ce genre de variantes.

Il existe un champ “allomorphe” dans la spécification Hunspell. Il n’est pas activé sur ce projet, parce que personne ne s’en est soucié. Je n’active que les champs dont on s’occupe, et pour ne pas surcharger et noyer les contributeurs. :)

J’ai activé le champ “Allomorphe(s)” (qui sert à stocker les variantes graphiques). Si vous voulez vous y coller, je vous octroie des droits d’édition.
le 04 février 2016 à 18:46
Je vois. Je m’occuperais volontiers d’ajouter ces allomorphes.

Si j’ai bien compris, ce champ allomorphe n’est qu’un simple champ texte, et ne permet pas de véritablement lier les entrées les unes aux autres (comme le ferait un hyperlien par exemple). Aussi, cela rend impossible le lien d’allographes homographes. Par exemple, parmi les trois entrées tam-tam (nom mas), tam-tam (nom mas inv) et tamtam (nom mas), impossible de lier tam-tam invariable avec tam-tam variable. Ou encore, entre sénestre (adj epi), senestre (adj epi), sénestre (nom fem) et senestre (nom fem), impossible de différencier nom et adjectif. Je trouve que ce serait quand même vachement plus pratique de pouvoir cliquer pour naviguer entre les allographes plutôt que d’avoir à faire une recherche à chaque fois. Cela dit, cela dépasse peut-être les objectifs orthographiques de Dicollecte.

C’est très gentil à vous de me proposer les droits d’édition, mais je ne me vois pas éditer une à une les entrées du dictionnaire ; ce serait beaucoup trop long et fastidieux. À la place, je souhaite écrire un script qui générerait une liste d’allographes (à partir du fichier dictionnaire) qui serait passée en revue avant d’être insérée d’un coup dans la base de données.
le 05 février 2016 à 14:33
En effet, dans cette base, qui suit la spécification Hunspell, c’est simplement un champ texte. J’aurais pu faire autrement, mais, à l’époque où j’ai conçu ce site, j’étais loin de voir aussi loin et on avait vraiment d’autres soucis. Le dictionnaire n’avait aucun étiquetage grammatical, sémantique ou autre, il y avait plein d’erreurs, de doublons et d’incohérences. C’était un gros bordel, et il a fallu plusieurs années pour en venir à bout. À l’époque, je n’avais pas imaginé concevoir un correcteur grammatical, et je ne pensais pas à certaines problématiques, je voulais juste améliorer le dictionnaire orthographique pour Writer. C’était la seule chose qui m’importait.

Bref, il n’y a donc rien prévu dans cette base pour faire des références d’une entrée à l’autre. Ça pourrait d’ailleurs être utile pour d’autres choses, comme l’homophonie ou les synonymes, mais le site n’a jamais été pensé comme ça.

En ce qui concerne les «allographes homographes», effectivement, ça ne nous sert à rien, attendu que Hunspell comme l’automate à états finis de Grammalecte et de LT sont capables de retrouver toutes les étiquettes d’un mot, quels que soient les lemmes différents qu’il peut avoir. Mais ce traitement est effectué après le dump de la base de données, lors de la genèse du lexique entier et de sa transformation.

Pour faire ce que vous voulez, il faudra partir du lexique. Celui-ci contient l’identifiant du lemme chaque mot dans la base de données.
le 05 février 2016 à 15:11
D’accord, je vais voir ce que j’arrive à faire et je vous tiens au courant.
le 05 février 2016 à 16:03
Serait-il possible d’avoir la version actuelle du lexique ? J’ai téléchargé la 5.5 et je constate des différences en faisant une recherche sur le site, par exemple curriculum a deux entrées (138997 et 138998) mais sur le site elles semblent avoir été fusionnées dans la 138998.
le 05 février 2016 à 23:54
Autre détail embêtant, le site annote les différentes graphies des flexions, par exemple en regardant l’entrée amonceler, on voit Mod. pour amoncelle et Réf. pour amoncèle. Or, je ne retrouve pas cette information dans le fichier lexique.
le 06 février 2016 à 00:00
J’ai envoyé par mail une version mise à jour avec les étiquettes demandées pour les sous-dictionnaires.
le 06 février 2016 à 11:09
Merci, mais je n’ai rien reçu. Pouvez-vous me le renvoyer à l’adresse que je viens d’indiquer dans mon profil ?
le 06 février 2016 à 16:41
Fait.
le 06 février 2016 à 17:09

Notification par e-mail    0