OK
AJAX error!

Les forumsThésaurusDéterminer les liens entre les mots

Déterminer les liens entre les mots

Bonjour,

dans le cadre d'un projet perso, nous cherchons à définir les liens et la proximité entre les mots. La première étape a été d'assembler des dictionnaires simples (thésaurus, synonyme, ...) et des listes des locutions (nominale, verbale, ...) à partir de ressources libres et d'huile de coude.

Dans une deuxième étape, nous cherchons à lier les mots entre eux un peu à la manière du WordNet. Au départ, l'idée a été d'utiliser les jeux de mots de la langue française pour déterminer la proximité de vocabulaire entre deux notions. Les tests ont été effectués avec les mots croisés qui pour chaque entrée du dictionnaire proposent un ensemble de définitions. Le jeu de données se trouvent sur le site www.dico-mots.fr…
Les résultats ne sont pas mauvais en soi, par contre il est vrai que dans les mots croisés, le but du créateur de la grille est de s'éloigner du sens courant du mot.

En parcourant le forum, je me rend compte de votre expertise sur la langue française. Au lieu de tourner en rond ou de réinventer la roue, il est plus sage de demander conseil.
Comment pourrait-on déterminer un degré de proximité entre deux mots à la manière du CNRTL ?
Est-ce que de calculer la fréquence d'un synonyme dans les définitions (Littré, dictionnaire 8è édition, wiktionary, ...) pourrait marcher ?

En vous remerciant pour vos conseils et vos pistes de réflexion
Cordialement
Michel
le 28 avril 2020 à 12:03
Bonjour,

Il y a plusieurs façons de voir la proximité des mots :
— proximité sémantique (synonymes),
— proximité graphique (homographes et quasi-homographes),
— proximité phonétique (homonymes),
— proximité étymologique…
et sûrement d’autres auxquelles je ne pense pas.
Quoi qu’il en soit, le degré de proximité n’est pas le même selon le ou les angles que vous choisirez.

Il existe des mots de graphies semblables ou proches de sens très différents.
Il existe des mots phonétiquement similaires qui s’écrivent très différemment.
Il existe des mots partageant une origine étymologique commune dont les sens et les graphies divergent : par exemple, le mot latin habere est à l’origine de “avoir” et de “habiter” (le premier dérivé a perdu le h, l’autre pas).

Pour la proximité sémantique, je ne connais pas de solution idéale. Votre idée mérite d’être essayée, ça ne coûte rien de voir ce que ça donnera. Sinon, le mieux, c’est de partir sur notre très imparfait thésaurus dont personne ne s’occupe vraiment, puisque c’est à ma connaissance toujours la seule ressource libre en la matière.

Pour la proximité phonétique, sachez qu’il y a dans Grammalecte une liste d’homonymes qui est très utile pour la correction grammaticale : code.grammalecte.net… Je l’ai dressée moi-même et elle a été complétée par ceux répertoriés par Wiktionnaire.

Pour la proximité graphique, il “suffit” d’appliquer la fonction de calcul entre deux mots pour tous les mots existants… et en écrémant ce qui est forcément lointain, vous pouvez sans doute réduire les centaines de milliards de comparaison à faire. fr.wikipedia.org…
Cela dit, étant confronté à ce problème régulièrement, je dirais que ce calcul n’est pas terrible pour le français et toutes les langues utilisant les diacritiques.

Pour la proximité étymologique, je ne sais pas ce qui existe. Quelques liens où vous trouverez peut-être de quoi bâtir quelque chose :
www.ortolang.fr…
pauillac.inria.fr…


Comment pourrait-on déterminer un degré de proximité entre deux mots à la manière du CNRTL ? Est-ce que de calculer la fréquence d'un synonyme dans les définitions (Littré, dictionnaire 8è édition, wiktionary, ...) pourrait marcher ?


Je ne sais pas, mais l’idée mérite d’être essayée. Le résultat est difficile à prédire. Ça va dépendre de la qualité de la source, je pense. Il faut que les sources soient propres, suffisamment cohérentes et assez conformes au résultat attendu pour avoir des résultats probants, et ça ne vous épargnera probablement pas le travail de purge manuelle.
À mon avis, ce sera déjà bien si vous pouvez déterminer le domaine d’application des termes rencontrés, ce qui n’est pas la même chose que les synonymes, mais ce n’est pas si mal, si on part de rien.

Navré, mais mon “expertise” en la matière fait défaut. :)
le 28 avril 2020 à 15:11
Bonjour,

merci Olivier pour votre réponse qui nous a permis de fixer le cadre de ce projet. Effectivement, définir clairement le type de lien entre les mots et de limiter les résultats attendus simplifiera grandement le projet.
A la lecture du message, j'ai parcouru plus en détail les ressources proposées par Grammalecte. Il est très formateur d'étudier les projets que vous avez déjà mené sur la langue française et surtout des résultats que vous avez obtenu.

Je ne sais pas, mais l’idée mérite d’être essayée. Le résultat est difficile à prédire. Ça va dépendre de la qualité de la source, je pense. Il faut que les sources soient propres, suffisamment cohérentes et assez conformes au résultat attendu pour avoir des résultats probants, et ça ne vous épargnera probablement pas le travail de purge manuelle.


A l'époque, un universitaire nous a adressé le même conseil en attirant notre attention sur le 'bruit' des corpus de référence. Alors que nous menions des essais sur les hyperonymes et la vectorisation, cette mise en garde nous a paru futile, depuis nous avons compris :)

Si nous arrivons à quelque chose de probant, je reviens vers la communauté de Grammalecte.
le 29 avril 2020 à 12:27

Notification par e-mail    0