OK
AJAX error!

Les forumsThésaurusWolf, Wordnet, thésaurus et dictionnaire des synonymes

Wolf, Wordnet, thésaurus et dictionnaire des synonymes

Bonjour,

Je cherche à réaliser une application travaillant sur les relations sémantiques dans des textes francophones. Je me suis donc mis à la recherche de dictionnaires de synonymes ou de thésaurus.
J'ai découvert un peu par hasard que le dictionnaire des synonymes dicollecte(fr) était abandonné et en l'état, incomplet/erroné.
J'ai par ailleurs découvert qu'il existait d'autres projets de thésaurus tel le Wordnet de Princetown (en anglais) et sa version française Wolf (seulement 25% du Princetown WordNet) développée par l'INRIA.

D'après cette page (lingucomponent.openoffice.org…), le thésaurus en_EN de OpenOffice a été construit automatiquement à partir de Wordnet à l'aide d'un processus automatique (script python).
Si comme j'ai pu le lire ici, la version française est elle-même construite à partir d'un processus automatique, il est possible que ce processus soit également basé sur le Wordnet, préalablement traduit. Serait-il possible d'obtenir les scripts ou programmes qui ont procédés à cette génération automatique du thésaurus français ?

Par ailleurs, envisagez-vous de reprendre le développement du thésaurus, soit à partir de sa version actuelle, soit à partir de Wolf ?

Cordialement.
Philou67/

le 07 octobre 2010 à 14:37
Bonjour,

Le dictionnaire des synonymes n’est pas abandonné, disons qu’il est en état de suspension perpétuelle… :)

En fait, ce n’est pas nous qui avons développé ce dictionnaire des synonymes, et je n’ai aucune idée de la manière dont il a été créé. Je l’ai repris quand il était à l’abandon. Je l’ai un peu nettoyé, fait quelques modifications et ajouté quelques entrées, mais rien de plus. Le système de Dicollecte pour l’améliorer serait peut-être à revoir (trop compliqué?).

Il y aurait pas mal de choses à faire dessus, notamment tout changer pour créer des listes de “synsets” et générer le dictionnaire des synonymes à partir de ça, mais j’ai toujours eu quelque chose de plus urgent ou plus important à faire.

Je serais heureux de reprendre le dictionnaire des synonymes sur une autre base (je ne connaissais pas Wolf).

D’après ce que Laurent Godard vient de me dire sur IRC, le thésaurus français été créé manuellement et pas par script. Frederic Labbé, décédé depuis lors, en est l’initiateur.

Pour en savoir plus, écris à Laurent Godard : laurentgodard «at» openoffice.org
Mais je n’ai pas le sentiment qu’il y a beaucoup plus à en dire. ;)

Cordialement,
le 07 octobre 2010 à 15:20
J’ai regardé Wolf, et vu que la plupart des données sont en anglais, cela ne peut nous servir en l’état actuel.
le 07 octobre 2010 à 16:54
Merci bien pour cette réponse. J'ai contacté Benoît Sagot pour avoir des informations sur le projet Wolf et j'attends sa réponse.
Seul 25% du Wordnet est traduit, le reste semble être resté en anglais. Il y a même des synsets de mots français dont les exemples sont encore en anglais ;)

Pour ce qui est du thésaurus de OpenOffice/LibreOffice en français, les informations qu'il contient me seront tout de même utiles, notamment pour identifier la catégorie grammaticale des mots. Pour son élaboration, j'avais noté ceci sur votre site :

Ce dictionnaire, ayant apparemment été généré par des procédés automatiques, contient des abérrations.

(www.dicollecte.org…).
Il existe également un autre projet de Wordnet multilingue : EuroWordNet (www.illc.uva.nl…)

Puis-je continuer à poser des questions annexes dans ce fil ?
le 07 octobre 2010 à 17:19
Oui, je me suis apparemment trompé sur la genèse automatique. En fait, j’ai toujours du mal à croire qu’une partie du thésaurus n’a pas été générée automatiquement, car une partie des erreurs que j’y ai trouvées ne peuvent guère avoir été engendrées manuellement. ;)

Si c’est pour discuter du thésaurus, ce fil convient, sinon merci d’en ouvrir un autre.
le 07 octobre 2010 à 17:52
C'est noté, merci encore.
le 07 octobre 2010 à 18:10
Bonjour,
Je n'ai reçu aucun réponse de Benoit Sagot (Wolf), pas plus que de Laurent Godard.
Travaillant en perl, je suis en train d'essayer de construire un Wordnet à partir du fichier thes_fr.dat (et en prenant pour hypothèse par défaut que chaque synonyme d'un mot est liés à tous les sens de ce synonyme (en automatique, je ne vois pas comment faire autrement, vu que pour chaque synonyme il n'est pas précisé son sens).
Cela ne résoudra malheureusement pas mon problème principal qui est de trouver les hypernonymes...

Si vous disposez d'informations sur le format utilisé dans le fichier thes_fr.dat, je suis bien entendu preneur.
le 26 octobre 2010 à 09:35
Pour le format MyThes, téléchargez le paquet MyThes sur sourceforge.net…
Tout est dans le fichier data_layout.txt.

en prenant pour hypothèse par défaut que chaque synonyme d'un mot est liés à tous les sens de ce synonyme (en automatique, je ne vois pas comment faire autrement, vu que pour chaque synonyme il n'est pas précisé son sens).


Ce n’est malheureusement pas toujours le cas. Mais je ne vois pas d’autre moyen non plus.

Le mieux serait de trouver des données libres de droit… mais… je ne crois pas qu’il y ait mieux que ce que nous ayons.

Si j’ai le temps (mais il manque), je modifierai mon site pour utiliser des synsets.

Passons au tutoiement, s. v. p. :)
le 26 octobre 2010 à 10:27

Notification par e-mail    0