OK
AJAX error!

Les forumsThésaurusLes « cliques »

Les « cliques »

Dans le fichier data_layout.txt du projet MyThes est indiqué que pour un mot il est possible d'avoir plusieurs synonymes représentés sur plusieurs lignes.

Exemple
simple|9
(adj)|simple |elemental|ultimate|oversimplified|simplistic|simplex|simplified|unanalyzable|
undecomposable|uncomplicated|unsophisticated|easy|plain|unsubdivided
(adj)|elementary|uncomplicated|unproblematic|easy
(adj)|bare|mere|plain
(adj)|childlike|wide-eyed|dewy-eyed|naive |naif
(adj)|dim-witted|half-witted|simple-minded|retarded
(adj)|simple |unsubdivided|unlobed|smooth
(adj)|plain
(noun)|herb|herbaceous plant
(noun)|simpleton|person|individual|someone|somebody|mortal|human|soul

Selon wikipédia (fr.wikipedia.org…), les cliques sont (pas en théorie des graphes) un groupe de mots dont le sens est corrélé en fonction de certains contextes sémantiques, appelés « espaces sémantiques« . Exemple sur le site du CRISCO pour le verbe 'tourner' (www.crisco.unicaen.fr…) ou nous obtenons 112 cliques.

Dans le cas de l'exemple sur le mot anglais 'simple' cela signifierais 9 cliques.

Peux t'on dire que ces lignes différentes, pour un mot donné, dans le fichier thes_fr.dat représente les cliques ?

le 02 octobre 2011 à 10:23

Peux t'on dire que ces lignes différentes, pour un mot donné, dans le fichier thes_fr.dat représente les cliques ?


Pour le thesaurus anglais, oui. Pour le français, non. Dans ce dernier, la très grande majorité des synonymes sont sur une seule ligne, en vrac, à l’exception de quelques entrées comme feu, où quelques-uns d’entre nous ont classé les entrées en cliques. Mais ces entrées sont vraiment des exceptions. Le thesaurus français est à l’abandon, car il n’y a tout simplement personne pour s’en occuper.

Mais en pratique, oui, il faudrait tout réagencer en cliques.
le 02 octobre 2011 à 11:46
Ayant des connaissances en développement (Techno .NET sous Windows), j'ai quelques idées d'outils pour ré agencer ce thesaurus français en cliques.

Par contre mes connaissances dans le domaine sont faibles et je ne connais que le site du CRISCO qui cite cette notion.
Aurais tu d'autres références de sites, d'articles, .... ?

Et est il cohérent de rajouter des synonymes dans ce thésaurus qui ne soient pas présents dans le dictionnaire ?
le 02 octobre 2011 à 19:24

PapyRef :
Ayant des connaissances en développement (Techno .NET sous Windows), j'ai quelques idées d'outils pour ré agencer ce thesaurus français en cliques.


Pas de souci… Je connais pas .NET, même si j’utilise aussi Windows. Si tu peux améliorer ce qu’on a, ne te prive surtout pas. :D Je me ferai un plaisir de mettre à jour la base du thesaurus.

PapyRef :
Par contre mes connaissances dans le domaine sont faibles et je ne connais que le site du CRISCO qui cite cette notion.
Aurais tu d'autres références de sites, d'articles, .... ?


Non. Mes connaissances sur ce point sont presque uniquement littéraires. Je ne connais pas bien le sujet.

À mon niveau de connaissances, l’idéal me semble de générer des cliques à partir du thesaurus actuel et de les gérer avec la méthode des « synsets » d’OpenThesaurus.
www.openthesaurus.de…
openthesaurus.cvs.sourceforge.net…
Un jour, il faudra que je prenne le temps de fusionner OpenThesaurus avec Dicollecte.

Le principe des synsets, c’est d’avoir seulement des listes de synsets (ou cliques) :
(description)|word1|word2|word3|....|

À partir d’une liste de synsets, on génère :

word1
(description)|word2|word3|...|

word2
(description)|word1|word3|...|

word3
(description)|word1|word2|...|


PapyRef :
Et est il cohérent de rajouter des synonymes dans ce thésaurus qui ne soient pas présents dans le dictionnaire ?


Ne te sens pas limité par ce point. Le dictionnaire et le thesaurus ne sont pas liés. Si tu ajoutes des mots absent du dictionnaire, aucune importance, ça ne sera pas pire que la situation actuelle.
le 02 octobre 2011 à 19:52
J'ai beau avoir regardé sur le site d’OpenThesaurus, j'ai rien trouvé concernant la notion des « synsets ».
Suis preneur de toute informations ;)

En reprenant l'entrée 'feu' nous avons ceci
feu|8
(Nom)|lumière|flamme|lanterne|fanal|flambeau|phare|flammes|flambée|flammèche|éblouissement|éclat|étincelle|embrasement|lueur|lumière|clarté|rayon|scintillement|éclair|illumination|fulgurance|luisance|phosphorescence|falot|sinistre
(Nom)|passion|ardeur|fanatisme|emballement|délire|exaltation|ferveur|fièvre|frénésie|fureur
(Nom)|âtre|foyer|cheminée|réchaud|fourneau|chaufferette|brasero|chauffe-plat|tison|brasier|fournaise|chauffage|haut-fourneau
(Nom)|douleur|brûlure|aigreur|ampoule|cloque|inflammation|irradiation|irritation|insolation|ulcération|rougeur|enfer|souffrance
(Nom)|destruction|combustion|calcination|incendie|incinération|oxydation|déflagration|flamboiement|ignition
(Nom)|signal|drapeau|balise|déclencheur|déclic|signalement|alarme|alerte
(Nom)|guerre|combat|bombardement|canonnade|mitraillage|pilonnage|rif|bagarre|tir|salve|coup
(Adjectif)|disparu|mort|décédé|trépassé|défunt|tué|passé|oublié


Ce qui nous donne 8 "cliques" pour le mot feu , la gestion est simple.

Pourquoi vouloir utiliser la méthode des « synsets » d’OpenThesaurus pour les gérer ?
Que nous apporte de plus cette méthode ?

le 03 octobre 2011 à 07:36

PapyRef :
J'ai beau avoir regardé sur le site d’OpenThesaurus, j'ai rien trouvé concernant la notion des « synsets ».
Suis preneur de toute informations ;)


En fait, je n’ai jamais utilisé OpenThesaurus. Cette information m’a été rapportée. La doc d’OpenThesaurus est quasi nulle, et le site n’est plus vraiment mis à jour (du moins dans le CVS).


Pourquoi vouloir utiliser la méthode des « synsets » d’OpenThesaurus pour les gérer ?
Que nous apporte de plus cette méthode ?


Elle permet de multiplier les entrées rapidement et de générer les équivalences.

Avec la méthode de Dicollecte, on fait tout manuellement. Si je met à jour l’entrée feu, seule cette entrée est modifiée (pas ses synonymes).

Avec les synsets, il n’y a pas d’entrées à proprement parler. Chaque synonyme est considéré comme une entrée avec une suite d’équivalences.
le 03 octobre 2011 à 09:39

Notification par e-mail    0