OK
AJAX error!

Les forumsÀ propos du siteCode source du site web

Code source du site web

Bonjour Admin,

Est-ce que le code source du site est disponible quelque part ?

J’aimerais pouvoir (essayer d’) améliorer la partie Thésaurus du site pour :
— permettre de séparer les différents types de relations entre les mots
— avoirs des relations bidirectionnelles (mais pas forcément symétriques). Ex : Si je dis que l’hyperonyme de « blé » est « céréale », alors dans « céréale » on verra automatiquement l’hyponyme « blé ».

J’ai cru lire, dans une des discussions du forum, que tu préfères développer le site à ton rythme et selon ton organisation. J’aimerais donc savoir à quoi ressemble le site coté serveur pour essayer de faire un code ressemblant le plus possible à ce qui est déjà existant.

Cordialement, Naheulf
le 07 mai 2019 à 00:04
Haut.
J’ai l’impression que ce message a failli faire comme grammalecte.net…
le 07 mai 2019 à 20:35
Bonjour,

Non, j’avais vu le message, mais je réfléchissais.

La situation :
— Le thésaurus actuel est à l’état de quasi-abandon depuis sa création.
— Il est rempli d’entrées dont il faudrait purger et séparer les éléments en groupes cohérents.
— La gestion actuelle n’est pas pratique, attendu que le thésaurus n’a aucune bijectivité. Les synonymes d’une entrée ne sont pas eux-mêmes des entrées vers les synonymes de ce groupe, ce qui rend le travail fastidieux et vain.
— Les “synsets” sont l’avenir du thésaurus. Ces groupes sont pensés pour que chaque synonyme d’un synset soit une entrée vers les autres synonymes du synset. En ce sens, il n’y a pas d’entrées dans les synsets, juste une liste de groupes.
— J’ai tenté de convertir le thésaurus vers un groupe de synsets, mais l’incohérence et la “pollution” du thésaurus actuel rendent la tâche impossible.
— J’ai manqué de temps pour créer une base de synsets sur laquelle bâtir. Je me suis occupé de Grammalecte.
— Le site actuel est vieux, créé en 2006 en PHP, et je ne m’en occupe plus guère depuis 2012. Le code est disponibles si besoin, mais je ne le fournis pas par défaut parce que je ne veux pas avoir à le maintenir, gérer une activité à ce propos.

L’avenir :
— L’avenir, ce sont les synsets, pas le thésaurus actuel.
— Idéalement, il faudrait recoder tout le site actuel en Python, et il faudrait revoir toute la partie gestion du dictionnaire pour que ce soit plus conforme aux besoins de Grammalecte.
— Idéalement, il faudrait utiliser SQLite et pas PostgreSQL. PostgreSQL est très bien, fonctionne parfaitement, mais ce n’était pas utile d’utiliser une base de données aussi puissante qui nécessite un serveur. SQLite suffit et Python sait gérer ça par défaut. Ça rendrait le site bien plus aisément maintenable et migrable.
— L’idéal demanderait beaucoup de temps. Et ce serait du temps pour refaire ce qui existe déjà, ce qui est toujours ennuyeux.
— Du coup, en étant réaliste, que faire ? Améliorer un site en voie d’obsolescence ? Séparer l’activité Thésaurus/Synsets dans un site séparé bâti des bases plus modernes et plus adaptées ? Je ne sais pas.

Questions :
— Quand tu dis vouloir séparer les différents types de relation entre les mots, que veux-tu dire plus exactement ? N’est-ce pas déjà possible avec le thésaurus actuel, en dépit de son interface rudimentaire ?
— Prévois-tu un nouveau type de thésaurus ?
— Quel format de données prévois-tu ? Pour l’instant, ici, tout est prévu pour LibreOffice ? Veux-tu un nouveau format de données ?
— Prévois-tu un nouveau site web indépendant pour gérer ça (je n’y suis pas opposé, les données sont libres) ?
— Comment vois-tu les choses globalement ?
le 08 mai 2019 à 12:53

Quand tu dis vouloir séparer les différents types de relation entre les mots, que veux-tu dire plus exactement ? N’est-ce pas déjà possible avec le thésaurus actuel, en dépit de son interface rudimentaire ?



Je voulais faire référence aux relations de sens telles qu’évoquées dans le sujet « Les forums → Thésaurus → Types de relations dans le thésaurus (hyperonymie, hyponymie, synset…) » grammalecte.net…

Le principal problème de cette méthode est, comme tu le dis si bien, « que le thésaurus [actuel] n’a aucune bijectivité ». Cela implique donc que la moindre modification dans les synonymes d’une entrée doit être refaite manuellement dans l’autre sens pour garder un ensemble bijectif (C’est ce que je voulais dire dans mon premier message lorsque j’ai évoqué « des relations bidirectionnelles »). Sauf que personne n’a envie devoir ressaisir toutes les entrées manuellement juste pour le plaisir d’avoir un ensemble cohérent. La solution que tu as trouvée à ce problème sont les “synsets”

Les “synsets” sont l’avenir du thésaurus. Ces groupes sont pensés pour que chaque synonyme d’un synset soit une entrée vers les autres synonymes du synset. En ce sens, il n’y a pas d’entrées dans les synsets, juste une liste de groupes.



Le principal problème des synsets est cette notion de groupe. Je dirais même de “super-groupes” car ma tolérance sur les variations de sens entre les synonymes est très faible. Tous les membres du groupe sont forcément les synonymes de tout le monde. Cela peut en principe générer incohérences (sophismes ou autre) du genre : “homme” et “criquet” sont des animaux. Ils ont donc tous les deux leurs places dans le synset “animal”… Sauf que ce ne sont pas des synonymes.

Prévois-tu un nouveau type de thésaurus ?



Il sera plus précis. De là à parler de nouveau type… je te laisse en juger avec les explications ci-dessous

Quel format de données prévois-tu ?



En interne la logique serait la suivante :
Terme <-(Désambiguïsation)-> Sens <-(Relations)-> Sens <-(Désambiguïsation)->Terme

— Chaque terme (lemme ou expression) serrait lié aux différents sens qu’il peut avoir via un mot de désambiguïsation.
— Le champ désambiguïsation permettra de différentier les différents sens du terme considéré. C’est l’équivalent du champ “signification” de l’implémentation actuelle. Les deux différences étant la dénomination de ce champ qui n’incitera pas à mettre une définition comme dans un dictionnaire (ce n’est pas le but) et le fait qu’il ne fasse pas parti de la liste des synonymes, car il pourrait s’agir du domaine (Ex : “mécanique”, “biologique” ou “informatique” pour un arbre).
— Les relations lieraient les différents sens possibles. Il y aurait aussi des relations plus génériques qui permettraient juste d’établir le lien entre des sens. Cela permettrait, entre autres, de représenter les nombreuses relations “non vérifiées” du thésaurus dans sa forme actuelle.
— À partir des sens liés on pourrait retrouver les termes correspondant.

Les termes éligibles pourraient être reliés aux lemmes du dictionnaire du site.

Bien évidemment toute cette logique serait gérée par le serveur avec une interface simple à comprendre pour ceux qui veulent s’investir et facile à utiliser pour ceux qui ne veulent pas se prendre la tête.

Pour l’instant, ici, tout est prévu pour LibreOffice ? Veux-tu un nouveau format de données ?



En interne Les données seraient représentés différemment mais l’organisation est prévue pour pouvoir être exportée vers le format actuel du thésaurus ou de tes synsets adorés.

Prévois-tu un nouveau site web indépendant pour gérer ça (je n’y suis pas opposé, les données sont libres) ?



J’y ai pensé. Mais je pense qu’avoir tout sur le même site/serveur sera plus pratique pour tout le monde.

Comment vois-tu les choses globalement ?



Dans un premier temps, je prévois système suffisamment souple pour pouvoir importer à la fois le travail accompli dans le thésaurus existant et dans les synsets.
À moyen terme on pourrait naviguer dans le champ sémantique des différents termes mais aussi entre le thésaurus et le dictionnaire.
Au final, les logiciels pourraient naviguer dans les champs sémantiques pour proposer à l’utilisateur des termes équivalents à la demande, pour éviter les doublons ou choisir un vocabulaire plus adapté en fonction des situations.
le 08 mai 2019 à 16:30
Les synsets ne sont pas un concept de mon cru. Dans le jargon, le terme français, c’est “clique”. C’est d’ailleurs ainsi qu’est organisé le thésaurus du CRISCO (crisco.unicaen.fr…), probablement ce qu’il y a de plus avancé en France en la matière.

Honnêtement, je suis sceptique sur ce que tu proposes. Pas sur la faisabilité. Je ne vois pas de difficulté technique à cela. Par contre, réalises-tu le temps humain nécessaire à l’organisation des données de la manière que tu le proposes ? Pas sur la conception technique encore une fois, mais sur le temps requis pour remplir toutes les cases. Ça ne peut pas se faire par un simple script, sauf à ignorer les innombrables erreurs qu’il y aura. C’est pourquoi je suis dubitatif…

Mais bon… pourquoi pas… je ne demande qu’à voir.
Je t’envoie par mail le code du site web. Ça vaut ce que ça vaut. C’était mon premier site web. D’abord, une simple page, puis deux pages, puis dix pages, puis de nouvelles sections… Je ne ferai pas du tout pareillement à présent, c’est sûr, mais je faisais ça en amateur, sans savoir si six mois plus tard je n’abandonnerais pas tout parce que j’en aurais marre.

Bref. C’est un modèle MVC de mon cru.
M: Ce qui est dans /code.
C: Ce qui se finit par _c.php
V: le reste.

Bon courage.
le 11 mai 2019 à 10:38
Pour la structure, je m'inspire fortement du livre blanc de la norme ISO 25964-1 disponible sur descripteurs.wordpress.com… .

Pour le temps humain je sais que ça va être long. Par curiosité, je viens de faire un petit calcul.
Dans le thésaurus version 2.3 disponible en téléchargement, il y a 36178 entrées et 413195 synonymes. On à donc en moyenne 11,42... synonymes par entrée. Si on considère que traiter une entrée consiste à retrouver les liens réels entre tous les mots de cette entrée, cela fait 3168 entrées à traiter. En supposant que l'on traite entièrement une entrée par semaine (il ne faut pas être être trop optimiste), il faudrait 61 ans à une personne pour tout faire.
À noter tout de même que je les entrées en doublon, triplons, voir plus et les éventuels volontaires (participation libre) peuvent contribuer à réduire sensiblement cette durée.

Je n'ai pas vu passer ton courriel. Rien dans le boîte de réception, rien dans les spams.
le 11 mai 2019 à 19:36
Voici le lien direct : grammalecte.net…
le 12 mai 2019 à 11:00
Merci.
le 13 mai 2019 à 13:02

Notification par e-mail    1