OK
AJAX error!

Les forumsDictionnaireUtilisation du lexique dans des scripts: quelques soucis

Utilisation du lexique dans des scripts: quelques soucis

Bonjour,


Le lexique m’a servi il y a peu à récupérer une liste de mots pour un jeu, selon les critères suivants:

– Pas de noms propres. Or, les prénoms et patronymes ne sont pas identifiés comme noms propres, et les noms de pays, contrairement aux noms de ville, ne sont pas étiquetés comme nom propres non plus. Ici le moyen trouvé fut de simplement vérifier si le mot commençait par une capitale.
– Pas de verbes conjugués. Or, il n’y a pas de moyen direct de trouver les verbes; apparemment, ils possèdent tous une étiquette commençant par la lettre v et contenant au moins un tiret bas. Pour faciliter le filtrage, il a d’abord fallu transformer toutes ces étiquettes indéchiffrables en une unique étiquette «verb».

Et de façon générale, il serait plutôt agréable d’avoir la signification des différents champs; on peut retrouver de façon pas très intuitive les étiquettes et la sémantique ou l’étymologie, mais pour «Métagraphe (β)» ou «Metaphone2», je n’ai pas trouvé ce que ça pouvait bien être.


Un autre point que j’ai trouvé un ennuyeux est que pour exploiter ce lexique avec un script, j’ai d’abord dû enlever l’entête du fichier pour n’avoir que les lignes de données; tout ce qui est explication devrait être dans le README ou dans un autre fichier.

En effet, en commençant le fichier au nom des colonnes, on obtient un CSV avec une ligne d’entête et la tabulation comme séparateur, ce qui est immédiatement exploitable. À la place, je suis obligée de faire une rustine qui consiste à ignorer les lignes jusqu’à celle qui commence par «id».


Après ces quelques critiques, je tenais à vous remercier pour la mise à disposition de ces données de qualité inégalée et tout de même simples à exploiter.
le 28 mars 2020 à 18:21
Bonjour,

– Pas de noms propres. Or, les prénoms et patronymes ne sont pas identifiés comme noms propres, et les noms de pays, contrairement aux noms de ville, ne sont pas étiquetés comme nom propres non plus. Ici le moyen trouvé fut de simplement vérifier si le mot commençait par une capitale.


L’étiquetage correspond d’abord à ce dont a besoin Grammalecte, et ce n’est pas stricto sensu ce dont les humains ont l’habitude, sans compter que tous les grammairiens n’étiquettent pas tout de la même façon.

Nom propre si aucun déterminant : Patrick.
Nom commun si déterminant requis : La France.

– Pas de verbes conjugués. Or, il n’y a pas de moyen direct de trouver les verbes; apparemment, ils possèdent tous une étiquette commençant par la lettre v et contenant au moins un tiret bas. Pour faciliter le filtrage, il a d’abord fallu transformer toutes ces étiquettes indéchiffrables en une unique étiquette «verb».


Deux solutions :
— Vous cherchez l’étiquette “infi”.
— Vous récupérez le lemme.

Et de façon générale, il serait plutôt agréable d’avoir la signification des différents champs; on peut retrouver de façon pas très intuitive les étiquettes et la sémantique ou l’étymologie, mais pour «Métagraphe (β)» ou «Metaphone2», je n’ai pas trouvé ce que ça pouvait bien être.


Ce sont deux algos de réduction des mots à leur forme “phonétique”.
Le premier est de moi, jamais terminé, c’est pourquoi c’est indiqué (β). L’autre est trouvable sur le Net.
le 28 mars 2020 à 18:57

Nom propre si aucun déterminant : Patrick.
Nom commun si déterminant requis : La France.



Je comprends, ça fait sens.

– Pas de verbes conjugués. Or, il n’y a pas de moyen direct de trouver les verbes; apparemment, ils possèdent tous une étiquette commençant par la lettre v et contenant au moins un tiret bas. Pour faciliter le filtrage, il a d’abord fallu transformer toutes ces étiquettes indéchiffrables en une unique étiquette «verb».


Deux solutions :
— Vous cherchez l’étiquette “infi”.
— Vous récupérez le lemme.



Je voulais inclure tous les mots (donc les flexions), sauf les verbes qui ne sont pas à l’infinitif. Pour trier, j’ai essayé de deviner la forme de ces étiquettes, mais rien ne me dit qu’une nouvelle étiquette commençant par v et possédant un tiret bas ne pourrait être ajoutée dans le futur, même si cela semble peu probable.

Et de façon générale, il serait plutôt agréable d’avoir la signification des différents champs; on peut retrouver de façon pas très intuitive les étiquettes et la sémantique ou l’étymologie, mais pour «Métagraphe (β)» ou «Metaphone2», je n’ai pas trouvé ce que ça pouvait bien être.


Ce sont deux algos de réduction des mots à leur forme “phonétique”.
Le premier est de moi, jamais terminé, c’est pourquoi c’est indiqué (β). L’autre est trouvable sur le Net.



D’accord, merci beaucoup pour les précisions. Effectivement, en cherchant un peu j’ai trouvé des choses sur Metaphone. Comment est produit le Metaphone d’un mot? Il semblerait qu’il soit possible de donner ces indications à Hunspell afin qu’il améliorer ses résultats (mais peut-être que ce n’est pas assez efficace/pertinent pour le français?).

github.com…
manpages.ubuntu.com…


Je propose des choses car je trouve le lexique extrêmement utile (la liste de mot la plus longue que j’avais trouvé auparavant était un fichier sans aucune indication sémantique et avec 200 000~150 000 mots de moins (en fonction de si on enlève les doublons ou pas) que votre lexique, mais il est un peu obscur au premier abord.
le 28 mars 2020 à 20:05
Pour le verbe à l’infinitif, ça commence par `v`, comme pour tous les verbes, et ça finit par `infi`. C’est extrêmement simple.

Metaphone n’a aucun rapport avec Hunspell, et ce n’est pas pertinent pour Grammalecte qui a son propre algo.
Metaphone et Métagraphe sont restés, mais ne sont utiles à rien pour moi. Ils ne sont présents qu’à titre informatif.
J’utilise l’algo Metaphone 2 (trouvé je ne sais plus où), je n’y ai rien changé.

Il faut comprendre que pour moi le lexique fourni n’a pas d’utilité fondamentale, ce n’est qu’un sous-produit inutile. Je le fournis uniquement parce que pas mal de gens me l’avaient demandé et que ça sert pour pas mal de choses apparemment.
le 28 mars 2020 à 21:29

Notification par e-mail    0