OK
AJAX error!

Les forumsÉtiquetage du dictionnaireÀ propos de lemmes

À propos de lemmes

Un mot comme «grands-pères» a dans le dictionnaire Dicollecte le lemme «grands-pères». À mon avis, le lemme devrait être «grand-père».

Cela permettrait d’utiliser le lemme dans les règles de LanguageTool de manière suivante :

«token inflected="yes"»grand-père«/token»

… plutôt que d’avoir à utiliser des expressions régulières :

«token regexp="yes"»grands?-pères?«/token»
le 14 août 2011 à 23:16
Oui, mais il n’y a pas d’astuce commode pour que le correcteur sache (ou même moi, lorsque je génère le lexique) que «grand-père» est le lemme de «grands-pères». Il va falloir tout spécifier manuellement. (Je vais quand même voir si je peux automatiser le remplissage des entrées existantes.)

Je viens d’activer le champ «racine» qui permet d’attribuer une racine à une entrée.

Attention, ce champ n’est à remplir que pour les mots dont le «lemme» est une autre entrée.

Je peux aussi activer le champ «allomorphe(s)» qui permet de dire à une entrée quelles sont ses autres déclinaisons non générées par un drapeau.

Par exemple,
grands-pères – racine:grand-père
grand-père – allomorphe:grands-pères

atonals – racine:atonale
atonale/W*() – allomorphe:atonals

Je ne suis pas convaincu par l’utilité du champ «allomorphe(s)» et je ne vois pas encore d’utilité à ce champ. De toute façon, il sera possible de générer automatiquement les allomorphes par un script avec les racines. Donc, à moins qu’on me le demande, je ne vais pas l’activer.
le 15 août 2011 à 08:18

Il va falloir tout spécifier manuellement.


Pour la grande majorité des mots, le lemme est déjà correct. Donc je pense que même manuellement, ça ne sera pas trop difficile.

Je viens d’activer le champ «Racine» qui permet d’attribuer une racine à une entrée.


Merci !

La Racine est donc ce que LanguageTool (et Grammalecte ?) utilisera comme lemme. Je ne suis pas linguiste, mais je me demande si on ne devrait pas inverser les mots Racine ↔ Lemme.

Je peux aussi activer le champ «allomorphe(s)»


Puisque c’est généré automatiquement, ça ne doit pas être éditable, contrairement au champ «Racine». Le champ «Allomorphe(s)» n’ajoute donc pas d’information. C’est juste pratique peut-être de voir qu’un mot (ex : «grand-père») peut avoir d’autres flexions en suivant de(s) hyperlien(s) «Allomorphe(s)» (ex : grands-pères). La valeur du champ «Racine» peut aussi être un hyperlien.

Le graphe des liens «Racine» ne devrait pas avoir de cycles (fr.wikipedia.org…). Je suppose qu’une racine ne peut pas avoir de racine.

Donc, à moins qu’on me le demande, je ne vais pas l’activer.


Le mieux est de faire au plus simple, au moins pour commencer, et donc de ne pas activer les Allomorphes.
le 15 août 2011 à 20:26

dominiko :
Pour la grande majorité des mots, le lemme est déjà correct. Donc je pense que même manuellement, ça ne sera pas trop difficile.


Il y a quand même des milliers de mots composés. Je vais voir si je ne peux pas faire ça automatiquement.

La Racine est donc ce que LanguageTool (et Grammalecte ?) utilisera comme lemme. Je ne suis pas linguiste, mais je me demande si on ne devrait pas inverser les mots Racine ↔ Lemme.


Ici, «racine» correspond au champ «stem» dans Hunspell. Stem signifie pied, tige, tronc… En toute logique, il faudrait nommer aussi ce champ «lemme» puisqu’il se substitue au lemme du dictionnaire (le premier champ nommé ainsi). Mais ça m’ennuie de donner le même nom à deux champs. Si tu as une meilleure idée, je suis preneur. :)
Dans notre dictionnaire, tu remarqueras que les mots non épicènes ont la graphie féminine comme lemme. Quand je génère le lexique, je lance la recherche du mot masculin pour le mettre comme lemme (parce que c’est ce qu’on m’avait demandé), mais dans LibO/Hunspell le lemme est bien le féminin. LT et GL n’ont donc pas toujours le même lemme.
En théorie, pour cohérence, dans ce dictionnaire, il faudra donc écrire :

atonals racine:atonale



Je peux aussi activer le champ «allomorphe(s)»


Puisque c’est généré automatiquement, ça ne doit pas être éditable, contrairement au champ «Racine». Le champ «Allomorphe(s)» n’ajoute donc pas d’information. C’est juste pratique peut-être de voir qu’un mot (ex : «grand-père») peut avoir d’autres flexions en suivant de(s) hyperlien(s) «Allomorphe(s)» (ex : grands-pères).


Je me suis mal fait comprendre. On générer automatiquement les «allomorphes» si le champ «racine» est écrit, mais ce n’est pas Hunspell qui le fait pour nous.

La valeur du champ «Racine» peut aussi être un hyperlien.


Il ne s’agit pas d’un hyperlien, seulement d’une information qu’on ajoute pour Hunspell. Un substituant, si tu préfères. Tu peux très bien indiquer comme racine/lemme un mot absent du dictionnaire.

Le graphe des liens «Racine» ne devrait pas avoir de cycles (fr.wikipedia.org…). Je suppose qu’une racine ne peut pas avoir de racine.


Si. Par exemple, donc est racine/lemme de donc. Toutes les formes fléchies ont un lemme, et celui-ci peut être identique à la forme fléchie.
le 16 août 2011 à 09:27

Notification par e-mail    0