OK
AJAX error!

Les forumsÉtiquetage du dictionnaireInterprétation des données renvoyées par Hunspell

Interprétation des données renvoyées par Hunspell

Bonjour,

Je développe un logiciel d'analyse de texte en technologie .NET avec l'utilisation de la librairie NHunspell (nhunspell.sourceforge.net…) et du dictionnaire "fr-classique".

Avec NHunspell, l'analyse du texte retourne les résultats sous la forme suivante :

Attention: st:attention po:nom is:fem is:sg
excès: st:excès po:nom is:mas is:inv
trop: st:trop po:mg
tournent: st:tourner po:v1itp is:ipre is:3pl
tournent: st:tourner po:v1itp is:spre is:3pl
Internet: st:internet po:nom is:mas is:sg
Internet: st:Internet
cela: st:cela po:mg
cela: st:celer po:v1t is:ipsi is:3sg
finir: st:finir po:v2it is:infi
poids: st:poids po:nom is:mas is:inv
très: st:très po:mg po:adv
faible: st:faible po:adj is:epi is:sg
dans: st:dans po:mg po:prep
dans: st:dan po:nom is:mas is:pl
commentaires: st:commentaire po:nom is:mas is:pl
surveille: st:surveiller po:v1tp is:impe is:2sg
surveille: st:surveiller po:v1tp is:spre is:3sg
surveille: st:surveiller po:v1tp is:spre is:1sg
surveille: st:surveiller po:v1tp is:ipre is:3sg
surveille: st:surveiller po:v1tp is:ipre is:1sg
analyse: st:analyse po:nom is:fem is:sg
analyse: st:analyser po:v1tp is:impe is:2sg
analyse: st:analyser po:v1tp is:spre is:3sg
analyse: st:analyser po:v1tp is:spre is:1sg
analyse: st:analyser po:v1tp is:ipre is:3sg
analyse: st:analyser po:v1tp is:ipre is:1sg
dégage: st:dégager po:v1itp is:impe is:2sg
dégage: st:dégager po:v1itp is:spre is:3sg
dégage: st:dégager po:v1itp is:spre is:1sg
dégage: st:dégager po:v1itp is:ipre is:3sg
dégage: st:dégager po:v1itp is:ipre is:1sg
sans: st:sans po:mg po:prep po:?
problème: st:problème po:nom is:mas is:sg



Ma problématique étant que j'arrive pas à interpréter ces résultats suivant l'explication des drapeaux expliqués sur la page www.dicollecte.org…

Pouvez vous m'expliquer ?

Merci de votre aide.
le 01 octobre 2011 à 11:50
Bonjour,

Ce ne sont pas les drapeaux que vous devez comprendre, mais l’étiquetage, quoique…

En fait, c’est simple. Pour chaque mot dont on demande l’analyse à Hunspell, celui-ci renvoie une liste de toutes les possibilités de ce que peut être ce mot.

Chaque possibilité se présente sous la forme suivante :
(forme fléchie) st:(lemme)

st est l’abréviation du mot anglais stem.

Suivent les étiquettes apposées sur le lemme et sur les règles du fichier des affixes qui s’appliquent sur ledit lemme. Ces étiquettes sont de la forme qu’on veut (voir la documentation sur ce site) et sont répertoriées dans diverses catégories :
po →POS (Part of speech) (sur ce site nature grammaticale)
is →Inflexional suffix (ici inflexion)
ds →derivational suffix
ip →Inflexional prefix
dp →derivational prefix

Lire la doc de Hunspell est utile, même si elle donne des informations au compte-gouttes. :D
sourceforge.net…
le 01 octobre 2011 à 12:33
Je vous remercie de votre support. Clair et précis.
le 02 octobre 2011 à 09:54
l'analyse des mots 'il', 'y', 'de' et 'sur' à Hunspell me donne les informations suivantes suivantes :

st:il po:mg po:propersuj is:3sg is:mas
st:y po:mg po:properobj is:epi is:inv
st:de po:mg po:detart is:epi is:inv
st:sur po:mg po:prep

Que signifie propersuj, properobj , detarrt, prep ? je n'ai trouvé aucune liste décrivant ces catégories.

As tu une liste détaillant tous les codes et leur signification ?
le 05 octobre 2011 à 18:48
L’étiquetage des mots grammaticaux (mg) n’est pas documenté parce qu’il n’est pas terminé et susceptible de changer radicalement sans que je demande l’avis de personne et sans préavis. Chasse gardée dont je m’occupe peu à vrai dire…

prep = préposition
det = déterminant (neg = négation, ind = indéterminé, pos = possessif, dem = démonstratif)
pro = pronom (per = personnel, suj = sujet, obj = objet)
cj = conjonction (co = coordination, sub = subordination)

Mais c’est incomplet et il y a sûrement trois ou quatre bizarreries. :)

Téléchargez le lexique, vous y trouverez les mots grammaticaux pour LanguageTool avec une mini-documentation.
le 05 octobre 2011 à 19:53

Notification par e-mail    0