OK
AJAX error!

Les forumsGrammalecteBase commune de tests à Grammalecte et LanguageTool

Base commune de tests à Grammalecte et LanguageTool

Bonjour,

Je suis nouveau tant dans l'utilisation de Grammalecte que LanguageTool.
Je comprends qu'il peut y avoir des divergences quant aux choix d'implémentation (langage de programmation, etc.), mais cela n'empêche que l'objectif de conformité aux règles du/des français est commun.

Aussi y a-t-il une base de données de test commune ?

P.ex:
Si tant LT et Grammalecte souligne une erreur dans "je te remercia", seul LT voit l'erreur dans

chose que je te remercia par un baiser.



Merci
le 04 février 2014 à 12:16
Bonjour,

Non, Grammalecte voit l’erreur dans les deux cas. (Chez moi, ça marche.)
Enfin, non, Grammalecte n’a pas de base de tests commune avec LT, pour la simple et mauvaise raison qu’il n’y a pas de tests unitaires dans Grammalecte. C’est un grave problème qui engendre effectivement parfois des régressions. La raison est que Grammalecte est dépendant de LibreOffice et n’a aucun mode de fonctionnement autonome. Il n’y a donc que des tests manuels. La liste des faux positifs sur ce site me sert à vérifier les régressions sur ce point. J’ai aussi une liste de détection manuelle (un fichier odt en somme) qui me permet de vérifier que tout semble normal.
Ce n’est pas très commode et c’est très insuffisant, mais c’est la seule possibilité actuelle. Je reviendrai sur ce point prochainement.

l'objectif de conformité aux règles du/des français est commun.


Certes, mais les implémentations divergentes sur la tolérance aux erreurs et les forces des deux programmes étant très différentes, cette mise en commun est à mon avis un peu illusoire, le but des tests n’étant pas de faire des comparatifs entre les deux programmes, mais de signaler un comportement anormal. Un programme doit passer tous les tests. Être perturbé par les tests que l’autre programme passe, c’est intéressant, mais c’est tout.
Je suis justement en train d’écrire un papier que je compte publier sur LinuxFR prochainement, et j’y expose en partie les forces et faiblesses des deux programmes. Grammalecte est faible là où LT est fort, et inversement. Je ne connais pas les plans de LT, mais Grammalecte peut aussi devenir fort là où LT brille, c’est une question de temps et d’investissement.
le 04 février 2014 à 12:46
>Grammalecte n’a pas de base de tests commune avec LT
Cf mon post
languagetool-user-forum.2306527.n4.nabble.com…

>pour la simple et mauvaise raison qu’il n’y a pas de tests unitaires dans Grammalecte
Il est "simple" d'exporter un ligne CSV en fichier txt puis import dans LO

>Non, Grammalecte voit l’erreur dans les deux cas. (Chez moi, ça marche.)
Effectivement, j'ai fait un "extract" trop court, je vais refaire lorsqu'aurai le temps.
le 04 février 2014 à 14:06
En fait, je ne travaille pas présentement sur l’automatisation, mais j’espère avoir le temps de faire ça cette année. 2013 était une année pauvre en développement, faute de temps, je n’ai guère fait que de la maintenance (et les outils annexes), rien qui concerne le moteur interne. Le moteur multi-passes était déjà en cours de préparation en 2012, je n’ai eu qu’à le terminer.

Il est "simple" d'exporter un ligne CSV en fichier txt puis import dans LO


C’est peut-être simple, mais ce qui compte à mes yeux c’est le gain de temps. Il fut un temps où j’avais commencé à créer un fichier texte de tests, avec un format spécifique, mais j’ai finalement abandonné, car rien n’est plus rapide qu’écrire directement dans un fichier ODT.
Ceci dit, si quelqu’un se veut donner la peine de lister toutes les erreurs imaginables pour tester, je suis preneur, mais je n’ai pas moi-même le temps de m’y consacrer. Je me contente d’améliorer mes fichiers au cas par cas.
le 04 février 2014 à 17:21
Les règles de LT contiennent toutes des exemples pour tester des phrases avec erreur et des phrases correctes. C’est très utile pour vérifier que des régressions ne sont pas introduites quand on change les règles ou quand on met à jour le dictionnaire.

Voici une règle de LT très simple avec 2 exemples qui testent automatiquement la règle :

«pattern»
«token regexp="yes"»Jimm?y|Jimmi«/token»
«token regexp="yes"»Hendrix|Hendric?ks«/token»
«/pattern»
«message»Écrivez «suggestion»Jimi Hendrix«/suggestion» s’il s’agit du guitariste.«/message»
«url»fr.wikipedia.org…
«example type="incorrect" correction="Jimi Hendrix"»«marker»Jimmy Hendrix«/marker» est né à Seattle.«/example»
«example type="correct"»Jimi Hendrix est né à Seattle.«/example»

Le test vérifie que l’exemple marqué "incorrect" contient bien un erreur et que l’erreur se trouve entre les tag «marker». De plus il test aussi que la correction est celle attendue.

Le test vérifie aussi que la règle ne signale aucune erreur dans l’exemple marqué "correct".

J’ajoute que ces exemples sont non seulement utiles pour tester automatiquement, mais aussi pour aider à comprendre la règle.

LT contient d’autres tests pour tester l’étiquetage grammatical des mot et la désambiguïsation des étiquettes par exemple.

Les règles et exemples de LT se trouvent ici :

raw2.github.com…

Admin a écrit :

Je suis justement en train d’écrire un papier que je compte publier sur LinuxFR prochainement, et j’y expose en partie les forces et faiblesses des deux programmes.


Intéressant. J’ai hâte de lire ça !

le 04 février 2014 à 21:52
Admin a écrit :

J’ai aussi une liste de détection manuelle (un fichier odt en somme) qui me permet de vérifier que tout semble normal.


Est-ce que ce fichier odt de test manuels est disponible ?
Je suis curieux de voir comment LanguageTool s’en sort avec ces tests. Et ça peut aider à améliorer LanguageTool.
le 09 février 2014 à 22:16
Il n’y a pas grand-chose à voir. Je te les envoie par mail.
le 12 février 2014 à 12:47

Je suis justement en train d’écrire un papier que je compte publier sur LinuxFR prochainement, et j’y expose en partie les forces et faiblesses des deux programmes. Grammalecte est faible là où LT est fort, et inversement.



Ta comparaison entre LT et Grammalecte a-t-elle été publiée ?
Ça me semble intéressant.
le 05 juillet 2014 à 02:29
Non, pas encore, ce long billet inachevé traîne sur mon disque dur depuis des mois. En fait, il s’inscrit dans une problématique plus générale : Que faire de Grammalecte ? Forker Lightproof ? Ouvrir un dépôt ? Lancer une campagne de financement participatif ? Tout laisser tomber ? Ou bien continuer comme je le fais, peinard dans mon coin, sans me soucier de rien ? Si je ne change pas d’avis, je présenterai ce texte en même temps qu’une campagne de financement à la rentrée (notamment pour travailler à la version serveur). J’hésite et ça me pèse. Et comme tout ce qui me pèse, j’ai tendance à laisser ça de côté jusqu’à une décision émerge du fond de moi-même, ce qui peut prendre pas mal de temps.

En qui concerne la comparaison LT/GL, tu seras probablement celui qui en apprendra le moins. Il s’agit plus d’un exposé généraliste sur le fonctionnement des deux outils, des différences pratiques et tactiques, si j’ose dire, pour détecter les erreurs. Il ne s’agit pas d’un comparatif destiné à dire qui est le meilleur. Ça n’a de sens que si on compare un volume très important de textes. Les comparatifs sur quelques paragraphes comme on en voit parfois sont à mes yeux peu significatifs. C’est comme juger la qualité des routes de la planète entière en sélectionnant au hasard un tronçon de dix kilomètres. Peu pertinent globalement, même si ça peut mettre en exergue certains défauts ou qualités spécifiques.
le 05 juillet 2014 à 09:03

Notification par e-mail    0