OK
AJAX error!

Les forumsGrammalecteSuggestion orthographique

Suggestion orthographique

J’avais déjà cru remarquer que la partie orthographique de Grammalecte (pour Firefox) marque du recul par rapport au module orthographique (6.0.2) ajouté à Firefox (57.0).

Un exemple :

hien que cela ne soit pas totalement faux


ne propose comme suggestion que des mots commençant par h et ne donne pas "bien"
Le module orthographique de Firefox, lui s’en sort en proposant notamment bien et chien.

C’est un peu dommage, car il me faut faire trois passes de "correction" pour qu’une page Wikisource soit en ordre :
1. formateur de texte, pour les apostrophes et réunifier les paragraphes (Grammalecte n’aime pas trop les bouts de phrases et est plus performant avec un bon gros paragraphe)
2. vérification orthographique par le module sous Firefox
3. Grammalecte pour la grammaire et ce qui est passé entre les mailles du filet.


Est-ce dû à WebExtension ? Peut-on espérer une amélioration pour bientôt ?
le 21 novembre 2017 à 10:46
Le problème est partiellement dû à WebExtension, mais pas uniquement.

WebExtension ne permet plus d’accéder à Hunspell, le correcteur orthographique inclus dans Firefox, ni à son module de suggestions. Donc, il faut faire autrement.

J’ai alors écrit un moteur de suggestion orthographique pour le remplacer (je l’appelle Graphspell). D’après mes tests, ce nouveau moteur est meilleur que Hunspell dans certains cas et plus mauvais dans d’autres.

Graphspell est encore en phase bêta. Certaines fonctionnalités n’ont pas encore été implémentées.

Là où il est meilleur, c’est quand la phonétique à peu près respectée (substitutions de phonèmes, interversion de lettres).
Là où il est moins bon, c’est quand le mot contient des lettres sans rapport la prononciation ou la graphie correcte, autrement dit sur les fautes de frappe qui introduisent des lettres accidentelles. Ce n’est pas qu’il ne peut rien faire, mais son potentiel est plus limité.

Par ailleurs, je suis parti du principe que la première lettre est à peu près correcte. Si on écrit un <ç> ou un <s> à la place d’un <c>, il va faire les substitutions nécessaires, mais entre <b> et <h>, il n’y a pas de lien phonétique.

Car le problème, ce n’est pas de trouver quelque chose à suggérer, c’est de le faire dans un temps raisonnable.

Graphspell se débrouille bien avec les erreurs phonétiques, les lettres surnuméraires, les inversions, et trouve plus facilement les erreurs en fin de mot.
Il s’en sort moins bien ou très mal avec les lettres manquantes, les erreurs sans lien phonétique et si la première lettre est complètement erronée.

Donc, il est clair que Graphspell n’est du tout optimisé pour les erreurs d’OCR pour l’instant.

Je vais essayer d’améliorer les choses. J’ai encore des tas d’idées.
le 21 novembre 2017 à 11:53
L’un des autres problèmes, c’est parfois la sélection des graphies suggérées. Le correcteur peut trouver des dizaines de mots à suggérer, voire plus d’une centaine. Choisir lesquelles afficher est plus complexe qu’il n’y paraît.
le 21 novembre 2017 à 12:02
Corrigé. Le moteur de suggestion est plus agressif et se soucie un peu moins de phonétique.

Par exemple, pour hien, il suggère : sien, rien, tien, lien, mien, bien, hies, hier, hie, hyène.
le 21 novembre 2017 à 18:20
Formidable ! et quelle réactivité ! Tu dis "corrigé", mais c’est plutôt une amélioration…
le 22 novembre 2017 à 07:04

Notification par e-mail    0