OK
AJAX error!

Les forumsGrammalecteSignaler les ligatures

Signaler les ligatures

Ce qui suit, sont surtout des erreurs dû à des OCR sur des livres scannés notamment par la BNF et dans le cadre de Wikisource.
J'aurai dû (!) écrire plusieurs messages...
1. le caractère - backquote ? - particulièrement difficile à distinguer et donc à corriger dans certaines fontes.
exemple

c‘est une fille


En général le but est de le remplacer par le caractère apostrophe français.
Est-ce signalable (pas dans le dico ;-) par le module grammatical ? ou corrigeable par le formateur de texte ?
2. Les caractères et (il y en a peut-être d'autres, double f ?) sont aussi embêtants à débusquer
comme dans

c'est la fine fleur de l'élégance


Le module orthographique ne détecte aucune erreur (de même l'outil "Typo" de Wikisource ne détecte rien...)
et sont donc indécelable.
Mêmes questions qu'en 1., peut-on faire quelque chose ?
PS : par pure perversité, la première citation contient aussi le qui tue ;-)
le 08 décembre 2014 à 10:23
Le cas 1 est déjà signalé par Grammalecte… ou alors on ne parle pas du même caractère… Numéro Unicode requis. :)

Quant au cas 2, ici, c’est Hunspell qui fait le boulot de remplacement avec les commandes :
ICONV ffi ffi
ICONV ffl ffl
ICONV ff ff
ICONV fi fi
ICONV fl fl

C’est pourquoi le correcteur ne signale rien. Ce ne sont pas des erreurs orthographiques.
Je peux ajouter une option dans Grammalecte pour signaler l’existence de ces caractères…
le 08 décembre 2014 à 10:57

Le cas 1 est déjà signalé par Grammalecte… ou alors on ne parle pas du même caractère… Numéro Unicode requis. :)



Effectivement. Mon premier test n'était pas concluant car le backquote était seul (isolé) et grammalecte n'a rien signalé.
En le mettant dans un morceau de phrase il est détecté et proposé à la correction.
Cependant le "formateur de texte" l'ignore complètement (isolé ou dans un morceau de phrase). Ne pourrai-il être converti automatiquement comme pour le cas de l'apostrophe anglaise ?

Quant au cas 2, ici, c’est Hunspell qui fait le boulot de remplacement avec les commandes...



Je ne comprends pas tout à fait. Que dois-je faire pour que le remplacement ce fasse ?
Actuellement je vais chercher un texte par exemple c’était une fille flemmarde sélection+copier, et dans libreOffice, coller.
Maintenant utiliser F7 ou le formateur ne change plus rien au texte et je reste avec ma belle lle emmarde...
le 08 décembre 2014 à 14:26
Oui, le formateur de texte ignorait ces cas. Je suis parfois trop prudent. Maintenant, il va s’en occuper aussi.

Pour les ligatures, c’est simple : si Hunspell reçoit des mots avec les ligatures mentionnées, il les transforme avant de vérifier l’orthographe du mot. Si tu veux que Hunspell considère ces ligatures comme des erreurs, il faut supprimer les commandes que j’ai listées (attention au compte des commandes ICONV qui doit être correct).

Grammalecte possède maintenant une option pour signaler les ligatures fi, fl, ff, ffi, ffl, ft, st. La ligature ct n’est pas standardisée (n’est pas dans Unicode).
le 08 décembre 2014 à 21:12
Bonjour

À titre personnel, je ne m'occupe pas des ligatures dans le texte de mes EPUB. J'incorpore une police OpenType qui affiche "nativement" les ligatures sur les textes standards. Voici ce que ça donne avec Linux Libertine O (otf) en comparaison avec une police true-type standard. (ttf).

pix.toile-libre.org…
le 09 décembre 2014 à 08:22
@Admin :
si j'ai bien compris, il faut aller modifier "le bon" fr*.aff ; le premier ICONV indique le nombre d'éléments ICONV qui suivent et ensuite
supprimer les ICONV qui me gênent ?

commentaire perso :
[humour ON] oui, oui,... avec 4 PCs sous différents OS et sur l'un d'eux j'ai trouvé 14 versions d' *.aff pour LibreOffice,
c'est presque aussi facile que le code javascript que l'on m'a proposé sur Wikisource et qui ne fonctionne pas... [humour OFF]
le 09 décembre 2014 à 10:23
@roger64 :
Je ne doute pas que le résultat puisse être (très) bon sur une liseuse en epub, mais ici c'est en amont : sur Wikisource ;
et je suis persuadé que c'est l'OCR qui génère ces ligatures, pas l'auteur original.
De plus je trouve que dans le format source on doit pouvoir faire des recherche sur tout le texte
pour retrouver les flemmards et pas commencer à rechercher toutes les variantes possibles...
Là c'est moi qui ai la emme ;-)
le 09 décembre 2014 à 10:30
@Tbj : Oui, c’est ça. C’est une solution temporaire possible.
Je t’ai envoyé une préversion de Grammalecte qui détecte les ligatures. Merci de ne pas diffuser. C’est une version de développement.
le 09 décembre 2014 à 11:43
Après un rapide test avec le formateur de texte (pour le "backquote")
et avec le module grammatical (F7) pour les ligatures
lorsque la case pour signaler ligatures typographiques est cochée,
tout m'a l'air normal : mes "fi" et mes "fl" sont corrects ;
je n'ai pas essayé les autres possibilités.

Je peux éventuellement poursuivre quelques tests sous Linux dans les jours qui viennent...

ÉDIT :
cela fonctionne aussi fort bien sous Linux... sauf la première fois, où il a fallu re-cocher une deuxième fois l'option
de détection des ligatures. (Cela n'a probablement rien à voir avec la fonctionnalité...)
Remarque : j'ai eu ce phénomène aussi bien sous Windows que sous Linux.
le 09 décembre 2014 à 14:30
Après installation de l’extension, il faut toujours relancer Writer (je ne sais pas si les options modifiées avant ça sont mémorisées).

Ensuite, quand vous cochez/décochez une option, le texte déjà analysé avant le changement d’options ne sera réanalysé que si vous le modifiez.
le 09 décembre 2014 à 21:50
Bonjour


@Tbj
Je n'avais pas réalisé que vous avez besoin de détecter et corriger les ligatures en place dans vos fichiers source pour faciliter notamment une recherche plein texte. Il sera intéressant de connaître le "coupable". À titre d'information, pourriez-vous publier un court extrait de ce type de fichier?
le 10 décembre 2014 à 02:46
J'ai trouvé le "coupable" :
en travaillant sur Wikisource.fr sur le roman de Paul d'Ivoi L’Aéroplane fantôme,
le texte de départ (OCR de Gallica / BNF) est difficile à traiter : 3 à 4 mots par lignes, et donc un tas de lignes...

J'ai pris l'habitude de redemander un nouvel OCR, grâce à un outil fourni par wiki* et
qui donne un texte un peu plus agréable à "travailler".
C'est en recherchant les ligatures dans ces 2 moutures, que je me suis aperçu qu'elles
apparaissent après la demande via le gadget OCR de wiki*.

Il n'y a plus qu'à remonter le ticket...
le 10 décembre 2014 à 07:47
Merci de votre réponse.

En matière de livre électronique - c'est sans doute différent pour un site web -, les ligatures ne devraient pas être codées "en dur" parce que cela les lie à une police particulière. De nombreux lecteurs sont habitués à lire avec leur police de prédilection. Si cette police est une true-type, ils perdront simplement l'affichage des ligatures offert par la police open-type, mais c'est LEUR choix. S'ils veulent aussi que les ligatures soient affichées, il auront à installer une version open-type.
le 10 décembre 2014 à 10:13

Notification par e-mail    0