OK
AJAX error!

Les forumsGrammalecteFormateur de texte - césure en fin de ligne

Formateur de texte - césure en fin de ligne

Contexte :
avec Wikisource ou des livres scannés "moulinés" avec un OCR,
on obtient parfois des textes avec beaucoup de mots coupés en deux (césure)
La transformation en version numérique (vers epub, par exemple) ne nécessite pas
ce genre de coupure. Dans Wikisource on reforme les mots coupés et on laisse
le "système" se charger de la mise en page.

Donc en général, je fais une première passe avec le formateur de texte,
qui laisse quelques lignes se terminer par des "traits d'unions".

Je fais une seconde passe avec un équivalent de "chercher et remplacer" -
réglé en "expressions régulières et je remplace les "-\p" par rien,
ce qui reconstitue les mots complets...

... évidemment on perd parfois le trait d'union de certains mots
(vingttrois, Villefranchesur-Saône, etc.)

Il y a donc une solution de remplacement, mais rajouter une nouvelle option dans les divers
serait bien agréable.
le 07 mars 2014 à 17:26
OK, je pense que je vais mettre quelques options post-OCR.

Qu’est \p ? Une fin de paragraphe ? (Je n’ai pas trouvé dans LO.)
le 08 mars 2014 à 11:45
Oui c'est la marque de fin de paragraphe (pas de fin de ligne).

Je n'avais pas voulu complexifier ma demande en ajoutant que j'utilisais un add-in :
AltSearch (Recherche Alternative 1.4) assez performant du point de vue des expressions régulières.

Je me permets d'attirer l'attention sur le fait
que les résultats d'OCR terminent souvent les lignes par des espaces
et que donc en "brut" on a souvent : [mot]+ trait d'union [espace]* $
d'où l'importance de la première correction du formateur supprimant les espaces en fin de paragraphe...
le 08 mars 2014 à 13:46

Notification par e-mail    0