︙ | | | ︙ | |
1236
1237
1238
1239
1240
1241
1242
1243
1244
1245
1246
1247
1248
1249
|
__[s>/ocr(ocr_virgules)__
(?:[iI]l|l(?:es?|a)|[dnmtsDNMTS]e|[àÀ]|[cC]e(?:te|t|)|[mM](?:on|a)|[TS]a|[qQ]uelques?|[aA]ux?),
<<- not /0.endswith("…") ->> =\0[:-1] # Erreur de numérisation ? Virgule superflue ?
TEST: __ocr__ Pierre entre pour {{se,}} rapprocher de L
TEST: __ocr__ je voudrais faire une question ou deux sur une maison de ce village, la… comment l’appelle-t-on ?
## Casse
__[s]/ocr(ocr_casse1)__
[A-ZÉÈÂÊÎÔ]{w_1}
<<- \0.istitle() and before(r"(?i)\w") >>>
<<- morphex(\0, ":G", ":M") ->> =\0.lower() # Erreur de numérisation ? Casse improbable.
<<- __else__ and morphex(\0, ":[123][sp]", ":[MNA]|>Est/") ->> =\0.lower() # Erreur de numérisation ? Casse improbable.
|
>
>
>
>
>
>
>
>
>
>
|
1236
1237
1238
1239
1240
1241
1242
1243
1244
1245
1246
1247
1248
1249
1250
1251
1252
1253
1254
1255
1256
1257
1258
1259
|
__[s>/ocr(ocr_virgules)__
(?:[iI]l|l(?:es?|a)|[dnmtsDNMTS]e|[àÀ]|[cC]e(?:te|t|)|[mM](?:on|a)|[TS]a|[qQ]uelques?|[aA]ux?),
<<- not /0.endswith("…") ->> =\0[:-1] # Erreur de numérisation ? Virgule superflue ?
TEST: __ocr__ Pierre entre pour {{se,}} rapprocher de L
TEST: __ocr__ je voudrais faire une question ou deux sur une maison de ce village, la… comment l’appelle-t-on ?
# Nombres
__[i]/ocr(ocr_nombres)__
[\dOI][\dOI]+
<<- \0 == "II" ->> 11|Il # Erreur de numérisation ?
<<- __else__ and not \0.isdigit() ->> =\0.replace("O", "0").replace("I", "1") # Erreur de numérisation ?
TEST: __ocr__ {{II}} pleut tout le temps.
TEST: __ocr__ En l’an {{2OO1}}, tout commença.
## Casse
__[s]/ocr(ocr_casse1)__
[A-ZÉÈÂÊÎÔ]{w_1}
<<- \0.istitle() and before(r"(?i)\w") >>>
<<- morphex(\0, ":G", ":M") ->> =\0.lower() # Erreur de numérisation ? Casse improbable.
<<- __else__ and morphex(\0, ":[123][sp]", ":[MNA]|>Est/") ->> =\0.lower() # Erreur de numérisation ? Casse improbable.
|
︙ | | | ︙ | |
1305
1306
1307
1308
1309
1310
1311
1312
1313
1314
1315
1316
1317
1318
1319
1320
|
!!!
!!!
!!! Processeur: Dernier nettoyage avant coupure du paragraphe en phrases !!
!!!
!!!
# Trait d’union conditionnel (u00AD)
__<i>(p_trait_union_conditionnel1)__ \w+‑\w+‑\w+ <<- ~>> =\0.replace("‑", "")
__<i>(p_trait_union_conditionnel2)__ \w+‑\w+ <<- ~>> =\0.replace("‑", "")
# empêcher la scission en fin de dialogue
__<s>(p_fin_dialogue1)__ ([?!…][?!… ]*)[ "'”» ]*, @@0 <<- ~1>> *
__<s>(p_fin_dialogue2)__ ([?!…][?!… ]*)[ "'”» ]*[a-zéèêîô] @@0 <<- ~1>> ,
TEST: « Je suis donc perdu ? », dit Paul.
TEST: “C’est bon !”, croit savoir Marie.
|
|
|
|
1315
1316
1317
1318
1319
1320
1321
1322
1323
1324
1325
1326
1327
1328
1329
1330
|
!!!
!!!
!!! Processeur: Dernier nettoyage avant coupure du paragraphe en phrases !!
!!!
!!!
# Trait d’union conditionnel (u00AD)
__[i](p_trait_union_conditionnel1)__ \w+‑\w+‑\w+ <<- ~>> =\0.replace("‑", "")+" "
__[i](p_trait_union_conditionnel2)__ \w+‑\w+ <<- ~>> =\0.replace("‑", "")+" "
# empêcher la scission en fin de dialogue
__<s>(p_fin_dialogue1)__ ([?!…][?!… ]*)[ "'”» ]*, @@0 <<- ~1>> *
__<s>(p_fin_dialogue2)__ ([?!…][?!… ]*)[ "'”» ]*[a-zéèêîô] @@0 <<- ~1>> ,
TEST: « Je suis donc perdu ? », dit Paul.
TEST: “C’est bon !”, croit savoir Marie.
|
︙ | | | ︙ | |
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
|
@@@@
@@@@
@@@@
@@@@
# This graph is parsed only if option <ocr> is activated.
# Nombres
__ocr_nombres__
~[\dOI][\dOI]$
<<- \1 == "II" ->> 11|Il # Erreur de numérisation ?
<<- __else__ and not \1.isdigit() ->> =\1.replace("O", "0").replace("I", "1") # Erreur de numérisation ?
TEST: __ocr__ {{II}} pleut tout le temps.
TEST: __ocr__ En l’an {{2OO1}}, tout commença.
# âge / age
__ocr_age__
>age
<<- ->> =\1.replace("a", "â").replace("A", "Â") # Erreur de numérisation ?
TEST: __ocr__ À son {{age}}, on ne sait plus ce qu’on fait.
|
<
<
<
<
<
<
<
<
<
|
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
|
@@@@
@@@@
@@@@
@@@@
# This graph is parsed only if option <ocr> is activated.
# âge / age
__ocr_age__
>age
<<- ->> =\1.replace("a", "â").replace("A", "Â") # Erreur de numérisation ?
TEST: __ocr__ À son {{age}}, on ne sait plus ce qu’on fait.
|
︙ | | | ︙ | |
8770
8771
8772
8773
8774
8775
8776
8777
8778
8779
8780
8781
8782
8783
8784
|
ni plus ?,¿ ni moins
ni vu ?,¿ ni connu
non [plus|seulement]
non sans raison
quant à présent
par [à-coups|ailleurs|avance|chance|conséquent|curiosité|contre|défaut|définition|endroits|essence|excellence|exemple|hasard|ici|inadvertance|là|moments|nature|principe|terre]
par acquit de conscience
par beau temps
par bien des [aspects|côtés]
par bonté de cœur
par ce biais
par certains [aspects|côtés]
par la même occasion
par la suite
par le passé
|
|
|
8771
8772
8773
8774
8775
8776
8777
8778
8779
8780
8781
8782
8783
8784
8785
|
ni plus ?,¿ ni moins
ni vu ?,¿ ni connu
non [plus|seulement]
non sans raison
quant à présent
par [à-coups|ailleurs|avance|chance|conséquent|curiosité|contre|défaut|définition|endroits|essence|excellence|exemple|hasard|ici|inadvertance|là|moments|nature|principe|terre]
par acquit de conscience
par [beau|mauvais] temps
par bien des [aspects|côtés]
par bonté de cœur
par ce biais
par certains [aspects|côtés]
par la même occasion
par la suite
par le passé
|
︙ | | | ︙ | |