Grammalecte  Check-in [a052c4803b]

Overview
Comment:[fr] faux positifs (ocr)
Downloads: Tarball | ZIP archive | SQL archive
Timelines: family | ancestors | descendants | both | trunk | fr
Files: files | file ages | folders
SHA3-256: a052c4803b92ea4e7c96021ac2e8bbc0f4ea470c1efe2b1ba3012261fbcc7552
User & Date: olr on 2019-04-16 15:58:24
Other Links: manifest | tags
Context
2019-04-16
16:05
[core] update: paragraph splitting check-in: d0bd3382eb user: olr tags: trunk, core
15:58
[fr] faux positifs (ocr) check-in: a052c4803b user: olr tags: trunk, fr
14:16
[fx] grammar checking: autorefresh after edition check-in: 6bd3d5409b user: olr tags: trunk, fx
Changes

Modified gc_lang/fr/rules.grx from [584420d652] to [21dbe41916].

2195
2196
2197
2198
2199
2200
2201
2202
2203
2204
2205
2206
2207
2208
2209
2210
2211
2212
2213
2214
2215
2216
2217
2218


2219
2220
2221
2222
2223
2224
2225

## Casse
__ocr_casse__
    ~^[A-ZÉÈÂÊÎÔ].
        <<- \1.istitle() and before("\\w") and (morph(\1, ":G", ":M") or morph(\1, ":[123][sp]", ":[MNA]|>Est/"))
        -:>> =\1.lower()                                                                            # Erreur de numérisation ? Casse improbable.

    [L’|D’|N’|M’|T’|S’|C’|Ç’]
        <<- before("\\w") -:>> =\1.lower()                                                          # Erreur de numérisation ? Casse douteuse.

TEST: __ocr__ regarde dans l’obscurité de {{L’}}entrepôt                        ->> l’
TEST: __ocr__ votre ami la regarde, {{Vous}} ne l’avez pas achetée              ->> vous
TEST: __ocr__ pour accommoder son regard, {{La}} lourde forme demeure           ->> la
TEST: __ocr__ parler de Nicole, {{Le}} sommeil ne vient pas.                    ->> le
TEST: __ocr__ a fait de toi, Charles, {{Tu}} étais beau quand                   ->> tu
TEST: __ocr__ s’habituer à se faire servir, {{Au}} début ça                     ->> au
TEST: __ocr__ Tu as tué ce petit garçon, Henri, {{Et}} tu le sais.              ->> et
TEST: __ocr__ d’un fil de plastique transparent, {{Il}} l’agite                 ->> il
TEST: __ocr__ sur une glace noire {{Les}} lumières du port                      ->> les
TEST: __ocr__ le roulis du bateau {{Le}} faisant heurter                        ->> le
TEST: __ocr__ si vous {{La}} désirez                                            ->> la
TEST: __ocr__ sa main se referme sur {{Je}} livre                               ->> je
TEST: __ocr__ Ils étaient portés à croire que Danton et Robespierre ne mettraient aucun obstacle. Le 8 au soir, Robespierre était allé à la section Bonne-Nouvelle, avait invectivé violemment contre la Gironde. Pendant son discours, un des siens, qui l’attendait à la porte, disait qu’on devrait massacrer non les Girondins seulement, mais tous les signataires des fameuses pétitions.
TEST: __ocr__ Prends cette pelle et creuse.




# virgules
__ocr_virgules__
    [il|le|la|l’|les|de|d’|ne|n’|me|m’|te|t’|se|s’|à|ce|cet|cette|mon|ma|ta|sa|mes|tes|ses|nos|vos|quelque|quelques|au|aux] ,
        <<- space_after(\1, 0, 0) and not \1.isupper() or value(\1, "|à|") ->> \1                   # Erreur de numérisation ? Virgule superflue ?








|
|















>
>







2195
2196
2197
2198
2199
2200
2201
2202
2203
2204
2205
2206
2207
2208
2209
2210
2211
2212
2213
2214
2215
2216
2217
2218
2219
2220
2221
2222
2223
2224
2225
2226
2227

## Casse
__ocr_casse__
    ~^[A-ZÉÈÂÊÎÔ].
        <<- \1.istitle() and before("\\w") and (morph(\1, ":G", ":M") or morph(\1, ":[123][sp]", ":[MNA]|>Est/"))
        -:>> =\1.lower()                                                                            # Erreur de numérisation ? Casse improbable.

    [L’|D’|N’|M’|T’|S’|C’|Ç’]  *WORD
        <<- before("\\w") and not \2.isupper() -1:>> =\1.lower()                                    # Erreur de numérisation ? Casse douteuse.

TEST: __ocr__ regarde dans l’obscurité de {{L’}}entrepôt                        ->> l’
TEST: __ocr__ votre ami la regarde, {{Vous}} ne l’avez pas achetée              ->> vous
TEST: __ocr__ pour accommoder son regard, {{La}} lourde forme demeure           ->> la
TEST: __ocr__ parler de Nicole, {{Le}} sommeil ne vient pas.                    ->> le
TEST: __ocr__ a fait de toi, Charles, {{Tu}} étais beau quand                   ->> tu
TEST: __ocr__ s’habituer à se faire servir, {{Au}} début ça                     ->> au
TEST: __ocr__ Tu as tué ce petit garçon, Henri, {{Et}} tu le sais.              ->> et
TEST: __ocr__ d’un fil de plastique transparent, {{Il}} l’agite                 ->> il
TEST: __ocr__ sur une glace noire {{Les}} lumières du port                      ->> les
TEST: __ocr__ le roulis du bateau {{Le}} faisant heurter                        ->> le
TEST: __ocr__ si vous {{La}} désirez                                            ->> la
TEST: __ocr__ sa main se referme sur {{Je}} livre                               ->> je
TEST: __ocr__ Ils étaient portés à croire que Danton et Robespierre ne mettraient aucun obstacle. Le 8 au soir, Robespierre était allé à la section Bonne-Nouvelle, avait invectivé violemment contre la Gironde. Pendant son discours, un des siens, qui l’attendait à la porte, disait qu’on devrait massacrer non les Girondins seulement, mais tous les signataires des fameuses pétitions.
TEST: __ocr__ Prends cette pelle et creuse.
TEST: __ocr__ Roland, 87 ans, amoureux depuis cinq ans : « J’ai l’impression que je vais vivre encore longtemps »
TEST: __ocr__ QUE FAIRE D’APRÈS EUX ?


# virgules
__ocr_virgules__
    [il|le|la|l’|les|de|d’|ne|n’|me|m’|te|t’|se|s’|à|ce|cet|cette|mon|ma|ta|sa|mes|tes|ses|nos|vos|quelque|quelques|au|aux] ,
        <<- space_after(\1, 0, 0) and not \1.isupper() or value(\1, "|à|") ->> \1                   # Erreur de numérisation ? Virgule superflue ?

2528
2529
2530
2531
2532
2533
2534
2535

2536
2537
2538
2539
2540
2541
2542
2543

2544
2545
2546
2547
2548
2549
2550
2551
2552
2553
2554
2555
2556
__ocr_l__
    ~^V.
        <<- \1.istitle() and before("\\w") and morph(\1, ":", ":M") >>>
        <<- spell(\1[1:]) -:>> ="v"+\1[1:] + "|l’"+\1[1:]                                           # Erreur de numérisation ?
        <<- __else__ -:>> ="v"+\1[1:]                                                               # Erreur de numérisation ?

    ~^P[aâeéêèiîïoôuy]
        <<- before("\\w") and morph(\1, ":", ":M") and spell(\1) ->> ="l’"+\1[1:] + "|p"+\1[1:]     # Erreur de numérisation ?


TEST: __ocr__ beaucoup de {{Vélos}} à Versailles.
TEST: __ocr__ avec {{Vagile}} méthode de notre amie Virginie, tout est possible.
TEST: __ocr__ Viens demain.
TEST: __ocr__ Ce jour où Valérie eut sa licence de droit.
TEST: __ocr__ Il scrute Pierre, {{Pair}} maussade.
TEST: __ocr__ Une grosse vague arrivait et {{Peau}} remplit.
TEST: __ocr__ selon toute logique, Paris sera épargné.



# l’était / Tétait
__ocr_l_était__
    Tétait
        <<- ->> l’était|t’était|T’était                                                             # Erreur de numérisation ?

TEST: __ocr__ perdu, cet homme {{Tétait}}


# le / les / lé / lés / lui / lai / lei / la / tu / lu
__ocr_le_la_les__
    >lé







|
>








>





|







2530
2531
2532
2533
2534
2535
2536
2537
2538
2539
2540
2541
2542
2543
2544
2545
2546
2547
2548
2549
2550
2551
2552
2553
2554
2555
2556
2557
2558
2559
2560
__ocr_l__
    ~^V.
        <<- \1.istitle() and before("\\w") and morph(\1, ":", ":M") >>>
        <<- spell(\1[1:]) -:>> ="v"+\1[1:] + "|l’"+\1[1:]                                           # Erreur de numérisation ?
        <<- __else__ -:>> ="v"+\1[1:]                                                               # Erreur de numérisation ?

    ~^P[aâeéêèiîïoôuy]
        <<- before("\\w") and morph(\1, ":", ":M") and spell(\1[1:])
        -:>> ="l’"+\1[1:] + "|p"+\1[1:]                                                             # Erreur de numérisation ?

TEST: __ocr__ beaucoup de {{Vélos}} à Versailles.
TEST: __ocr__ avec {{Vagile}} méthode de notre amie Virginie, tout est possible.
TEST: __ocr__ Viens demain.
TEST: __ocr__ Ce jour où Valérie eut sa licence de droit.
TEST: __ocr__ Il scrute Pierre, {{Pair}} maussade.
TEST: __ocr__ Une grosse vague arrivait et {{Peau}} remplit.
TEST: __ocr__ selon toute logique, Paris sera épargné.
TEST: __ocr__ À l’orée de la semaine de Pâques, l’incendie de la cathédrale Notre-Dame


# l’était / Tétait
__ocr_l_était__
    Tétait
        <<- -:>> l’était|t’était|T’était                                                            # Erreur de numérisation ?

TEST: __ocr__ perdu, cet homme {{Tétait}}


# le / les / lé / lés / lui / lai / lei / la / tu / lu
__ocr_le_la_les__
    >lé