Grammalecte  Check-in [6f370ea507]

Overview
Comment:[fr] ajustements: regex -> tokens
Downloads: Tarball | ZIP archive | SQL archive
Timelines: family | ancestors | descendants | both | trunk | fr
Files: files | file ages | folders
SHA3-256: 6f370ea507f1be6ffd79e5a9e9b7874be0f594e4f1c66315889627d0e307d888
User & Date: olr on 2020-09-11 09:22:15
Other Links: manifest | tags
Context
2020-09-11
10:12
[fr] ajustements: regex -> tokens (virgules) check-in: 5bd70d2c52 user: olr tags: trunk, fr
09:22
[fr] ajustements: regex -> tokens check-in: 6f370ea507 user: olr tags: trunk, fr
08:19
[graphspell] word simplifcation: apostrophes and hyphens check-in: 2aa5cb1dba user: olr tags: trunk, graphspell
Changes

Modified gc_lang/fr/rules.grx from [b1329298ac] to [7738ed0e86].

599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
__[i>(p_arborescence_Windows)__
    [a-z]:\\(?:Program Files(?: [(]x86[)]|)|[\w.()]+)(?:\\[\w.()]+)*  <<- ~>> *

# mètres (m)
__[s>(p_chiffres_m)__
    "\d+ (m) "  @@w <<- ~1>> _

# crochets
__[s](p_points_suspension_entre_crochets)__
    \[…\] <<- ~>> *
__[s](p_mot_entre_crochets)__
    \[({w_1})\] @@1
        <<- \1.isdigit() ~>> *
        <<- __else__ and morph(\1, ":G") ~>> =" " + \1 + " "
        <<- __else__ and \1.isalpha() ~>> " _"

# parenthèses
__[s](points_suspension_entre_parenthèses)__
    \(…\)
        <<- ->> […]                 && Pour indiquer une troncature de texte, on utilise usuellement des crochets.
        <<- ~>> *
__<i>(p_préfixes_entre_parenthèses)__
    " (\(r[eé]\))\w+"  @@1
        <<- ~1>> *

TEST: par {{O.R.}}                                          ->> OR|O. R.
TEST: l’{{A.N.P.E.}} n’existe plus
TEST: ce chien […] ne {{semblez}} pas en forme.
TEST: ce chat {{(…)}} ne {{ressemblez}} pas aux autres.
TEST: les tests de la version 3.17.8 {{commence}} demain.
TEST: ce nouveau moteur de recherche (http://www.cherche-moi-ça.fr/home.php&lang=fr) fonctionne pas mal.
TEST: La mise à jour 3.3.5 publiée en novembre 2018 marque l’arrivée de la première vraie planète
TEST: L’A.M. Turing Award 2015
TEST: Retrouvez-nous sur le Monde.fr
TEST: Arthur D. vient chez nous.
TEST: Arthur D., de toute façon, vient chez nous.







<
<
<
<
<
<
<
<
<
<
<
<
<
<
<
<
<
<


<
<







599
600
601
602
603
604
605


















606
607


608
609
610
611
612
613
614
__[i>(p_arborescence_Windows)__
    [a-z]:\\(?:Program Files(?: [(]x86[)]|)|[\w.()]+)(?:\\[\w.()]+)*  <<- ~>> *

# mètres (m)
__[s>(p_chiffres_m)__
    "\d+ (m) "  @@w <<- ~1>> _



















TEST: par {{O.R.}}                                          ->> OR|O. R.
TEST: l’{{A.N.P.E.}} n’existe plus


TEST: les tests de la version 3.17.8 {{commence}} demain.
TEST: ce nouveau moteur de recherche (http://www.cherche-moi-ça.fr/home.php&lang=fr) fonctionne pas mal.
TEST: La mise à jour 3.3.5 publiée en novembre 2018 marque l’arrivée de la première vraie planète
TEST: L’A.M. Turing Award 2015
TEST: Retrouvez-nous sur le Monde.fr
TEST: Arthur D. vient chez nous.
TEST: Arthur D., de toute façon, vient chez nous.
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
TEST: qui a été le plus honnête [Rires]
TEST: Marion Maréchal-Le Pen. Afin que Maréchal ne soit pas analysé comme un impératif, “Le Pen” devient “Le_Pen”.
TEST: Car [je] deviendrai plus insaisissable que jamais.
TEST: C’est dans le dossier D:\Data
TEST: Dossier C:\Program Files (x86)\LibreOffice
TEST: [1] Dossier à revoir.
TEST: jusqu’à 12h47
TEST: Allons (re)voir ce film
TEST: La figure 110 représente…



!!
!!
!!!! Apostrophes                                                                                  !!







<







623
624
625
626
627
628
629

630
631
632
633
634
635
636
TEST: qui a été le plus honnête [Rires]
TEST: Marion Maréchal-Le Pen. Afin que Maréchal ne soit pas analysé comme un impératif, “Le Pen” devient “Le_Pen”.
TEST: Car [je] deviendrai plus insaisissable que jamais.
TEST: C’est dans le dossier D:\Data
TEST: Dossier C:\Program Files (x86)\LibreOffice
TEST: [1] Dossier à revoir.
TEST: jusqu’à 12h47

TEST: La figure 110 représente…



!!
!!
!!!! Apostrophes                                                                                  !!
1818
1819
1820
1821
1822
1823
1824
1825
1826
1827
1828















1829
1830
1831
1832
1833




1834
1835
1836
1837
1838
1839
1840
__purge_fin_phrase__
    [.|…|?|!|:|;|–|—|•|·|…|«|»|‘|’|“|”|"|'|¿|¡|-]  ?[.|…|?|!|:|;|–|—|•|·|…|«|»|‘|’|“|”|"|'|¿|¡|-]¿  ?[.|…|?|!|:|;|–|—|•|·|…|«|»|‘|’|“|”|"|'|¿|¡|-]¿  <end>
        <<- ~1:-2>> *


__purge_mot_nombre_parenthèses_crochets_accolades__
    (  [*WORD|*NUM]  )
    [  [*WORD|*NUM]  ]
    {  [*WORD|*NUM]  }
        <<- ~>> *
















__purge_chapitres_références__
    (  [*WORD|*NUM]  ,  *NUM  )
    [  [*WORD|*NUM]  ,  *NUM  ]
    {  [*WORD|*NUM]  ,  *NUM  }
        <<- ~>> *






!!!
!!!
!!! Désambiguïsation                                                                              !!
!!!
!!!







<



>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
|




>
>
>
>







1797
1798
1799
1800
1801
1802
1803

1804
1805
1806
1807
1808
1809
1810
1811
1812
1813
1814
1815
1816
1817
1818
1819
1820
1821
1822
1823
1824
1825
1826
1827
1828
1829
1830
1831
1832
1833
1834
1835
1836
1837
__purge_fin_phrase__
    [.|…|?|!|:|;|–|—|•|·|…|«|»|‘|’|“|”|"|'|¿|¡|-]  ?[.|…|?|!|:|;|–|—|•|·|…|«|»|‘|’|“|”|"|'|¿|¡|-]¿  ?[.|…|?|!|:|;|–|—|•|·|…|«|»|‘|’|“|”|"|'|¿|¡|-]¿  <end>
        <<- ~1:-2>> *


__purge_mot_nombre_parenthèses_crochets_accolades__
    (  [*WORD|*NUM]  )

    {  [*WORD|*NUM]  }
        <<- ~>> *

    ( … )
        <<- ->> […]                 && Pour indiquer une troncature de texte, on utilise usuellement des crochets.
        <<- ~>> *

    (  [re|ré]  )  *WORD
        <<- space_after(\3, 0, 0) ~1:3>>  *

    [  *NUM  ]
    [  …  ]
        <<- ~>> *

    [ *WORD ]
        <<- morph(\2, ":G") ~>> |\2|
        <<- __else__ ~>> *

    ## chapitres, références
    (  [*WORD|*NUM]  ,  *NUM  )
    [  [*WORD|*NUM]  ,  *NUM  ]
    {  [*WORD|*NUM]  ,  *NUM  }
        <<- ~>> *

TEST: ce chien […] ne {{semblez}} pas en forme.
TEST: ce chat {{(…)}} ne {{ressemblez}} pas aux autres.
TEST: Allons (re)voir ce film


!!!
!!!
!!! Désambiguïsation                                                                              !!
!!!
!!!