Grammalecte  View Ticket

2023-11-09
00:38 Ticket [2070b106f2] Diverses erreurs dans Dicollecte status still Open with 6 other changes artifact: 13e62fa49f user: anonymous
00:32 New ticket [2070b106f2]. artifact: c2aabff7c9 user: anonymous

UUID: 2070b106f2bacf78d29c4a4d489b2713699f169c
Title/Titre: Diverses erreurs dans Dicollecte
Status: Open Type: Code_Defect
Severity/Gravité: Important Priority/Priorité: Immediate
Module: Grammalecte_Core Resolution: Open
Modified/Modifié: 2023-11-09 00:38:26
Version(s): 7.0
Comments / Commentaires :
anonymous // 2023-11-09 00:32:15 :
Bonjour,

(J’ai envoyé ce signalement le 5 juillet comme un e-mail,
à une adresse @grammalecte.net trouvée dans un README.
N’ayant pas reçu de confirmation de réception, je re-tente ici.)

Merci pour votre travail sur Dicollecte / Grammalecte !
J’écris juste pour signaler quelques erreurs apparentes
que j’ai remarquées en travaillant sur Dicollecte 7.0
(les choses ont peut-être changé dans une version plus récente...).

(Au passage, si jamais vous utilisez le programme `unmunch` de hunspell,
il se trouve que ce programme est obsolète et fait n’importe quoi sur la base Dicollecte,
j’ai recodé une version qui supporte correctement Dicollecte, mon programme se trouve là :
    https://gitlab.crans.org/mevel/dictionnaires/-/tree/master/unmunch
)


----------------------------------------------------------------

Le dictionnaire Hunspell ajoute des élisions (l', d', qu', ç', j', m', s', n'…)
même devant des consonnes (changement dû à 7.0)
et même devant des mots où ça ne veut rien dire (déjà dans 6.3)

    Le 1er problème est dû à des règles d’affixes de cette forme:
        PFX L' 0 l' . dp:le|la+
        PFX L' 0 L' . dp:le|la+
        PFX D' 0 d' . dp:de+
        PFX D' 0 D' . dp:de+
        PFX Q' 0 qu' . dp:que+
        PFX Q' 0 Qu' . dp:que+
        PFX j' 0 j' . dp:je+
        ...
    où la condition "." est triviale. Il faudrait changer la condition pour
    qu’elle vérifie que la 1re lettre du mot préfixé est une voyelle ou H:
        PFX L' 0 l' [AÀÂEÈÉÊIÎOÔUYŒÆHaàâeèéêiîoôuyœæh] dp:le|la+
    (voir le drapeau préfixe Um qui fait quelque chose de similaire)

autres suggestions d’améliorations pour le fichier *.aff:

    MAP ÿŸ    (à ajouter au MAP pour i)
    MAP œŒ(oe)(Oe)(OE)
    MAP æÆ(ae)(Ae)(AE)

Le fichier *.dic ne contient que des apostrophes droites,
SAUF une unique apostrophe typographique dans le lemme de ce mot:

    chefs-d'œuvre/D'Q' po:nom is:mas is:pl st:chef-d’œuvre

le tableur ne contient que des apostrophes typographiques,
SAUF une unique apostrophe droite dans le lemme de ce mot:

    boutons-d’or    bouton-d'or

mots absents dans le tableur mais présents dans le dictionnaire Hunspell:

    vas-y
    va-t'en
    allez-vous-en
    allez-y
    allons-nous-en
    allons-y
    entrebattez-vous
    entrebattons-nous
    entre-détruisez-vous
    entredétruisez-vous
    entre-détruisons-nous
    entredétruisons-nous
    entre-nuisez-vous
    entrenuisez-vous
    entre-nuisons-nous
    entrenuisons-nous
    attoflops
    centiflops
    décaflops
    déciflops
    exaflops
    femtoflops
    gigaflops
    hectoflops
    kiloflops
    mégaflops
    microflops
    milliflops
    nanoflops
    petaflops
    pétaflops
    picoflops
    téraflops
    yoctoflops
    yottaflops
    zeptoflops
    zettaflops

mots présents dans le tableur mais absents dans le dictionnaire Hunspell:

    - tous les mots contenant un point:
        b.a.-ba
        c.-à-d
        J.-C
    - tous les mots avec espaces:
        + mots latins ou anglais:
            deus ex machina
            jet set
            machine learning
            machine learnings
            nec plus ultra
            northern blot
            persona non grata
            southern blot
            standing ovation
            standing ovations
            star system
            star systems
            statu quo
        + noms propres ok:
            Air France
            Apache Software Foundation
            Buenos Aires
            Central Park
            Club Méditerranée
            Cosa Nostra
            Creative Commons
            Deutsche Bank
            Free Software Foundation
            General Electric
            General Motors
            Hong Kong
            La Nouvelle-Orléans
            La Rochelle
            Las Vegas
            Le Bris
            Les Vigneaux
            Los Angeles
            New Delhi
            New York
            Phnom Penh
            Rhode Island
            Royal Navy
            San Francisco
            Sierra Leone
            Silicon Valley
            Texas Instruments
            The Document Foundation
            Wall Street
        + noms propres douteux (qui seraient plutôt à supprimer du tableur):
            Casseurs Flowters
            Énergie Partagée
            Golden Show
            Hero Corp
            Lovely Rita
            Mix Bizarre
            Olea Medical
            Scred TV
            Standard de Liège
    - autres mots:
        Gaspésie–Îles-de-la-Madeleine
        Saguenay–Lac-Saint-Jean
        R&D

mots douteux (dans le tableur et dans le dictionnaire Hunspell):

    Apexagri (une entreprise)
    Dordoigne (un patronyme, une entreprise)
    Demerlé (un patronyme)
    Dᴏꜱꜱᴍᴀɴɴ (patronyme, écrit en petites capitales Unicode)
    Bîne (???)
    peuton (ça devrait être Peuton, une commune française)
    software