OK
AJAX error!

Les forumsDictionnaireDoublons dans le fichier dictionnaire

Doublons dans le fichier dictionnaire

Dico "Classique", version 6.3

Doublons parfaits

Regex : \n([^\n]+)\n\1\n

1038 résultats :

2D
3D
Bradley
Castelsarrasin
Céline
Crest
Derrida
Ethel/L'D'Q'
Florence
Florentin (triplette)
Frontenac
GPL
Galilée
HD
Hugo/L'D'Q'
Offenbach/L'D'Q'
Oyonnax/L'D'Q'
USB/L'D'Q'
absurde/S*
acaricide/S*
accessoire/S*
acéracée/S*
acétabulaire/S*
acide/S*

etc.

Doublons imparfaits

Regex : \n([\w_’-]+)\/[^\n]+\n\1\b (l'antislash devant le slash dépend du moteur de regex)

922 résultats

1) Les doubles parfaits possédant un slash sont dans les 2 comptes.

2) Certains doubles imparfaits doivent rester en l'état. Ex. :

manger/S.
manger/a0p+

2 exemples de résultat :

Android/D'Q'
Android/D'Q'--
Ida/L'
Ida/L'D'Q'

Il est probable que les dicos autres que "Classique" possèdent aussi des doubles.
le 25 mars 2019 à 00:30
On peut aussi éliminer de la regex 2 ci-dessus les doubles parfaits et les faux-doubles, lorsque le double est un mot composé dont la seule 1re partie est en double :

\n([\w_’-]+)(\/[^\n]+)\n\1\b(?![.-]|\2)

295 résultats.

Parmi ceux-ci, la regex \n([\w_’-]+)(\/[LDQ][^\n]+)\n\1/S

sélectionne 60 résultats sur le modèle :

addenda/L'D'Q'
addenda/S*

Il ne reste que 235 résultats, dont certains, comme manger cité dans le message précédent, doivent être conservés :

manger/S.
manger/a0p+

À la louche, on doit avoir quelques 1200 doublons superflus dans le dictionnaire Classique.
le 25 mars 2019 à 20:37
Bonjour,

Merci pour les signalements. Cela dit, la très grande majorité de ces doublons sont dus au fait que l’étiquetage grammatical (qui n’est pas présent sur la version du dictionnaire sur laquelle vous travaillez) est différent sur les entrées que vous mentionnez.

Il y avait effectivement des doublons inutiles, notamment sur les noms propres, que je me suis efforcé de supprimer.

J’ai mis à jour le dictionnaire téléchargeable avec les étiquettes grammaticales, et vous verrez que la plupart des doublons n’en sont plus.
le 26 mars 2019 à 13:11
Bonjour,

pour rechercher les doublons, je télécharge www.dicollecte.org…
je dézippe et je travaille à partir de lexique-dicollecte-fr-v6.4.txt.

Je garde les trois colonnes : flexion, lemme et étiquette.
A mon avis, avec ces trois rubriques, chaque ligne devrait être unique.

Or je trouve 215 doublons.

Voici, ci-dessous, le fichier des doublons que j'obtiens :

Ethereum Ethereum npr epi inv
Karine Karine prn fem inv
Lyapunov Lyapunov patr epi inv
Marly Marly npr epi inv
Mathilde Mathilde prn fem inv
Robin Robin prn mas inv
Saint-Claude Saint-Claude npr epi inv
a a nom mas inv
acconier acconier nom mas sg
aconier aconier nom mas sg
aigu aigu adj mas sg
aigus aigu adj mas pl
ambigu ambigu adj mas sg
ambigus ambigu adj mas pl
antiparasitage antiparasitage nom mas sg
auteur auteur nom mas sg
auteurs auteur nom mas pl
b b nom mas inv
bafouillement bafouillement nom mas sg
banal banal adj mas sg
banales banal adj fem pl
becqueta becqueter v1__t___zz ipsi 3sg
becquetai becqueter v1__t___zz ipsi 1sg
becquetais becqueter v1__t___zz iimp 1sg 2sg
becquetant becqueter v1__t___zz ppre
becquetasse becqueter v1__t___zz simp 1sg
becquetasses becqueter v1__t___zz simp 2sg
becquetassions becqueter v1__t___zz simp 1pl
becquetez becqueter v1__t___zz impe 2pl
becquetiez becqueter v1__t___zz iimp spre 2pl
becquetons becqueter v1__t___zz impe 1pl
becquetâmes becqueter v1__t___zz ipsi 1pl
becquetâtes becqueter v1__t___zz ipsi 2pl
becquetèrent becqueter v1__t___zz ipsi 3pl!
becquetée becqueter v1__t___zz ppas adj fem sg
becquetés becqueter v1__t___zz ppas adj mas pl
becquète becqueter v1__t___zz impe 2sg
becquètent becqueter v1__t___zz ipre spre 3pl
becquèterai becqueter v1__t___zz ifut 1sg
becquèterais becqueter v1__t___zz cond 1sg 2sg
becquèteras becqueter v1__t___zz ifut 2sg
becquèteriez becqueter v1__t___zz cond 2pl
becquèterons becqueter v1__t___zz ifut 1pl
becquètes becqueter v1__t___zz ipre spre 2sg
bidimensionnel bidimensionnel adj mas sg
bidimensionnelles bidimensionnel adj fem pl
biffeton biffeton nom mas sg
biffetons biffeton nom mas pl
biogenèse biogenèse nom fem sg
biphasique biphasique adj epi sg
brumeusement brumeusement adv
bégu bégu adj mas sg
bégus bégu adj mas pl
caduc caduc adj mas sg
caducs caduc adj mas pl
cailleteau cailleteau nom mas sg
chevaucheur chevaucheur nom mas sg
chevaucheuse chevaucheur nom fem sg
clavier clavier nom mas sg
cnidaire cnidaire nom mas sg
codominant codominant adj mas sg
codominantes codominant adj fem pl
coextrusion coextrusion nom fem sg
cognatique cognatique adj epi sg
concertina concertina nom mas sg
consulteur consulteur nom mas sg
contigu contigu adj mas sg
d d nom mas inv
descripteur descripteur nom mas sg
dissimilarité dissimilarité nom fem sg
endothermicité endothermicité nom fem sg
exigu exigu adj mas sg
exothermicité exothermicité nom fem sg
fontanilis fontanili nom mas pl
foulonnier foulonnier nom mas sg
frais frais adj mas inv
g g nom mas inv
garde-barrière garde-barrière nom epi sg
garde-but garde-but nom epi sg
garde-chiourme garde-chiourme nom mas sg
garde-côte garde-côte nom epi sg
garde-frein garde-frein nom mas sg
garde-magasin garde-magasin nom epi sg
garde-malade garde-malade nom epi sg
garde-manège garde-manège nom mas sg
garde-port garde-port nom mas sg
garde-pêche garde-pêche nom epi sg
garde-voie garde-voie nom mas sg
glyptodon glyptodon nom mas sg
grand-route grand-route nom fem sg
homolytique homolytique adj epi sg
hors-série hors-série adj epi inv
hors-série hors-série nom mas sg
hors-séries hors-série nom mas pl
hospitalièrement hospitalièrement adv
imports-exports imports-exports nom mas pl
inaccepté inaccepté adj mas sg
inacceptées inaccepté adj fem pl
inconstamment inconstamment adv
ksar ksar nom mas sg
l l nom mas inv
land land nom mas sg
lapon lapon nom adj mas sg
lapons lapon nom adj mas pl
letton letton nom adj mas sg
lettons letton nom adj mas pl
lieu lieu nom mas sg
m m nom mas inv
mi mi nom mas inv
minot minot nom mas sg
minots minot nom mas pl
monte-meuble monte-meuble nom mas sg
multicomposant multicomposant nom mas sg
multicomposants multicomposant nom mas pl
murissant murissant adj mas sg
murissantes murissant adj fem pl
méthacrylate méthacrylate nom mas sg
mûr mûr adj mas sg
nippon nippon nom adj mas sg
nippons nippon nom adj mas pl
nova nova nom fem sg
o o nom mas inv
ombrien ombrien nom adj mas sg
ombriennes ombrien nom adj fem pl
palettiseur palettiseur nom mas sg
partenarial partenarial adj mas sg
partenariales partenarial adj fem pl
phyllosilicate phyllosilicate nom mas sg
phytohormone phytohormone nom fem sg
phytotoxicité phytotoxicité nom fem sg
phytotoxique phytotoxique adj epi sg
pi pi nom mas inv
picrocholine picrocholine adj fem sg
pipeta pipeter v1_it____a ipsi 3sg
pipetai pipeter v1_it____a ipsi 1sg
pipetais pipeter v1_it____a iimp 1sg 2sg
pipetant pipeter v1_it____a ppre
pipetasse pipeter v1_it____a simp 1sg
pipetasses pipeter v1_it____a simp 2sg
pipetassions pipeter v1_it____a simp 1pl
pipetez pipeter v1_it____a impe 2pl
pipetiez pipeter v1_it____a iimp spre 2pl
pipetons pipeter v1_it____a impe 1pl
pipetâmes pipeter v1_it____a ipsi 1pl
pipetâtes pipeter v1_it____a ipsi 2pl
pipetèrent pipeter v1_it____a ipsi 3pl!
pipetée pipeter v1_it____a ppas adj fem sg
pipetés pipeter v1_it____a ppas adj mas pl
pipète pipeter v1_it____a impe 2sg
pipètent pipeter v1_it____a ipre spre 3pl
pipèterai pipeter v1_it____a ifut 1sg
pipèterais pipeter v1_it____a cond 1sg 2sg
pipèteras pipeter v1_it____a ifut 2sg
pipèteriez pipeter v1_it____a cond 2pl
pipèterons pipeter v1_it____a ifut 1pl
pipètes pipeter v1_it____a ipre spre 2sg
pluridisciplinaire pluridisciplinaire adj epi sg
pollicitation pollicitation nom fem sg
pâlement pâlement adv
quatre-vingt-dixième quatre-vingt-dixième nom adj epi sg
ragoutant ragoutant adj mas sg
ragoutante ragoutant adj fem sg
ragoutants ragoutant adj mas pl
rifle rifle nom mas sg
rifles rifle nom mas pl
robinetier robinetier nom mas sg
robinétier robinétier nom mas sg
routeur routeur nom mas sg
salonnard salonnard nom mas sg
salonnardes salonnard nom fem pl
sauveur sauveur nom mas sg
soprano soprano nom adj epi sg
standard standard nom mas sg
standards standard nom mas pl
subaigu subaigu adj mas sg
supernova supernova nom fem sg
suraigu suraigu adj mas sg
sétaire sétaire nom fem sg
sûr sûr adj mas sg
tex tex nom mas inv
thermogramme thermogramme nom mas sg
thermophysique thermophysique adj epi sg
thysanoptère thysanoptère nom mas sg
tibio-tarsien tibio-tarsien adj mas sg
tibio-tarsiennes tibio-tarsien adj fem pl
tire-balle tire-balle nom mas sg
tire-bonde tire-bonde nom mas sg
tire-botte tire-botte nom mas sg
tire-bouton tire-bouton nom mas sg
tire-clou tire-clou nom mas sg
tire-filet tire-filet nom mas sg
tire-pied tire-pied nom mas sg
tire-sac tire-sac nom mas sg
tire-sou tire-sou nom mas sg
tourne-pierre tourne-pierre nom mas sg
âne âne nom mas sg
ânes âne nom mas pl
échangeur échangeur nom mas sg
électuaire électuaire nom mas sg
épelle épeler v1_it_q_zz impe 2sg
épellent épeler v1_it_q_zz ipre spre 3pl
épellerai épeler v1_it_q_zz ifut 1sg
épellerais épeler v1_it_q_zz cond 1sg 2sg
épelleras épeler v1_it_q_zz ifut 2sg
épelleriez épeler v1_it_q_zz cond 2pl
épellerons épeler v1_it_q_zz ifut 1pl
épelles épeler v1_it_q_zz ipre spre 2sg
épèle épeler v1_it_q_zz impe 2sg
épèlent épeler v1_it_q_zz ipre spre 3pl
épèlerai épeler v1_it_q_zz ifut 1sg
épèlerais épeler v1_it_q_zz cond 1sg 2sg
épèleras épeler v1_it_q_zz ifut 2sg
épèleriez épeler v1_it_q_zz cond 2pl
épèlerons épeler v1_it_q_zz ifut 1pl
épèles épeler v1_it_q_zz ipre spre 2sg

le 26 mars 2019 à 14:43
Ah oui, l’étiquetage grammatical, je n'y avais pas pensé.
le 26 mars 2019 à 15:15
@Biblos:
Sur la page Téléchargement, dans le menu.

@ol:
Le problème du lexique est différent de celui du dictionnaire.
Il y a différentes sortes de doublons :
— les doublons délibérés, c’est-à-dire voulus (à tort ou à raison), par exemple (le symbole “a” et la lettre “a”),
— les doublons engendrés par des lemmes identiques ou différents nécessaires pour gérer la réforme de 1990 (“aigu” et “ambigu”).
— les doublons engendrés par des lemmes différents (“auteure” et “autrice” engendrent “auteur” chacune une fois),
— les doublons engendrés par des lemmes différents qui se recoupent “accidentellement” (par exemple, “ânesse” engendre “âne” qui existe aussi inutilement comme entrée indépendante).
— les doublons superflus, dont beaucoup viennent des ajouts automatiques faits lors des contributions externes.
le 26 mars 2019 à 15:21
Je viens de faire le ménage dans les entrées et j’ai téléversé les dictionnaires sur la page de téléchargement.
le 26 mars 2019 à 16:40
Bonjour,

je ne suis pas sûr de bien comprendre la question des doublons.
Dans la famille du mot "épeler", je trouve dans le lexique 30 enregistrements qui sont intégralement en double dans le fichier.
A mon avis, ça doit être une erreur, je ne vois pas l'intérêt d'avoir deux enregistrements totalement identiques dans le lexique.
J'en donne la liste ci-dessous.

181629 épèle épeler v1_it_q_zz impe 2sg épél APL */R 4273 11 54 22 1090 4 0 0.000000739512172 3
181629 épèle épeler v1_it_q_zz ipre spre 1sg 3sg épél APL */R 4273 11 54 22 1090 4 0 0.000000739512172 3
181629 épèlent épeler v1_it_q_zz ipre spre 3pl épél APLNT */R 1338 4 16 2 680 2 0 0.000000461347043 3
181629 épèlera épeler v1_it_q_zz ifut 3sg épélera APLR */R 0 1 1 0 1 2 0 0.000000000678452 1
181629 épèleraient épeler v1_it_q_zz cond 3pl épéleré APLRNT */R 0 0 1 0 1 2 0 0.000000000678452 1
181629 épèlerai épeler v1_it_q_zz ifut 1sg épéleré APLR */R 0 0 0 0 0 2 0 0.000000000000000 0
181629 épèlerais épeler v1_it_q_zz cond 1sg 2sg épéleré APLR/APLRS */R 0 0 0 0 0 2 0 0.000000000000000 0
181629 épèlerait épeler v1_it_q_zz cond 3sg épéleré APLRT */R 0 1 0 0 1 2 0 0.000000000678452 1
181629 épèleras épeler v1_it_q_zz ifut 2sg épélera APLRS */R 0 0 0 0 0 2 0 0.000000000000000 0
181629 épèlerez épeler v1_it_q_zz ifut 2pl épéleré APLRS */R 0 0 0 0 0 2 0 0.000000000000000 0
181629 épèleriez épeler v1_it_q_zz cond 2pl épélerié APLRS */R 0 0 0 0 0 2 0 0.000000000000000 0
181629 épèlerions épeler v1_it_q_zz cond 1pl épéleriô APLRNS */R 0 0 0 0 0 2 0 0.000000000000000 0
181629 épèlerons épeler v1_it_q_zz ifut 1pl épélerô APLRNS */R 0 0 0 0 0 2 0 0.000000000000000 0
181629 épèleront épeler v1_it_q_zz ifut 3pl! épélerô APLRNT */R 0 0 1 0 1 2 0 0.000000000678452 1
181629 épèles épeler v1_it_q_zz ipre spre 2sg épél APLS */R 0 0 1 1 1 2 0 0.000000000678452 1
181629 épelle épeler v1_it_q_zz impe 2sg épél APL */M 12920 62 119 53 3289 4 0 0.000002231427096 4
181629 épelle épeler v1_it_q_zz ipre spre 1sg 3sg épél APL */M 12920 62 119 53 3289 4 0 0.000002231427096 4
181629 épellent épeler v1_it_q_zz ipre spre 3pl épél APLNT */M 3809 10 27 16 1931 2 0 0.000001310089912 4
181629 épellera épeler v1_it_q_zz ifut 3sg épélera APLR */M 369 1 3 1 187 2 0 0.000000126870437 3
181629 épelleraient épeler v1_it_q_zz cond 3pl épéleré APLRNT */M 40 0 0 0 20 2 0 0.000000013569031 2
181629 épellerai épeler v1_it_q_zz ifut 1sg épéleré APLR */M 0 0 0 0 0 2 0 0.000000000000000 0
181629 épellerais épeler v1_it_q_zz cond 1sg 2sg épéleré APLR/APLRS */M 0 0 0 0 0 2 0 0.000000000000000 0
181629 épellerait épeler v1_it_q_zz cond 3sg épéleré APLRT */M 149 3 4 0 78 2 0 0.000000052919220 2
181629 épelleras épeler v1_it_q_zz ifut 2sg épélera APLRS */M 0 0 0 0 0 2 0 0.000000000000000 0
181629 épellerez épeler v1_it_q_zz ifut 2pl épéleré APLRS */M 0 0 1 1 1 2 0 0.000000000678452 1
181629 épelleriez épeler v1_it_q_zz cond 2pl épélerié APLRS */M 0 0 0 0 0 2 0 0.000000000000000 0
181629 épellerions épeler v1_it_q_zz cond 1pl épéleriô APLRNS */M 0 0 0 0 0 2 0 0.000000000000000 0
181629 épellerons épeler v1_it_q_zz ifut 1pl épélerô APLRNS */M 0 0 2 2 2 2 0 0.000000001356903 1
181629 épelleront épeler v1_it_q_zz ifut 3pl! épélerô APLRNT */M 271 0 2 0 137 2 0 0.000000092947860 2
181629 épelles épeler v1_it_q_zz ipre spre 2sg épél APLS */M 153 0 2 2 79 2 0 0.000000053597671 2
le 02 avril 2019 à 22:43
Le dictionnaire stocke les entrées sous forme de lemmes à partir desquels des formes fléchies sont engendrées. Certains lemmes existent en double et engendrent parfois partiellement des mots identiques. Certains lemmes différents engendrent aussi parfois des formes fléchies identiques.

Quant à “épeler”, les doublons sont générés délibérément en double à cause d’un bug de Hunspell qui fait que certaines règles de flexion ne sont pas correctement appliquées. Du coup, il a fallu répéter certaines règles de flexion juste pour le cas de “épeler” (ce qui explique les doublons pour ce cas précis).

Le lexique téléchargeable ne sert pas tel quel, il n’est fourni que par commodité pour ceux qui en ont besoin. Le dictionnaire pour Hunspell est compressé, le dictionnaire pour Grammalecte est lui aussi compressé. Mais le dictionnaire pour Hunspell a sa propre manière de fonctionner et le dictionnaire inclus dans Grammalecte en a une autre. Le lexique n’est qu’une phase transitoire entre deux systèmes de compression différents.

Il y a aussi bien sûr des doublons inutiles, mais ceux-là sont supprimés s’ils sont repérés.
le 03 avril 2019 à 11:14

Notification par e-mail    0