OK
AJAX error!

Les forumsDictionnairePermissivité du dictionnaire

Permissivité du dictionnaire

Une nièce s'appelle Nathanaëlle et mon correcteur orthographique voudrait s'immiscer pour dire que mon frère a eut tort de l'appeler ainsi, ou que si mon frère aime ce prénom, il aurait dû enfanter un garçon. Mais il a eu raison d'appeler son autre fille Coline.
Je suis d'avis qu'un correcteur orthographique ne doit pas, en général, embêter les gens, surtout dans ce cas où il peut ou pourrait appliquer une règle simple de formation du féminin (ou de déformation s'il "domine"). C'est en effet recommandable de ne pas harasser l'utilisateur en ne lui signalant que des erreurs auxquelles il répondra "ah oui, c'est vrai", autrement il n'utilisera pas le correcteur. C'est déjà difficile sans cela de convaincre de l'utiliser.
Un phénomène caractéristique et curieux est celui du Web. Nous l'utilisons comme éclairage pour savoir si nous pouvons mettre un mot dans notre dictionnaire. Or le rédacteur d'une page Web utilise ou devrait utiliser notre dictionnaire pour savoir s'il peut mettre ce mot dans sa page. Il y a là, me semble-t-il, un indice que nous devons être permissifs et prendre les devants.
Une réponse à ces arguments est que la taille d'un dictionnaire pourrait dépasser celle que sa technologie permet et qu'on peut ajouter des mots à son dictionnaire personnel. C'est vrai, mais cet argument ne vaut que pour les mots utilisés fréquemment. Il n'est pas rare d'écrire un message et de devoir accepter suffisamment de mots qui ne rentrent pas dans ce cadre pour se dire que ça aurait été plus cool sans correcteur (ça dépend du sujet).
La conclusion de tout ceci est qu'il est dommage qu'un correcteur d'orthographe n'utilise pas un protocole pour aller chercher, à la demande, ses mots inconnus sur des serveurs dans l'Internet et les mettre en cache local. Nous pourrions y trouver tous les prénoms, tous les termes technologique, de chimie, etc... L'utilisateur déciderait s'il accepte l'argot et des choses comme ça. À moins que quelqu'un ne se mette à corriger son dictionnaire de chimie ainsi, le trafic IP devrait rester très minime (et facultatif).
Il y a encore bien des inventions sinon à inventer à réaliser.

---
Admin : fil scindé à partir de www.dicollecte.org…
le 11 mars 2012 à 18:14

a_pirard :
Une nièce s'appelle Nathanaëlle et mon correcteur orthographique voudrait s'immiscer pour dire que mon frère a eut tort de l'appeler ainsi, ou que si mon frère aime ce prénom, il aurait dû enfanter un garçon. Mais il a eu raison d'appeler son autre fille Coline.


Non. Même si nous avions refusé d’ajouter Nathanaëlle, il ne s’agit aucunement d’un jugement de valeur sur ledit prénom. Depuis la libéralisation des prénoms il y a une explosion du nombre de ceux-ci, et il n’est pas envisageable de tout référencer. Le correcteur orthographique n’interdit pas d’écrire ce que bon vous semble, il se borne à signaler ce qui n’appartient pas à son lexique.

Un phénomène caractéristique et curieux est celui du Web. Nous l'utilisons comme éclairage pour savoir si nous pouvons mettre un mot dans notre dictionnaire. Or le rédacteur d'une page Web utilise ou devrait utiliser notre dictionnaire pour savoir s'il peut mettre ce mot dans sa page. Il y a là, me semble-t-il, un indice que nous devons être permissifs et prendre les devants.


À mes yeux, les rédacteurs feraient mieux de participer à l’élaboration du dico… S’ils ne le font pas, tant pis pour eux… Je répète ce que j’ai écrit souvent : dans les logiciels libres, ce sont qui font qui se donnent raison.
Quant à la permissivité du dictionnaire, c’est un débat déjà amorcé ici, mais impossible de trouver une solution satisfaisante pour tout le monde. Certains m’ont déjà proposé de générer avec des règles tous les mots possibles, même s’ils n’existent pas et que personne ne les utilisent, ce qui revient à créer une usine à néologismes en somme. D’autres voudraient un dictionnaire plus strict, épuré de toutes les raretés et autres bizarreries non académiques, non référencées par les dictionnaires « sérieux », etc.
Ici, nous suivons une politique plutôt basée sur l’usage : nous intégrons plus de choses que les dictionnaires de référence, nous basant sur ce qu’on trouve sur le Web, tout en nous efforçant de ventiler les graphies dans des dictionnaires spécifiques afin satisfaire les classicistes, les réformistes et ceux entre les deux. Nous refusons toutefois beaucoup de choses, parce que trop rares, trop néologiques, trop peu rigoureuses, etc. L’arbitraire a sa place dans notre façon de faire, parce qu’il faut arbitrer entre divers courants contradictoires. On essaie d’écouter ce qu’on nous dit, mais c’est parfois juste trop contraire à la manière dont on procède. Libre à chacun de mieux faire.

Une réponse à ces arguments est que la taille d'un dictionnaire pourrait dépasser celle que sa technologie permet et qu'on peut ajouter des mots à son dictionnaire personnel. C'est vrai, mais cet argument ne vaut que pour les mots utilisés fréquemment.


D’après l’auteur de Hunspell, il est préférable de ne pas dépasser les 100 000 entrées, mais c’est surtout une question de complexité des règles d’affixation. Celles pour le français sont nombreuses et complexes.

La conclusion de tout ceci est qu'il est dommage qu'un correcteur d'orthographe n'utilise pas un protocole pour aller chercher, à la demande, ses mots inconnus sur des serveurs dans l'Internet et les mettre en cache local. Nous pourrions y trouver tous les prénoms, tous les termes technologique, de chimie, etc... L'utilisateur déciderait s'il accepte l'argot et des choses comme ça. À moins que quelqu'un ne se mette à corriger son dictionnaire de chimie ainsi, le trafic IP devrait rester très minime (et facultatif).
Il y a encore bien des inventions sinon à inventer à réaliser.


Cette remarque, c’est un peu du « y a qu’à… faut qu’on… », mais dans la pratique, je ne vois pas comment faire ça.
Rien qu’en parcourant tout Wikipédia francophone, je récupère des centaines de milliers de « mots » curieux, mal orthographiés, difformes, des tonnes de néologismes douteux, des sigles et des acronymes à la pelle, des bizarreries, du vocabulaire étranger avec des caractères impossibles à écrire avec un azerty, voire avec un bépo. J’ai perdu mon fichier, alors je cite tout ça de mémoire… Pourtant, Wikipédia, malgré toutes les erreurs qu’on y trouve, est un site plutôt bien tenu, bien mieux que la majorité d’entre eux. La récupération du vocabulaire de Wikipédia ne nous dispenserait pas d’un travail immense de purge, d’étiquetage et de normalisation. Ajouter des mots, ce n’est pas ce qui prend le plus de temps, c’est contrôler, étiqueter et normaliser qui réclame pas mal d’investissement. Je préfère faire les choses de façon construite, mais ta solution viendra peut-être un jour en partie, dans la mesure où j’envisage l’importation de données en masse dans la liste des propositions, ce qui devrait faire gagner du temps.

Pour la formation des composés chimiques, il faudrait surtout qu’un chimiste étudie un peu Hunspell pour créer les règles de composition de mots qui permettent de générer des milliers d’entrées avec une liste définie de radicaux, préfixes et suffixes.

Je te suggère de télécharger tout Wikipédia (dumps.wikimedia.org…) et de créer la liste de tous les mots. Tu pourrais être surpris. ;)
le 14 mars 2012 à 09:47

Cette remarque, c’est un peu du « y a qu’à… faut qu’on… », mais dans la pratique, je ne vois pas comment faire ça.


Il ne faut pas mal comprendre ma remarque. Ce n'est nullement un reproche que ce n'est pas fait ni une demande que ça le soit, c'est simplement une idée imaginative.
Il y a sur mon bête petit Ubuntu une commande dictionary qui peut être configurée pour aller consulter un ou plusieurs serveurs. Je ne peux évidemment pas ne pas me faire la réflexion que je ne l'utilise jamais et que je l'échangerais volontiers contre ce que j'imagine ici.

À mes yeux, les rédacteurs feraient mieux de participer à l’élaboration du dico… S’ils ne le font pas, tant pis pour eux… Je répète ce que j’ai écrit souvent : dans les logiciels libres, ce sont qui font qui se donnent raison.



Mais que voilà encore une idée d'invention. Si l'utilisateur ne participe pas à Dicollecte, c'est que 1) in ne le connait pas, 2) il n'a pas le temps de passer pas la procédure 3) comme tu dis. Mais si, au moment de la faute on lui proposait, tout comme de mettre le mot dans son dictionnaire privé, de signaler le mot aux auteurs du dictionnaire (un simple e-mail suffirait), on verrait probablement la différence!

Mais, de nouveau, ceci ne concerne même pas Dicollecte mais Hunspell.

Autrement, on peut suggérer aux utilisateurs de passer leur dictionnaire personnel au correcteur, d'en retirer ce qui est accepté et ce qui n'est que personnel et d'envoyer le reste à une adresse e-mail, ça il y en a peut-être qui feraient.

Et pour en revenir à l'idée de la permissivité, l'idée est bien sûr d'avoir un dictionnaire où on trouve aussi tous les mots qui ont été rejetés pour toute raison que ce soit autre que de contenir une faute d'orthographe. L'utilisateur qui le choisi est averti.
le 14 mars 2012 à 12:03

a_pirard :
Il ne faut pas mal comprendre ma remarque.


Je ne le prends pas mal. :)

Mais si, au moment de la faute on lui proposait, tout comme de mettre le mot dans son dictionnaire privé, de signaler le mot aux auteurs du dictionnaire (un simple e-mail suffirait), on verrait probablement la différence!


J’ai déjà ça dans les cartons… c’est faisable pour OOo/LibO (pour Mozilla, je ne sais pas), mais j’hésite à implémenter l’idée, car je crains l’afflux de choses inutiles. Ça ne se ferait pas par e-mail, mais directement sur le serveur. Si je fais ça un jour, ce sera inclus dans Grammalecte.

Et pour en revenir à l'idée de la permissivité, l'idée est bien sûr d'avoir un dictionnaire où on trouve aussi tous les mots qui ont été rejetés pour toute raison que ce soit autre que de contenir une faute d'orthographe. L'utilisateur qui le choisi est averti.


C’est en théorie le rôle de la liste rejetée (Propositions enregistrées).
le 14 mars 2012 à 13:26

Notification par e-mail    1