OK
AJAX error!

Les forumsGrammalecteRecenser le nombre exact de mots

Recenser le nombre exact de mots

Bonjour

J'ai parcouru rapidement, mais je n'ai pas trouvé si le sujet n'a pas déjà été abordé. Donc, désolé en cas de doublon.

Le décompte de mots n'est pas bon (comme celui de LibreOffice d'ailleurs). Les règles de décompte de mots ne sont pas super standard, je veux bien le reconnaître, mais il y a quand même un certain nombre sur lesquelles tout le monde est d'accord. Une partie peut être trouvée là :

www.google.com… (désolé pour le lien Google)

En gros, et l'erreur la plus classique, c'est de compter un seul mot quand un article est éludé.

L'exemple : 1 mot (alors de que 2)

Sans jugement autre que quelques tests qui semblent fonctionner, voici un lien vers un moteur « qui semble fonctionner » :

compteur-de-mots.net…

Si on pouvait avoir cette fonctionnalité dans Grammalecte, ce serait génial !

Merci
le 02 mars 2020 à 13:42
Bonjour,

J’ai amélioré le Recenseur de mots afin qu’il tienne compte des mots élidés.
Par contre, c’est plus compliqué pour les “tokens” composés des formes interrogatives.

Cela dit, je n’ai jamais compris l’intérêt des querelles sur la manière de compter les mots. Qu’est-ce que ça apporte de connaître précisément ce compte ? Qu’un texte fasse 1000, 1010 ou 990 mots selon la manière dont on compte, quelle importance ? Ça change quoi ?

Je pose la question parce que connaître le dessein exact de cette fonctionnalité permettrait peut-être de répondre plus correctement à cette demande qui obsède certains et certaines.

Le document mentionné explique que les mots comptent mais pas les chiffres, ce qui me paraît plutôt bizarre.
Si j’écris “1000 ans ont passé”, ça fait 3 mots.
Si j’écris “Mille ans ont passé”, ça fait 4 mots.
Ça ne me semble pas très cohérent, cette méthode.

D’ailleurs, pour Grammalecte, il n’y a pas de mots stricto sensu, mais des “tokens”, parmi lesquels on trouve les mots, les ponctuations, les nombres, les URL, les signes divers, etc.
le 02 mars 2020 à 14:52
Fait. Les mots se terminant par -je, -tu, -il(s), -elle(s), -iel(s), -nous, -vous compteront pour deux mots.
le 02 mars 2020 à 16:17
Si on respecte scrupuleusement le pdf de pk c'est encore plus débile que ça :
Si j’écris “198 ans ont passé”, ça fait 3 mots.
Si j’écris “Cent quatre-vingt-dix-huit ans ont passé”, ça fait 8 mots.

Pour moi c'est aussi débile que de dire "clé" compte comme un mot et "clef" compte comme 0... 🤣
le 02 mars 2020 à 19:56
Bonjour

Pour répondre précisément à la demande du « pourquoi ? »

Certains éditeurs demandent un décompte au mot (c'est rare, car la règle est le CEC (caractère, espace comprise). Du moins en France, car aux États-Unis la règle est plutôt au mot. À partir de là, c'est open bar : soit c'est un texte demandé avec un format limitatif ouvert (disons que la limite est alors d'environ X mots) et on s'en fiche un peu de comment compter, soit c'est strict (comme lors de micro-nouvelles)

fr.wikipedia.org…

Certaines micro-nouvelles fonctionnent au CEC (comme les pépins) donc pas de souci. D'autres au nombre de mots... et là catastrophe! Quand on est limité à ce point, chaque mot compte et la règle de comptage doit être la même (un token un mot, nonobstant les mots composés qui ont leur règle propre).

Je me suis fait un script en perl qui le fait précisément :

#! /usr/bin/perl

use strict;
use warnings;
use open ':locale';

my %count;
my $file = shift or die "Usage: $0 FILE\n";
open my $fh, '<', $file or die "Could not open '$file' $!";
while (my $line = <$fh>) {
chomp $line;
foreach my $str ($line =~ /\w+/g) {
$count{lc($str)}++;
}
}

my $total;
foreach my $str (reverse sort { $count{$a} <=> $count{$b} } keys %count) {
print "($count{$str}) $str\n";
$total += $count{$str};
}
my $tot;
foreach my $str ( keys %count ) { ++$tot };
print "total : $total mots dont $tot identiques\n";



Mais bon, côté intégration, c'est pas top :-(

Merci en tout cas merci de la rapidité et de l'intégration : j'ai hâte de tester dans la prochaine version...
le 05 mars 2020 à 11:58
Re,

Le document sur lequel je pointe est un exemple, pas la référence. Malheureusement, il n'existe pas de référence absolue (si je trouve, je la mettrais).

Pour moi, compte tous les mots, sauf les signes de ponctuations ou de présentation.

- Oh, dis-je

compte donc pour trois mots seulement.

- 1, dis-je

aussi (même si en typo pure, on n'a pas le droit d'utiliser un chiffre ici (le tiret est un tiret d'incise, pas le moins de -1, qui compterait pour un mot).

Reste la règle sur la composition avec trait d'union sur laquelle je n'ai pas vraiment d'avis.

Merci
le 05 mars 2020 à 12:06
Compter les caractères me semble en effet bien plus fiable, moins sujet aux aléas, et surtout plus précis pour calculer la place que prendra un texte en nombre de pages.

Quoiqu’il en soit, le comptage de mots dans Grammalecte se comportera ainsi :
— les mots élidés seront comptés séparément du mot auxquels ils sont accolés (j’avais : 2 mots),
— les sigles (TGV ou T.G.V.) sont considérés comme un mot unique,
— tout mot finissant par -je, -tu, -il(s), -elle(s), -iel(s), -nous, -vous sera compté pour deux mots.
le 05 mars 2020 à 12:12
C'est parfait : merci pour la réactivité.
le 06 mars 2020 à 08:02
Juste un dernier mot : je suis allé voir le commit par curiosité :

if sWord.lower().endswith(("-je", "-tu", "-il", "-elle", "-on", "-nous", "-vous", "-ils", "-elles", "-iel", "-iels")):
nTotOccur += nOccur

Je ne comprends pas ce que représente -iel(s) ? (le e en fait) ?
le 06 mars 2020 à 08:51
Ce sont deux pronoms épicènes néologiques que j’ai ajoutés dans le dictionnaire et les règles de Grammalecte il y a quelques mois.
grammalecte.net…
le 06 mars 2020 à 09:23

Notification par e-mail    0