Je ne peux tester, car je ne possède pas de téléphone mobile.
Il y a environ 5 000 noms propres sur 500 000 mots. Ça ne représente vraiment pas grand chose. A mon humble avis, ils sont bien plus utiles que bon nombre d'autres entrées.
Plus de la moitié du dictionnaire est constituée de mots dont
aucune occurrence n'a été trouvée dans le corpus. Ce sont les verbes qui génèrent un nombre important de formes fléchies, et beaucoup de formes sont extrêmement rares.
Un peu moins de 8 000 verbes génèrent environ 50 formes fléchies chacun, soit approximativement 400 000.
Lui me dit d'enlever les mots avec une fréquence de 1 ou 2, mais pas certains que ce soit une bonne idée : [...] c'est sur les mots rares qu'on a besoin d'aide, non ?
Pas forcément. La correction orthographique est aussi extrêmement utile pour voir les fautes de frappe. Conserver la moitié des entrées qui ne sont jamais trouvées dans le corpus et ôter les autres me semble une mauvaise idée. ;)
Il me semble judicieux d'ôter les formes conjuguées rares. Je ferai ça à mon retour chez moi.
le corpus de wiki{pédia,source} n'est pas forcément représentatif
Peut-être mais quoi de mieux?
Google est souvent parasité par les noms propres, les marques, les groupes, les patronymes et toutes sortes de bizarreries.
Le corpus qui me manque concerne le langage parlé. Lexique.org a fait une analyse sur les sous-titres des films et des séries. Mais je ne dispose pas d'un tel corpus.