OK
AJAX error!

Les forumsTribune libreAdaptation du dictionnaire pour « mode T9 »

Adaptation du dictionnaire pour « mode T9 »

Bonjour,

Je suis propriétaire d'un téléphone androïd, et souhaitant pouvoir utiliser ma disposition de clavier habituelle, le bépo¹, j'utilise SoftKeyboard² qui permet de changer les dispositions (et propose un clavier orthogonal !). Malheureusement, le dictionnaire français proposé est vraiment de très mauvaise qualité, la plus part des mots accentués ne sont pas présentés.
Le développement étant libre (et la partie française à présent dans un paquet séparé), j'aimerais pouvoir proposer un autre dictionnaire au développeur. J'ai donc ouvert un bug³ sur le site. Malheureusement, il semble que le format nécessaire ne soit pas le même que celui que vous fournissez ici.
Y aurait-il un moyen d'obtenir un fichier xml (puis bin) tel qu'expliqué dans la doc⁴ ?
Reste la question de la fréquence des mots, il existe des basses de fréquences que nous avions trouvé pour le bépo, mais dans un premier temps, avoir au moins une liste complète et juste des mots serait un grand pas en avant !

Si une telle conversion n'est pas possible sauriez-vous quelle autre dictionnaire je pourrais utiliser ?

D'avance merci,
Olivier.

[1] : disposition de type dvorak, ergonomique et respectueuse du français (maj. accentuées, etc.) et de la typographie : bepo.fr…
[2] : code.google.com…
[3] :  code.google.com…
[4] : code.google.com…

--
message tapé sur un clavier bépo : bepo.fr…
le 18 mai 2010 à 19:31
Bonjour ami bépoète ;)

Il suffit de télécharger le lexique des formes fléchies, qui contient tous les mots de notre dictionnaire, avec le calcul des occurrences dans Wikipédia et Wikisource (corpus de textes littéraires).

Pour la conversion au format XML, je peux le faire, ça semble extrêmement simple. Mais je n’aurai pas le temps avant plusieurs jours.

J’ai un peu expliqué ces chiffres sur l’ancien forum: user.services.openoffice.org…

PS: J’utilise aussi le bépo. :)
le 18 mai 2010 à 20:02
Super, voilà une très bonne nouvelle (et très heureux de voir un bépoète par ici ; quoiqu’en y pensant bien le soucis d’un dictionnaire juste et d’une disposition permettant une bonne saisie du français me semble dans la même lignée).

Si en plus il y a les statistiques, c’est vraiment génial. Je guetterais des nouvelles ici…

Merci beaucoup,
Olivier.
le 18 mai 2010 à 22:02
Fait à l’arrache. :)

Voilà où télécharger le fichier.
www.dicollecte.org…

La fréquence de chaque entrée est égale au nombre d’occurrences sur Wikipédia, plus le nombre d’occurrences sur Wikisource¹, plus 1.
L’image des archives date de début avril. Ça prend des heures à télécharger, décompresser, reformater, calculer, alors je ne mets pas souvent à jour.

[1] fr.wikisource.org…
le 18 mai 2010 à 23:10
Super, merci beaucoup, j'ai pu générer un fichier « .dict ». La mise à jour est déjà sur le « market » android ! Sauf qu'on dirait bien que la correction ne fonctionne pas pour autant, mais je vais voir ça avec le dev. Merci en tout cas pour la rapidité avec laquelle tu nous a fourni le dictionnaire ! Chapeau.
le 19 mai 2010 à 15:58
Bon, en fait la version sur le market n'est qu'une version de test, il faut re-démarrer le téléphone pour que ça fonctionne.
Autre problème, le dico est gros… une fois généré, il fait 3.5 Mo, même s'il semble que ça tourne pas mal, ça risque de prendre de la place en mémoire et de diminuer les perfs.

Le dev me dit que ce serait bien de « tomber » à 1 Mo. Ça me paraît compliqué, mais y-a-t-il un moyen de simplifier le corpus ? Par exemple virer les nom propres ?
Lui me dit d'enlever les mots avec une fréquence de 1 ou 2, mais pas certains que ce soit une bonne idée : le corpus de wiki{pédia,source} n'est pas forcément représentatif et puis c'est sur les mots rares qu'on a besoin d'aide, non ?

Possible de faire ça sans que ce soit trop compliqué ?

En tous cas, merci pour la réactivité,
Olivier.
le 19 mai 2010 à 17:11
Je ne peux tester, car je ne possède pas de téléphone mobile.

Il y a environ 5 000 noms propres sur 500 000 mots. Ça ne représente vraiment pas grand chose. A mon humble avis, ils sont bien plus utiles que bon nombre d'autres entrées.
Plus de la moitié du dictionnaire est constituée de mots dont aucune occurrence n'a été trouvée dans le corpus. Ce sont les verbes qui génèrent un nombre important de formes fléchies, et beaucoup de formes sont extrêmement rares.
Un peu moins de 8 000 verbes génèrent environ 50 formes fléchies chacun, soit approximativement 400 000.

Lui me dit d'enlever les mots avec une fréquence de 1 ou 2, mais pas certains que ce soit une bonne idée : [...] c'est sur les mots rares qu'on a besoin d'aide, non ?


Pas forcément. La correction orthographique est aussi extrêmement utile pour voir les fautes de frappe. Conserver la moitié des entrées qui ne sont jamais trouvées dans le corpus et ôter les autres me semble une mauvaise idée. ;)

Il me semble judicieux d'ôter les formes conjuguées rares. Je ferai ça à mon retour chez moi.

le corpus de wiki{pédia,source} n'est pas forcément représentatif


Peut-être mais quoi de mieux?
Google est souvent parasité par les noms propres, les marques, les groupes, les patronymes et toutes sortes de bizarreries.
Le corpus qui me manque concerne le langage parlé. Lexique.org a fait une analyse sur les sous-titres des films et des séries. Mais je ne dispose pas d'un tel corpus.
le 19 mai 2010 à 18:11
Je sais bien. On a eu le même problème de corpus pour le bépo. On a utilisé Proust… c’est dire si on est représentatif (Proust n’utilisait que peu le smiley, et du fait de « Swann » on a plus de « w »).
Donc Wikipédia + wikisource, très bien.

Ton raisonnement parait très logique concernant les verbes.
L’idéal serait de pouvoir proposer deux dico :
— un petit pour les téléphones un peu anciens qui n’ont pas beaucoup de ram/rom ;
— un complet pour les téléphones plus récents.
le 19 mai 2010 à 20:57
Finalement, ôter les conjugaisons rares ne suffit pas. J’ai donc supprimé toutes les entrées dont le nombre d’occurrences était inférieur à 7, ce qui reste peu. La taille du fichier a été divisée par trois.

Dans l’archive, il y a:
— un dictionnaire complet,
— un dictionnaire allégé.

J’ai mis à jour le lien plus haut. (Attention au cache du navigateur.)
le 20 mai 2010 à 11:12
Je me demande si vous ne faites pas fausse route en pensant que le dictionnaire précédent était mauvais. Ce n’est pas parce que le correcteur est incapable de suggérer l’orthographe correcte que le mot ne s’y trouve pas. Avez-vous vérifié le contenu?

Dans Hunspell, nous avons des mécanismes de suggestion qui permettent au correcteur de s’y retrouver dans cette masse de mots.
user.services.openoffice.org…

Sans des mécanismes de suggestion, un correcteur ignore par exemple que «à» et «a» sont des caractères apparentés. Pour lui, les mots ne sont qu’une suite de chiffres.

De surcroît, beaucoup croient qu’un dictionnaire est capable de corriger la grammaire. Rien n’est plus faux.
user.services.openoffice.org…
le 20 mai 2010 à 12:05
Marrant que tu parles de la question du a/à, c’est justement l’exemple que nous avons pris sur le rapport de bug. Pour nous, si nous tapons un « a » il est logique que le correcteur propose « à », mais il est aussi vrai qu’aucun des deux n’est une faute…

Je transmet tout ça… merci merci (je vais arrêter, mais une telle célérité, je ne sais que dire de plus ;))
le 20 mai 2010 à 12:28
J’avais vu. J’ai laissé un commentaire sur Google code. :)
Comment fonctionne ce correcteur orthographique, telle est la question.

Je m’étonne qu’on s’attende que «à» soit suggéré si on tape «a». Est-ce que ce correcteur fait des recherches même sur les mots corrects?
le 20 mai 2010 à 13:26
C’est un peu plus compliqué… parce qu’on est dans le cas d’un téléphone (et pas d’une merveilleuse dispo bépo bien pensée) et que taper le à est un peu « compliqué » (pour ne pas dire chiant compte tenu de sa fréquence). On prend donc vite l’habitude de ne pas taper les accents en confiant au « correcteur » le soin de nous proposer la bonne forme.
Mais je comprend qu’on sortes du cadre d’un correcteur.
le 20 mai 2010 à 23:44
nemolivier, si tu passes encore par ici, abonne-toi au fil code.google.com… en cliquant sur l’étoile, ça te permettra de recevoir une notification à chaque message envoyé. Le dév de ton logiciel attend. ;)
le 05 juin 2010 à 10:20

Notification par e-mail    0