OK
AJAX error!

Les forumsDictionnaireSegmentation du texte (“tokenization”) sur les points

Segmentation du texte (“tokenization”) sur les points

À moins que l’on m’oppose une farouche résistance, je pense imposer le point comme séparateur de mots dans Hunspell.

Le point n’est plus vraiment un élément des mots français depuis que la normalisation des sigles les a fait disparaître. Notre dictionnaire ne contient d’ailleurs que très peu d’entrées avec ces points (que d’ailleurs nous avons ôtées puis remises, je crois).
www.dicollecte.org…

Du reste, Firefox, Opera et Chrome se servent déjà des points comme séparateur. Seul OOo ne le fait pas de lui-même, alors je voudrais le lui imposer.

Si quelqu’un désire s’opposer à ce divorce, qu’il se lève et parle ou qu’il se taise à jamais. :D

[Note] Même sujet sur les apostrophes : www.dicollecte.org…
le 14 février 2011 à 01:22
Comme dit ici : www.dicollecte.org… je suis pour la prise en compte des adresses internet.

Donc, à moins que le système permette d'ajouter des exceptions du genre :
RULE=FIN de phrase
EXCEPTION=.com, .fr, .de, etc.

Je ne suis pas franchement pour.

J'ai cru comprendre que tu souhaitais éviter les faux positifs au maximum. Les adresses web étant plus que courantes dans les documents, les prendre en compte me parait cohérent avec cette politique.
le 14 février 2011 à 09:56
Pour les adresses internet, il n’y a pas de solution ultime, mais le point comme séparateur aiderait à leur reconnaissance.

Quelques exemples :
www.google.com
www.dicollecte.org
amazon.com
monsiteperso.free.fr
monsiteperso.sfr.fr
monsiteperso.orange.fr

google, dicollecte, amazon, free, monsiteperso, sfr ne sont pas dans le dictionnaire et n’y seront pas. Même en créant des règles d’agglutination de préfixes et de suffixes (www, fr, com, de, net, org) sur les mots existants, ils ne seront pas reconnus.

Maintenant, si le point agit comme séparateur, www.orange.fr peut être reconnu, car orange est un mot de notre base, et nous pourrions y ajouter les préfixes internet les plus courants (seulement en cas de non-conflit avec autre chose).

Ensuite, dans le correcteur grammatical, il suffit d’ajouter des exceptions sur la ponctuation du point lorsqu’il est accolé à un affixe internet (www, fr, com, de, net, org).

En revanche, il n’y a pas de bon moyen de reconnaître une adresse comme celles sur ce site par exemple, avec des paramètres plus ou moins nombreux (et sur ce site, il n’y en a pas beaucoup par rapport à bien d’autres).

Les caractères : / ? & # sont déjà considérés comme des séparateurs.

Les URL n’ont pas d’orthographe, j’estime donc que ce n’est pas vraiment notre problème.

L’idéal serait d’avoir dans Hunspell une commande pour reconnaître automatiquement des «mots» par expression régulière.
le 14 février 2011 à 11:44

google, dicollecte, amazon, free, monsiteperso, sfr ne sont pas dans le dictionnaire et n’y seront pas. Même en créant des règles d’agglutination de préfixes et de suffixes (www, fr, com, de, net, org) sur les mots existants, ils ne seront pas reconnus.



Mon idée était la suivante : si rencontre .com par ex. en fin de mot alors "ignore le mot". Cette manière de faire a l'avantage d'accepter smdlfkjdfmlj.com par ex.

L’idéal serait d’avoir dans Hunspell une commande pour reconnaître automatiquement des «mots» par expression régulière.



Donc en fait mon idée n'est pas faisable techniquement aujourd'hui. Est-ce bien cela ?
le 14 février 2011 à 15:35

Mon idée était la suivante : si rencontre .com par ex. en fin de mot alors "ignore le mot". Cette manière de faire a l'avantage d'accepter smdlfkjdfmlj.com par ex.

Donc en fait mon idée n'est pas faisable techniquement aujourd'hui. Est-ce bien cela ?


Non. Ce que tu viens de décrire, c’est une expression régulière. ;)
J’ai quand même ouvert une demande pour Hunspell : sourceforge.net… (à tout hasard).

En gros, Hunspell ne peut composer qu’avec des mots présents dans le dictionnaire.
Donc pour reconnaître rencontres.com ou autre URL de ce genre, il faudrait mettre un drapeau sur toutes les entrées du dictionnaire (drapeau qui indiquerait que ce mot peut servir de composé), et ajouter les suffixes .com, .net, .org, .fr, etc.
Je ne sais pas comment Hunspell gère ça, mais c’est probablement un algo «usine à gaz». ;)
le 14 février 2011 à 15:48

En gros, Hunspell ne peut composer qu’avec des mots présents dans le dictionnaire.
Donc pour reconnaître rencontres.com ou autre URL de ce genre, il faudrait mettre un drapeau sur toutes les entrées du dictionnaire (drapeau qui indiquerait que ce mot peut servir de composé), et ajouter les suffixes .com, .net, .org, .fr, etc.
Je ne sais pas comment Hunspell gère ça, mais c’est probablement un algo «usine à gaz». ;)



D'accord. À mon avis, ça n'en vaut pas du tout le coup. Je pense qu'on peut laisser tomber et revenir dessus quand les expressions régulières seront gérées.

Donc pas (plus) d'objection a priori pour le point comme séparateur de mots.
le 14 février 2011 à 22:21

Non. Ce que tu viens de décrire, c’est une expression régulière. ;)
J’ai quand même ouvert une demande pour Hunspell : sourceforge.net… (à tout hasard).

En gros, Hunspell ne peut composer qu’avec des mots présents dans le dictionnaire.


Il me semble que Hunspell peut créer des entrées avec des expressions régulières en utilisant COMPOUNDRULE. La doc de Hunspell dit :

Note: en_US dictionary of OpenOffice.org uses COMPOUNDRULE for ordinal number recognition (1st, 2nd, 11th, 12th, 22nd, 112th, 1000122nd etc.).



le 14 février 2011 à 23:15

Il me semble que Hunspell peut créer des entrées avec des expressions régulières en utilisant COMPOUNDRULE.


Regarde les exemples dans /test. C’est plus clair.
Ce sont des expressions régulières (avec seulement quelques possibilités basiques) composées de drapeaux apposés sur les entrées existantes.
le 14 février 2011 à 23:34

Notification par e-mail    0