Pour les statistiques, une source supplémentaire pourrait être les sous-titres des programmes télévisés.
Pour répondre aux remarques que je vois venir :
— Ce n’est effectivement pas la meilleure source de statistiques vu que les sous-titres correspondent rarement au texte réellement prononcé.
— Récupérer manuellement les sous-titres est chronophage. La seule solution viable serait de faire un programme qui fait le boulot automatiquement. (Et non, je ne m’en chargerais pas, car j’ai déjà 15 autres trucs à faire don la reprogrammation et la correction du thésaurus)