Index: gc_lang/fr/build_data.py ================================================================== --- gc_lang/fr/build_data.py +++ gc_lang/fr/build_data.py @@ -5,10 +5,11 @@ # by Olivier R. # License: MPL 2 import json import os +import itertools import grammalecte.ibdawg as ibdawg from grammalecte.echo import echo from grammalecte.str_transform import defineSuffixCode import grammalecte.fr.conj as conj @@ -315,11 +316,11 @@ "compile list of locutions in JSON" print("> Locutions ", end="") print("(Python et JavaScript)" if bJS else "(Python seulement)") dLocGraph = {} oTokenizer = tkz.Tokenizer("fr") - for sLine in readFile(sp+"/data/locutions.txt"): + for sLine in itertools.chain(readFile(sp+"/data/locutions.txt"), readFile(sp+"/data/locutions_vrac.txt")): dCur = dLocGraph sLoc, sTag = sLine.split("\t") for oToken in oTokenizer.genTokens(sLoc.strip()): sWord = oToken["sValue"] if sWord not in dCur: ADDED gc_lang/fr/data/locutions_vrac.txt Index: gc_lang/fr/data/locutions_vrac.txt ================================================================== --- /dev/null +++ gc_lang/fr/data/locutions_vrac.txt