Grammalecte: Changes On Branch 1d9246b16105c006

Changes In Branch rg Through [1d9246b161] Excluding Merge-Ins

This is equivalent to a diff from f2d8271145 to 1d9246b161

2018-06-03
17:43		[core] gc engine, text processor: remove useless commands, code clarification check-in: 6e4f6d12f0 user: olr tags: core, rg
13:51		[build][core] gc engine update check-in: 1d9246b161 user: olr tags: core, build, rg
09:05		[graphspell] default suggestions for French language check-in: fd12f98d29 user: olr tags: graphspell, rg
2018-05-16
16:22		[fr] pt: descente aux enfers/flambeaux check-in: b5310203be user: olr tags: trunk, fr
16:14		[build][core] rules graph: first draft check-in: 061252f41e user: olr tags: core, build, rg
11:58		[graphspell][bug] fix affixes occurrences calculation check-in: f2d8271145 user: olr tags: trunk, graphspell
2018-05-15
12:51		[fr] test contre faux positif check-in: f8bf9c3922 user: olr tags: trunk, fr

Modified compile_rules.py from [1ea2b6d97a] to [394c512707].

Added compile_rules_graph.py version [0bf3596a1c].

Added darg.py version [589e9bbc94].

Modified gc_core/js/lang_core/gc_engine.js from [7ee1350cd7] to [12095116ac].

Modified gc_core/py/lang_core/gc_engine.py from [72ecd7c680] to [dc1fba7ea9].

Added gc_core/py/lang_core/gc_rules_graph.py version [e9a58f5498].

Added gc_core/py/lang_core/gc_sentence.py version [c68dc1622f].

Modified gc_lang/fr/modules-js/gce_analyseur.js from [e2613ddcd2] to [bdc2b54804].

Modified gc_lang/fr/modules-js/gce_suggestions.js from [0c31bc1a27] to [7b6a3f8cde].

Modified gc_lang/fr/modules-js/tests_data.json from [f05e835c66] to [ef6f6c1c40].

Modified gc_lang/fr/modules/gce_analyseur.py from [39975de0ac] to [50ac148025].

Modified gc_lang/fr/modules/gce_suggestions.py from [79835965e4] to [818aeb6977].

Added gc_lang/fr/rules_graph.grx version [6747fdf087].

Modified graphspell-js/spellchecker.js from [3df103d578] to [a6bdb52bd3].

Modified graphspell-js/tokenizer.js from [bdd895b918] to [9bd60cca8a].

Added graphspell/fr.py version [215809bae0].

Modified graphspell/spellchecker.py from [cbd22d2c4d] to [70326fed78].

Modified graphspell/tokenizer.py from [17f452887e] to [b723a02695].

Modified make.py from [14e0172bf2] to [5704755499].

︙			︙
456 457 458 459 460 461 462 ~~463~~ 464 465 466 467 468 469 470	m = re.match("DEF: +([a-zA-Z_][a-zA-Z_0-9]) +(.+)$", sLine.strip()) if m: dDEF["{"+m.group(1)+"}"] = m.group(2) else: print("Error in definition: ", end="") print(sLine.strip()) elif sLine.startswith("TEST:"): ~~lTest.append("~~{:<8~~}".format(i) + " " + sLine[5:].strip())~~ elif sLine.startswith("TODO:"): pass elif sLine.startswith(("OPTGROUP/", "OPTSOFTWARE:", "OPT/", "OPTLANG/", "OPTDEFAULTUILANG:", "OPTLABEL/", "OPTPRIORITY/")): lOpt.append(sLine) elif re.match("[ \t]$", sLine): pass elif sLine.startswith("!!"):	\|	456 457 458 459 460 461 462 463 464 465 466 467 468 469 470	m = re.match("DEF: +([a-zA-Z_][a-zA-Z_0-9]) +(.+)$", sLine.strip()) if m: dDEF["{"+m.group(1)+"}"] = m.group(2) else: print("Error in definition: ", end="") print(sLine.strip()) elif sLine.startswith("TEST:"): lTest.append("r{:<7}".format(i) + " " + sLine[5:].strip()) elif sLine.startswith("TODO:"): pass elif sLine.startswith(("OPTGROUP/", "OPTSOFTWARE:", "OPT/", "OPTLANG/", "OPTDEFAULTUILANG:", "OPTLABEL/", "OPTPRIORITY/")): lOpt.append(sLine) elif re.match("[ \t]$", sLine): pass elif sLine.startswith("!!"):
︙			︙
540 541 542 543 544 545 546 ~~547 548~~ 549 550 551 552 553 554 555	displayStats(lParagraphRules, lSentenceRules) print("Unnamed rules: " + str(nRULEWITHOUTNAME)) d = { "callables": sPyCallables, "callablesJS": sJSCallables, ~~"gctests": sGCTests, "gctestsJS": sGCTestsJS,~~ "paragraph_rules": mergeRulesByOption(lParagraphRules), "sentence_rules": mergeRulesByOption(lSentenceRules), "paragraph_rules_JS": jsconv.writeRulesToJSArray(mergeRulesByOption(lParagraphRulesJS)), "sentence_rules_JS": jsconv.writeRulesToJSArray(mergeRulesByOption(lSentenceRulesJS)) } d.update(dOptions) return d	\| \|	540 541 542 543 544 545 546 547 548 549 550 551 552 553 554 555	displayStats(lParagraphRules, lSentenceRules) print("Unnamed rules: " + str(nRULEWITHOUTNAME)) d = { "callables": sPyCallables, "callablesJS": sJSCallables, "regex_gctests": sGCTests, "regex_gctestsJS": sGCTestsJS, "paragraph_rules": mergeRulesByOption(lParagraphRules), "sentence_rules": mergeRulesByOption(lSentenceRules), "paragraph_rules_JS": jsconv.writeRulesToJSArray(mergeRulesByOption(lParagraphRulesJS)), "sentence_rules_JS": jsconv.writeRulesToJSArray(mergeRulesByOption(lSentenceRulesJS)) } d.update(dOptions) return d

︙			︙
35 36 37 38 39 40 41 42 43 44 45 46 47 48 49	// data let _sAppContext = ""; // what software is running let _dOptions = null; let _aIgnoredRules = new Set(); let _oSpellChecker = null; ~~let _dAnalyses = new Map(); // cache for data from dictionary~~ var gc_engine = { //// Informations lang: "${lang}",	<	35 36 37 38 39 40 41 42 43 44 45 46 47 48	// data let _sAppContext = ""; // what software is running let _dOptions = null; let _aIgnoredRules = new Set(); let _oSpellChecker = null; var gc_engine = { //// Informations lang: "${lang}",
︙			︙
325 326 327 328 329 330 331 332 333 334 335 336 337 338	var spellchecker = require("resource://grammalecte/graphspell/spellchecker.js"); _oSpellChecker = new spellchecker.SpellChecker("${lang}", "", "${dic_main_filename_js}", "${dic_extended_filename_js}", "${dic_community_filename_js}", "${dic_personal_filename_js}"); } else { _oSpellChecker = new SpellChecker("${lang}", sPath, "${dic_main_filename_js}", "${dic_extended_filename_js}", "${dic_community_filename_js}", "${dic_personal_filename_js}"); } _sAppContext = sContext; _dOptions = gc_options.getOptions(sContext).gl_shallowCopy(); // duplication necessary, to be able to reset to default } catch (e) { helpers.logerror(e); } }, getSpellChecker: function () {	>	324 325 326 327 328 329 330 331 332 333 334 335 336 337 338	var spellchecker = require("resource://grammalecte/graphspell/spellchecker.js"); _oSpellChecker = new spellchecker.SpellChecker("${lang}", "", "${dic_main_filename_js}", "${dic_extended_filename_js}", "${dic_community_filename_js}", "${dic_personal_filename_js}"); } else { _oSpellChecker = new SpellChecker("${lang}", sPath, "${dic_main_filename_js}", "${dic_extended_filename_js}", "${dic_community_filename_js}", "${dic_personal_filename_js}"); } _sAppContext = sContext; _dOptions = gc_options.getOptions(sContext).gl_shallowCopy(); // duplication necessary, to be able to reset to default _oSpellChecker.activateStorage(); } catch (e) { helpers.logerror(e); } }, getSpellChecker: function () {
︙			︙
374 375 376 377 378 379 380 ~~381~~ ~~382~~ 383 384 385 386 387 ~~388~~ 389 390 391 ~~392 393 394 395 396 397 398~~ 399 400 401 402 403 404 405 ~~406 407 408 409~~ 410 411 412 413 414 415 416 417 418 419 420 421 422 423 424 425 426 427 ~~428 429 430 431~~ 432 433 434 435 436 437 438 439 440 441 442 443 444 445 446 ~~447~~ 448 449 450 ~~451~~ 452 ~~453~~ 454 455 456 457 ~~458~~ 459 460 461 ~~462~~ 463 464 465 ~~466 467 468 469 470 471 472 473 474 475 476 477~~ 478 479 480 481 482 483 484	function displayInfo (dDA, aWord) { // for debugging: info of word if (!aWord) { helpers.echo("> nothing to find"); return true; } ~~if (!_~~dAna~~lyse~~s.has~~(aWord[1]) ~~&& !_storeMorphFromFSA(aWord[1])) {~~~~ ~~helpers.echo("> not in ~~FSA~~");~~ return true; } if (dDA.has(aWord[0])) { helpers.echo("DA: " + dDA.get(aWord[0])); } ~~helpers.echo("FSA: " + ~~_dAnalyses.get(aW~~or~~d[1])~~);~~ return true; } ~~function _storeMorphFromFSA (sWord) {~~ ~~// retrieves morphologies list from _oSpellChecker -> _dAnalyses~~ ~~//helpers.echo("register: "+sWord + " " + _oSpellChecker.getMorph(sWord).toString())~~ ~~_dAnalyses.set(sWord, _oSpellChecker.getMorph(sWord));~~ ~~return !!_dAnalyses.get(sWord);~~ } function morph (dDA, aWord, sPattern, bStrict=true, bNoWord=false) { // analyse a tuple (position, word), return true if sPattern in morphologies (disambiguation on) if (!aWord) { //helpers.echo("morph: noword, returns " + bNoWord); return bNoWord; } //helpers.echo("aWord: "+aWord.toString()); ~~~~if (!_dAnalyses.has(aWord[1]) && !_storeMorphFromFSA(aWord[1])) {~~ ~~return false;~~ } let lMorph = dDA.has(aWord[0]) ? dDA.get(aWord[0]) : _~~dAna~~l~~yses~~.get(aWord[1]);~~ //helpers.echo("lMorph: "+lMorph.toString()); if (lMorph.length === 0) { return false; } //helpers.echo("*"); if (bStrict) { return lMorph.every(s => (s.search(sPattern) !== -1)); } return lMorph.some(s => (s.search(sPattern) !== -1)); } function morphex (dDA, aWord, sPattern, sNegPattern, bNoWord=false) { // analyse a tuple (position, word), returns true if not sNegPattern in word morphologies and sPattern in word morphologies (disambiguation on) if (!aWord) { //helpers.echo("morph: noword, returns " + bNoWord); return bNoWord; } //helpers.echo("aWord: "+aWord.toString()); ~~~~if (!_dAnalyses.has(aWord[1]) && !_storeMorphFromFSA(aWord[1])) {~~ ~~return false;~~ } let lMorph = dDA.has(aWord[0]) ? dDA.get(aWord[0]) : _~~dAna~~l~~yses~~.get(aWord[1]);~~ //helpers.echo("lMorph: "+lMorph.toString()); if (lMorph.length === 0) { return false; } //helpers.echo("*"); // check negative condition if (lMorph.some(s => (s.search(sNegPattern) !== -1))) { return false; } // search sPattern return lMorph.some(s => (s.search(sPattern) !== -1)); } function analyse (sWord, sPattern, bStrict=true) { // analyse a word, return true if sPattern in morphologies (disambiguation off) ~~if (!_~~dAna~~lyse~~s.has~~(sWord) ~~&& !_storeMorphFromFSA(sWord)) {~~~~ return false; } if (bStrict) { ~~return ~~_dAnalyses.get(sW~~ord).every(s => (s.search(sPattern) !== -1));~~ } ~~return ~~_dAnalyses.get(sW~~ord).some(s => (s.search(sPattern) !== -1));~~ } function analysex (sWord, sPattern, sNegPattern) { // analyse a word, returns True if not sNegPattern in word morphologies and sPattern in word morphologies (disambiguation off) ~~if (!_~~dAna~~lyse~~s.has~~(sWord) ~~&& !_storeMorphFromFSA(sWord)) {~~~~ return false; } // check negative condition ~~if (~~_dAnalyses.get(sW~~ord).some(s => (s.search(sNegPattern) !== -1))) {~~ return false; } // search sPattern return ~~_dAnalyses.get(sW~~ord).some(s => (s.search(sPattern) !== -1)); } ~~function stem (sWord) {~~ ~~// returns a list of sWord's stems~~ ~~if (!sWord) {~~ ~~return [];~~ } ~~if (!_dAnalyses.has(sWord) && !_storeMorphFromFSA(sWord)) {~~ ~~return [];~~ } ~~return _dAnalyses.get(sWord).map( s => s.slice(1, s.indexOf(" ")) );~~ } //// functions to get text outside pattern scope // warning: check compile_rules.py to understand how it works	\| > \| \| < < < < < < < < < < \| < < < \| \| > \| \| \| > \| \| < < < < < < < < < < <	374 375 376 377 378 379 380 381 382 383 384 385 386 387 388 389 390 391 392 393 394 395 396 397 398 399 400 401 402 403 404 405 406 407 408 409 410 411 412 413 414 415 416 417 418 419 420 421 422 423 424 425 426 427 428 429 430 431 432 433 434 435 436 437 438 439 440 441 442 443 444 445 446 447 448 449 450 451 452 453 454 455 456 457 458 459 460 461 462 463	function displayInfo (dDA, aWord) { // for debugging: info of word if (!aWord) { helpers.echo("> nothing to find"); return true; } let lMorph = _oSpellChecker.getMorph(aWord[1]); if (lMorph.length === 0) { helpers.echo("> not in dictionary"); return true; } if (dDA.has(aWord[0])) { helpers.echo("DA: " + dDA.get(aWord[0])); } helpers.echo("FSA: " + lMorph); return true; } function morph (dDA, aWord, sPattern, bStrict=true, bNoWord=false) { // analyse a tuple (position, word), return true if sPattern in morphologies (disambiguation on) if (!aWord) { //helpers.echo("morph: noword, returns " + bNoWord); return bNoWord; } //helpers.echo("aWord: "+aWord.toString()); let lMorph = dDA.has(aWord[0]) ? dDA.get(aWord[0]) : _oSpellChecker.getMorph(aWord[1]); //helpers.echo("lMorph: "+lMorph.toString()); if (lMorph.length === 0) { return false; } //helpers.echo("*"); if (bStrict) { return lMorph.every(s => (s.search(sPattern) !== -1)); } return lMorph.some(s => (s.search(sPattern) !== -1)); } function morphex (dDA, aWord, sPattern, sNegPattern, bNoWord=false) { // analyse a tuple (position, word), returns true if not sNegPattern in word morphologies and sPattern in word morphologies (disambiguation on) if (!aWord) { //helpers.echo("morph: noword, returns " + bNoWord); return bNoWord; } //helpers.echo("aWord: "+aWord.toString()); let lMorph = dDA.has(aWord[0]) ? dDA.get(aWord[0]) : _oSpellChecker.getMorph(aWord[1]); //helpers.echo("lMorph: "+lMorph.toString()); if (lMorph.length === 0) { return false; } //helpers.echo("*"); // check negative condition if (lMorph.some(s => (s.search(sNegPattern) !== -1))) { return false; } // search sPattern return lMorph.some(s => (s.search(sPattern) !== -1)); } function analyse (sWord, sPattern, bStrict=true) { // analyse a word, return true if sPattern in morphologies (disambiguation off) let lMorph = _oSpellChecker.getMorph(sWord); if (lMorph.length === 0) { return false; } if (bStrict) { return lMorph.every(s => (s.search(sPattern) !== -1)); } return lMorph.some(s => (s.search(sPattern) !== -1)); } function analysex (sWord, sPattern, sNegPattern) { // analyse a word, returns True if not sNegPattern in word morphologies and sPattern in word morphologies (disambiguation off) let lMorph = _oSpellChecker.getMorph(sWord); if (lMorph.length === 0) { return false; } // check negative condition if (lMorph.some(s => (s.search(sNegPattern) !== -1))) { return false; } // search sPattern return lMorph.some(s => (s.search(sPattern) !== -1)); } //// functions to get text outside pattern scope // warning: check compile_rules.py to understand how it works
︙			︙
563 564 565 566 567 568 569 ~~570 571 572 573~~ 574 575 ~~576~~ 577 ~~578~~ 579 580 581 582 583 584 585 586 587 588 589 590 591 592 593 ~~594 595 596 597~~ 598 599 ~~600~~ 601 ~~602~~ 603 604 605 606 607 608 609	function select (dDA, nPos, sWord, sPattern, lDefault=null) { if (!sWord) { return true; } if (dDA.has(nPos)) { return true; } ~~if (!_~~dAna~~lyse~~s.has~~(sWord) ~~&& !_storeMorphFromFSA(sWord)) {~~ ~~return true;~~ } if (~~_dAnalyses.get(sW~~ord).length === 1) {~~ return true; } ~~let lSelect = ~~_dAnalyses.get(sW~~ord).filter( sMorph => sMorph.search(sPattern) !== -1 );~~ if (lSelect.length > 0) { ~~if (lSelect.length != ~~_dAnalyses.get(sW~~ord).length) {~~ dDA.set(nPos, lSelect); } } else if (lDefault) { dDA.set(nPos, lDefaul); } return true; } function exclude (dDA, nPos, sWord, sPattern, lDefault=null) { if (!sWord) { return true; } if (dDA.has(nPos)) { return true; } ~~if (!_~~dAna~~lyse~~s.has~~(sWord) ~~&& !_storeMorphFromFSA(sWord)) {~~ ~~return true;~~ } if (~~_dAnalyses.get(sW~~ord).length === 1) {~~ return true; } ~~let lSelect = ~~_dAnalyses.get(sW~~ord).filter( sMorph => sMorph.search(sPattern) === -1 );~~ if (lSelect.length > 0) { ~~if (lSelect.length != ~~_dAnalyses.get(sW~~ord).length) {~~ dDA.set(nPos, lSelect); } } else if (lDefault) { dDA.set(nPos, lDefault); } return true; }	\| < < \| \| \| \| < < \| \| \|	542 543 544 545 546 547 548 549 550 551 552 553 554 555 556 557 558 559 560 561 562 563 564 565 566 567 568 569 570 571 572 573 574 575 576 577 578 579 580 581 582 583 584	function select (dDA, nPos, sWord, sPattern, lDefault=null) { if (!sWord) { return true; } if (dDA.has(nPos)) { return true; } let lMorph = _oSpellChecker.getMorph(sWord); if (lMorph.length === 0 \|\| lMorph.length === 1) { return true; } let lSelect = lMorph.filter( sMorph => sMorph.search(sPattern) !== -1 ); if (lSelect.length > 0) { if (lSelect.length != lMorph.length) { dDA.set(nPos, lSelect); } } else if (lDefault) { dDA.set(nPos, lDefaul); } return true; } function exclude (dDA, nPos, sWord, sPattern, lDefault=null) { if (!sWord) { return true; } if (dDA.has(nPos)) { return true; } let lMorph = _oSpellChecker.getMorph(sWord); if (lMorph.length === 0 \|\| lMorph.length === 1) { return true; } let lSelect = lMorph.filter( sMorph => sMorph.search(sPattern) === -1 ); if (lSelect.length > 0) { if (lSelect.length != lMorph.length) { dDA.set(nPos, lSelect); } } else if (lDefault) { dDA.set(nPos, lDefault); } return true; }
︙			︙

︙			︙
8 9 10 11 12 13 14 15 16 17 18 19 20 21	#import unicodedata from itertools import chain from ..graphspell.spellchecker import SpellChecker from ..graphspell.echo import echo from . import gc_options __all__ = [ "lang", "locales", "pkg", "name", "version", "author", \ "load", "parse", "getSpellChecker", \ "setOption", "setOptions", "getOptions", "getDefaultOptions", "getOptionsLabels", "resetOptions", "displayOptions", \ "ignoreRule", "resetIgnoreRules", "reactivateRule", "listRules", "displayRules" ] __version__ = "${version}"	> > >	8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24	#import unicodedata from itertools import chain from ..graphspell.spellchecker import SpellChecker from ..graphspell.echo import echo from . import gc_options from ..graphspell.tokenizer import Tokenizer from .gc_rules_graph import dGraph, dRule __all__ = [ "lang", "locales", "pkg", "name", "version", "author", \ "load", "parse", "getSpellChecker", \ "setOption", "setOptions", "getOptions", "getDefaultOptions", "getOptionsLabels", "resetOptions", "displayOptions", \ "ignoreRule", "resetIgnoreRules", "reactivateRule", "listRules", "displayRules" ] __version__ = "${version}"
︙			︙
31 32 33 34 35 36 37 ~~38 39~~ 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 ~~93 94~~ 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 ~~110~~ 111 112 113 114 115 116 117	_rules = None # module gc_rules # data _sAppContext = "" # what software is running _dOptions = None _aIgnoredRules = set() _oSpellChecker = None ~~_dAnalyses = {} # cache for data from dictionary~~ #### Parsing def parse (sText, sCountry="${country_default}", bDebug=False, dOptions=None, bContext=False): "analyses the paragraph sText and returns list of errors" #sText = unicodedata.normalize("NFC", sText) aErrors = None ~~sAlt = sText~~ dDA = {} # Disambiguisator. Key = position; value = list of morphologies dPriority = {} # Key = position; value = priority dOpt = _dOptions if not dOptions else dOptions # parse paragraph try: ~~sNew, aErrors = _proofread(sText, sAlt, 0, True, dDA, dPriority, sCountry, dOpt, bDebug, bContext)~~ if sNew: sText = sNew except: raise # cleanup if " " in sText: sText = sText.replace(" ", ' ') # nbsp if " " in sText: sText = sText.replace(" ", ' ') # nnbsp if "'" in sText: sText = sText.replace("'", "’") if "‑" in sText: sText = sText.replace("‑", "-") # nobreakdash # parse sentences for iStart, iEnd in _getSentenceBoundaries(sText): if 4 < (iEnd - iStart) < 2000: dDA.clear() try: ~~_, errs = _proofread(sText[iStart:iEnd], sAlt[iStart:iEnd], iStart, False, dDA, dPriority, sCountry, dOpt, bDebug, bContext)~~ aErrors.update(errs) except: raise return aErrors.values() # this is a view (iterable) def _getSentenceBoundaries (sText): iStart = _zBeginOfParagraph.match(sText).end() for m in _zEndOfSentence.finditer(sText): yield (iStart, m.end()) iStart = m.end() ~~def _proofread (s, sx, nOffset, bParagraph, dDA, dPriority, sCountry, dOptions, bDebug, bContext):~~ dErrs = {} bChange = False ~~bIdRule = option('idrule')~~ for sOption, lRuleGroup in _getRules(bParagraph): if not sOption or dOptions.get(sOption, False): for zRegex, bUppercase, sLineId, sRuleId, nPriority, lActions in lRuleGroup: if sRuleId not in _aIgnoredRules: for m in zRegex.finditer(s): bCondMemo = None for sFuncCond, cActionType, sWhat, *eAct in lActions: # action in lActions: [ condition, action type, replacement/suggestion/action[, iGroup[, message, URL]] ] try: bCondMemo = not sFuncCond or globals()[sFuncCond](s, sx, m, dDA, sCountry, bCondMemo) if bCondMemo: if cActionType == "-": # grammar error nErrorStart = nOffset + m.start(eAct[0]) if nErrorStart not in dErrs or nPriority > dPriority[nErrorStart]: ~~dErrs[nErrorStart] = _createError(s, sx, sWhat, nOffset, m, eAct[0], sLineId, sRuleId, bUppercase, eAct[1], eAct[2], bIdRule, sOption, bContext)~~ dPriority[nErrorStart] = nPriority elif cActionType == "~": # text processor s = _rewrite(s, sWhat, eAct[0], m, bUppercase) bChange = True if bDebug: echo("~ " + s + " -- " + m.group(eAct[0]) + " # " + sLineId)	< \| \| > \| > \| > > > > \| < < \|	34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123	_rules = None # module gc_rules # data _sAppContext = "" # what software is running _dOptions = None _aIgnoredRules = set() _oSpellChecker = None _oTokenizer = None #### Parsing def parse (sText, sCountry="${country_default}", bDebug=False, dOptions=None, bContext=False): "analyses the paragraph sText and returns list of errors" #sText = unicodedata.normalize("NFC", sText) aErrors = None sRealText = sText dDA = {} # Disambiguisator. Key = position; value = list of morphologies dPriority = {} # Key = position; value = priority dOpt = _dOptions if not dOptions else dOptions bShowRuleId = option('idrule') # parse paragraph try: sNew, aErrors = _proofread(sText, sRealText, 0, True, dDA, dPriority, sCountry, dOpt, bShowRuleId, bDebug, bContext) if sNew: sText = sNew except: raise # cleanup if " " in sText: sText = sText.replace(" ", ' ') # nbsp if " " in sText: sText = sText.replace(" ", ' ') # nnbsp if "'" in sText: sText = sText.replace("'", "’") if "‑" in sText: sText = sText.replace("‑", "-") # nobreakdash # parse sentences for iStart, iEnd in _getSentenceBoundaries(sText): if 4 < (iEnd - iStart) < 2000: dDA.clear() try: # regex parser _, errs = _proofread(sText[iStart:iEnd], sRealText[iStart:iEnd], iStart, False, dDA, dPriority, sCountry, dOpt, bShowRuleId, bDebug, bContext) aErrors.update(errs) # token parser oSentence = TokenSentence(sText[iStart:iEnd], sRealText[iStart:iEnd], iStart) _, errs = oSentence.parse(dPriority, sCountry, dOpt, bShowRuleId, bDebug, bContext) aErrors.update(errs) except: raise return aErrors.values() # this is a view (iterable) def _getSentenceBoundaries (sText): iStart = _zBeginOfParagraph.match(sText).end() for m in _zEndOfSentence.finditer(sText): yield (iStart, m.end()) iStart = m.end() def _proofread (s, sx, nOffset, bParagraph, dDA, dPriority, sCountry, dOptions, bShowRuleId, bDebug, bContext): dErrs = {} bChange = False for sOption, lRuleGroup in _getRules(bParagraph): if not sOption or dOptions.get(sOption, False): for zRegex, bUppercase, sLineId, sRuleId, nPriority, lActions in lRuleGroup: if sRuleId not in _aIgnoredRules: for m in zRegex.finditer(s): bCondMemo = None for sFuncCond, cActionType, sWhat, *eAct in lActions: # action in lActions: [ condition, action type, replacement/suggestion/action[, iGroup[, message, URL]] ] try: bCondMemo = not sFuncCond or globals()[sFuncCond](s, sx, m, dDA, sCountry, bCondMemo) if bCondMemo: if cActionType == "-": # grammar error nErrorStart = nOffset + m.start(eAct[0]) if nErrorStart not in dErrs or nPriority > dPriority[nErrorStart]: dErrs[nErrorStart] = _createRegexError(s, sx, sWhat, nOffset, m, eAct[0], sLineId, sRuleId, bUppercase, eAct[1], eAct[2], bShowRuleId, sOption, bContext) dPriority[nErrorStart] = nPriority elif cActionType == "~": # text processor s = _rewrite(s, sWhat, eAct[0], m, bUppercase) bChange = True if bDebug: echo("~ " + s + " -- " + m.group(eAct[0]) + " # " + sLineId)
︙			︙
130 131 132 133 134 135 136 ~~137~~ 138 139 140 141 142 143 144	except Exception as e: raise Exception(str(e), "# " + sLineId + " # " + sRuleId) if bChange: return (s, dErrs) return (False, dErrs) ~~def _createWriterError (s, sx, sRepl, nOffset, m, iGroup, sLineId, sRuleId, bUppercase, sMsg, sURL, bIdRule, sOption, bContext):~~ "error for Writer (LO/OO)" xErr = SingleProofreadingError() #xErr = uno.createUnoStruct( "com.sun.star.linguistic2.SingleProofreadingError" ) xErr.nErrorStart = nOffset + m.start(iGroup) xErr.nErrorLength = m.end(iGroup) - m.start(iGroup) xErr.nErrorType = PROOFREADING xErr.aRuleIdentifier = sRuleId	\|	136 137 138 139 140 141 142 143 144 145 146 147 148 149 150	except Exception as e: raise Exception(str(e), "# " + sLineId + " # " + sRuleId) if bChange: return (s, dErrs) return (False, dErrs) def _createRegexWriterError (s, sx, sRepl, nOffset, m, iGroup, sLineId, sRuleId, bUppercase, sMsg, sURL, bShowRuleId, sOption, bContext): "error for Writer (LO/OO)" xErr = SingleProofreadingError() #xErr = uno.createUnoStruct( "com.sun.star.linguistic2.SingleProofreadingError" ) xErr.nErrorStart = nOffset + m.start(iGroup) xErr.nErrorLength = m.end(iGroup) - m.start(iGroup) xErr.nErrorType = PROOFREADING xErr.aRuleIdentifier = sRuleId
︙			︙
162 163 164 165 166 167 168 ~~169~~ 170 171 172 173 174 175 176 177 178 179 180 181 ~~182~~ 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 ~~199~~ 200 ~~201~~ 202 203 204 205 206 207 208 209 210 211 212 ~~213~~ 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230	# Message if sMsg[0:1] == "=": sMessage = globals()[sMsg[1:]](s, m) else: sMessage = m.expand(sMsg) xErr.aShortComment = sMessage # sMessage.split("\|")[0] # in context menu xErr.aFullComment = sMessage # sMessage.split("\|")[-1] # in dialog ~~if bIdRule:~~ xErr.aShortComment += " # " + sLineId + " # " + sRuleId # URL if sURL: p = PropertyValue() p.Name = "FullCommentURL" p.Value = sURL xErr.aProperties = (p,) else: xErr.aProperties = () return xErr ~~def _createDictError (s, sx, sRepl, nOffset, m, iGroup, sLineId, sRuleId, bUppercase, sMsg, sURL, bIdRule, sOption, bContext):~~ "error as a dictionary" dErr = {} dErr["nStart"] = nOffset + m.start(iGroup) dErr["nEnd"] = nOffset + m.end(iGroup) dErr["sLineId"] = sLineId dErr["sRuleId"] = sRuleId dErr["sType"] = sOption if sOption else "notype" # suggestions if sRepl[0:1] == "=": sugg = globals()[sRepl[1:]](s, m) if sugg: if bUppercase and m.group(iGroup)[0:1].isupper(): dErr["aSuggestions"] = list(map(str.capitalize, sugg.split("\|"))) else: dErr["aSuggestions"] = sugg.split("\|") else: ~~dErr["aSuggestions"] = ()~~ elif sRepl == "_": ~~dErr["aSuggestions"] = ()~~ else: if bUppercase and m.group(iGroup)[0:1].isupper(): dErr["aSuggestions"] = list(map(str.capitalize, m.expand(sRepl).split("\|"))) else: dErr["aSuggestions"] = m.expand(sRepl).split("\|") # Message if sMsg[0:1] == "=": sMessage = globals()[sMsg[1:]](s, m) else: sMessage = m.expand(sMsg) dErr["sMessage"] = sMessage ~~if bIdRule:~~ dErr["sMessage"] += " # " + sLineId + " # " + sRuleId # URL dErr["URL"] = sURL if sURL else "" # Context if bContext: dErr['sUnderlined'] = sx[m.start(iGroup):m.end(iGroup)] dErr['sBefore'] = sx[max(0,m.start(iGroup)-80):m.start(iGroup)] dErr['sAfter'] = sx[m.end(iGroup):m.end(iGroup)+80] return dErr def _rewrite (s, sRepl, iGroup, m, bUppercase): "text processor: write sRepl in s at iGroup position" nLen = m.end(iGroup) - m.start(iGroup) if sRepl == "": sNew = " " nLen elif sRepl == ">" or sRepl == "_" or sRepl == "~":	\| \| \| \| \| > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > >	168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288 289 290 291 292 293 294 295 296 297 298 299 300 301 302 303 304 305 306 307 308 309 310 311 312 313 314 315 316 317 318 319 320 321 322 323 324	# Message if sMsg[0:1] == "=": sMessage = globals()[sMsg[1:]](s, m) else: sMessage = m.expand(sMsg) xErr.aShortComment = sMessage # sMessage.split("\|")[0] # in context menu xErr.aFullComment = sMessage # sMessage.split("\|")[-1] # in dialog if bShowRuleId: xErr.aShortComment += " # " + sLineId + " # " + sRuleId # URL if sURL: p = PropertyValue() p.Name = "FullCommentURL" p.Value = sURL xErr.aProperties = (p,) else: xErr.aProperties = () return xErr def _createRegexDictError (s, sx, sRepl, nOffset, m, iGroup, sLineId, sRuleId, bUppercase, sMsg, sURL, bShowRuleId, sOption, bContext): "error as a dictionary" dErr = {} dErr["nStart"] = nOffset + m.start(iGroup) dErr["nEnd"] = nOffset + m.end(iGroup) dErr["sLineId"] = sLineId dErr["sRuleId"] = sRuleId dErr["sType"] = sOption if sOption else "notype" # suggestions if sRepl[0:1] == "=": sugg = globals()[sRepl[1:]](s, m) if sugg: if bUppercase and m.group(iGroup)[0:1].isupper(): dErr["aSuggestions"] = list(map(str.capitalize, sugg.split("\|"))) else: dErr["aSuggestions"] = sugg.split("\|") else: dErr["aSuggestions"] = [] elif sRepl == "_": dErr["aSuggestions"] = [] else: if bUppercase and m.group(iGroup)[0:1].isupper(): dErr["aSuggestions"] = list(map(str.capitalize, m.expand(sRepl).split("\|"))) else: dErr["aSuggestions"] = m.expand(sRepl).split("\|") # Message if sMsg[0:1] == "=": sMessage = globals()[sMsg[1:]](s, m) else: sMessage = m.expand(sMsg) dErr["sMessage"] = sMessage if bShowRuleId: dErr["sMessage"] += " # " + sLineId + " # " + sRuleId # URL dErr["URL"] = sURL if sURL else "" # Context if bContext: dErr['sUnderlined'] = sx[m.start(iGroup):m.end(iGroup)] dErr['sBefore'] = sx[max(0,m.start(iGroup)-80):m.start(iGroup)] dErr['sAfter'] = sx[m.end(iGroup):m.end(iGroup)+80] return dErr def _createTokenWriterError (lToken, sSentence, sSentence0, sRepl, iFirstToken, nStart, nEnd, sLineId, sRuleId, bUppercase, sMsg, sURL, bShowRuleId, sOption, bContext): "error for Writer (LO/OO)" xErr = SingleProofreadingError() #xErr = uno.createUnoStruct( "com.sun.star.linguistic2.SingleProofreadingError" ) xErr.nErrorStart = nStart xErr.nErrorLength = nEnd - nStart xErr.nErrorType = PROOFREADING xErr.aRuleIdentifier = sRuleId # suggestions if sRepl[0:1] == "=": sSugg = globals()[sRepl[1:]](lToken) if sSugg: if bUppercase and lToken[iFirstToken]["sValue"][0:1].isupper(): xErr.aSuggestions = tuple(map(str.capitalize, sSugg.split("\|"))) else: xErr.aSuggestions = tuple(sSugg.split("\|")) else: xErr.aSuggestions = () elif sRepl == "_": xErr.aSuggestions = () else: if bUppercase and lToken[iFirstToken]["sValue"][0:1].isupper(): xErr.aSuggestions = tuple(map(str.capitalize, sRepl.split("\|"))) else: xErr.aSuggestions = tuple(sRepl.split("\|")) # Message if sMsg[0:1] == "=": sMessage = globals()[sMsg[1:]](lToken) else: sMessage = sMsg xErr.aShortComment = sMessage # sMessage.split("\|")[0] # in context menu xErr.aFullComment = sMessage # sMessage.split("\|")[-1] # in dialog if bShowRuleId: xErr.aShortComment += " " + sLineId + " # " + sRuleId # URL if sURL: p = PropertyValue() p.Name = "FullCommentURL" p.Value = sURL xErr.aProperties = (p,) else: xErr.aProperties = () return xErr def _createTokenDictError (lToken, sSentence, sSentence0, sRepl, iFirstToken, nStart, nEnd, sLineId, sRuleId, bUppercase, sMsg, sURL, bShowRuleId, sOption, bContext): "error as a dictionary" dErr = {} dErr["nStart"] = nStart dErr["nEnd"] = nEnd dErr["sLineId"] = sLineId dErr["sRuleId"] = sRuleId dErr["sType"] = sOption if sOption else "notype" # suggestions if sRepl[0:1] == "=": sugg = globals()[sRepl[1:]](lToken) if sugg: if bUppercase and lToken[iFirstToken]["sValue"][0:1].isupper(): dErr["aSuggestions"] = list(map(str.capitalize, sugg.split("\|"))) else: dErr["aSuggestions"] = sugg.split("\|") else: dErr["aSuggestions"] = [] elif sRepl == "_": dErr["aSuggestions"] = [] else: if bUppercase and lToken[iFirstToken]["sValue"][0:1].isupper(): dErr["aSuggestions"] = list(map(str.capitalize, sRepl.split("\|"))) else: dErr["aSuggestions"] = sRepl.split("\|") # Message if sMsg[0:1] == "=": sMessage = globals()[sMsg[1:]](lToken) else: sMessage = sMsg dErr["sMessage"] = sMessage if bShowRuleId: dErr["sMessage"] += " " + sLineId + " # " + sRuleId # URL dErr["URL"] = sURL if sURL else "" # Context if bContext: dErr['sUnderlined'] = sSentence0[dErr["nStart"]:dErr["nEnd"]] dErr['sBefore'] = sSentence0[max(0,dErr["nStart"]-80):dErr["nStart"]] dErr['sAfter'] = sSentence0[dErr["nEnd"]:dErr["nEnd"]+80] return dErr def _rewrite (s, sRepl, iGroup, m, bUppercase): "text processor: write sRepl in s at iGroup position" nLen = m.end(iGroup) - m.start(iGroup) if sRepl == "": sNew = " " nLen elif sRepl == ">" or sRepl == "_" or sRepl == "~":
︙			︙
278 279 280 281 282 283 284 ~~285~~ 286 ~~287~~ 288 289 290 291 292 293 294 295 296 297 298 299 300 301 302 303 304	try: # LibreOffice / OpenOffice from com.sun.star.linguistic2 import SingleProofreadingError from com.sun.star.text.TextMarkupType import PROOFREADING from com.sun.star.beans import PropertyValue #import lightproof_handler_${implname} as opt ~~_createError = _createWriterError~~ except ImportError: ~~_createError = _createDictError~~ def load (sContext="Python"): global _oSpellChecker global _sAppContext global _dOptions try: _oSpellChecker = SpellChecker("${lang}", "${dic_main_filename_py}", "${dic_extended_filename_py}", "${dic_community_filename_py}", "${dic_personal_filename_py}") _sAppContext = sContext _dOptions = dict(gc_options.getOptions(sContext)) # duplication necessary, to be able to reset to default except: traceback.print_exc() def setOption (sOpt, bVal): if sOpt in _dOptions: _dOptions[sOpt] = bVal	\| > \| > > > >	372 373 374 375 376 377 378 379 380 381 382 383 384 385 386 387 388 389 390 391 392 393 394 395 396 397 398 399 400 401 402 403	try: # LibreOffice / OpenOffice from com.sun.star.linguistic2 import SingleProofreadingError from com.sun.star.text.TextMarkupType import PROOFREADING from com.sun.star.beans import PropertyValue #import lightproof_handler_${implname} as opt _createRegexError = _createRegexWriterError _createTokenError = _createTokenWriterError except ImportError: _createRegexError = _createRegexDictError _createTokenError = _createTokenDictError def load (sContext="Python"): global _oSpellChecker global _sAppContext global _dOptions global _oTokenizer try: _oSpellChecker = SpellChecker("${lang}", "${dic_main_filename_py}", "${dic_extended_filename_py}", "${dic_community_filename_py}", "${dic_personal_filename_py}") _sAppContext = sContext _dOptions = dict(gc_options.getOptions(sContext)) # duplication necessary, to be able to reset to default _oTokenizer = _oSpellChecker.getTokenizer() _oSpellChecker.activateStorage() except: traceback.print_exc() def setOption (sOpt, bVal): if sOpt in _dOptions: _dOptions[sOpt] = bVal
︙			︙
367 368 369 370 371 372 373 ~~374 375 376 377 378~~ 379 380 381 382 383 384 385 386 387 388 389 390 ~~391~~ ~~392~~ 393 394 395 ~~396~~ 397 398 ~~399 400 401 402 403 404 405~~ 406 407 408 409 410 ~~411 412 413~~ 414 415 416 417 418 419 420 421 422 423 424 425 ~~426~~ 427 ~~428~~ 429 430 431 432 433 434 435 436 437 438 439 ~~440 441 442~~ 443 444 445 ~~446 447~~ 448 449 450 451 ~~452~~ 453 454 455 ~~456~~ 457 458 459 ~~460~~ 461 ~~462 463 464 465 466 467 468 469~~ 470 471 472 473 474 475 476	return os.path.join(os.path.dirname(sys.modules[__name__].__file__), __name__ + ".py") #### common functions # common regexes _zEndOfSentence = re.compile('([.?!:;…][ .?!… »”")]\|.$)') _zBeginOfParagraph = re.compile("^\W") _zEndOfParagraph = re.compile("\W$") _zNextWord = re.compile(" +(\w[\w-])") _zPrevWord = re.compile("(\w[\w-]*) +$") def option (sOpt): "return True if option sOpt is active" return _dOptions.get(sOpt, False) def displayInfo (dDA, tWord): "for debugging: retrieve info of word" if not tWord: echo("> nothing to find") return True ~~~~if tWord[1] not in _dAnalyses and not _store~~MorphFr~~omFSA~~(tWord[1]):~~ ~~echo("> not in ~~FSA~~")~~ return True if tWord[0] in dDA: echo("DA: " + str(dDA[tWord[0]])) ~~echo("FSA: " + str(~~_dAnalyses[tW~~or~~d[1]]~~))~~ return True ~~def _storeMorphFromFSA (sWord):~~ ~~"retrieves morphologies list from _oSpellChecker -> _dAnalyses"~~ ~~global _dAnalyses~~ ~~_dAnalyses[sWord] = _oSpellChecker.getMorph(sWord)~~ ~~return True if _dAnalyses[sWord] else False~~ def morph (dDA, tWord, sPattern, bStrict=True, bNoWord=False): "analyse a tuple (position, word), return True if sPattern in morphologies (disambiguation on)" if not tWord: return bNoWord ~~~~if tWord[1] not in _dAnalyses and not _storeMorphFromFSA(tWord[1]):~~ ~~return False~~ lMorph = dDA[tWord[0]] if tWord[0] in dDA else _~~dAna~~l~~yses[~~tWord[1]]~~ if not lMorph: return False p = re.compile(sPattern) if bStrict: return all(p.search(s) for s in lMorph) return any(p.search(s) for s in lMorph) def morphex (dDA, tWord, sPattern, sNegPattern, bNoWord=False): "analyse a tuple (position, word), returns True if not sNegPattern in word morphologies and sPattern in word morphologies (disambiguation on)" if not tWord: return bNoWord ~~if tWord[~~1] not~~ in ~~_dAnaly~~se~~s and not~~ _~~store~~Morph~~FromFSA~~(tWord[1]):~~ return False ~~lMorph = dDA[tWord[0]] if tWord[0] in dDA else _dAnalyses[tWord[1]]~~ # check negative condition np = re.compile(sNegPattern) if any(np.search(s) for s in lMorph): return False # search sPattern p = re.compile(sPattern) return any(p.search(s) for s in lMorph) def analyse (sWord, sPattern, bStrict=True): "analyse a word, return True if sPattern in morphologies (disambiguation off)" ~~~~if sWord not in _dAnalyses and not _store~~MorphFr~~omFSA~~(sWord): ~~return False~~ if not ~~_dAnalyses[sW~~ord]:~~ return False p = re.compile(sPattern) if bStrict: ~~return all(p.search(s) for s in ~~_dAnalyses[sW~~ord]) return any(p.search(s) for s in ~~_dAnalyses[sW~~ord])~~ def analysex (sWord, sPattern, sNegPattern): "analyse a word, returns True if not sNegPattern in word morphologies and sPattern in word morphologies (disambiguation off)" ~~~~if sWord not in _dAnalyses and not _store~~MorphFr~~omFSA~~(sWord):~~ return False # check negative condition np = re.compile(sNegPattern) ~~if any(np.search(s) for s in ~~_dAnalyses[sW~~ord]):~~ return False # search sPattern p = re.compile(sPattern) ~~return any(p.search(s) for s in ~~_dAnalyses[sW~~ord])~~ ~~def stem (sWord):~~ ~~"returns a list of sWord's stems"~~ ~~if not sWord:~~ ~~return []~~ ~~if sWord not in _dAnalyses and not _storeMorphFromFSA(sWord):~~ ~~return []~~ ~~return [ s[1:s.find(" ")] for s in _dAnalyses[sWord] ]~~ ## functions to get text outside pattern scope # warning: check compile_rules.py to understand how it works def nextword (s, iStart, n):	\| \| \| \| \| \| > \| \| < < < < < < < < < \| \| > < \| < \| \| \| \| > \| \| < < < < < < < <	466 467 468 469 470 471 472 473 474 475 476 477 478 479 480 481 482 483 484 485 486 487 488 489 490 491 492 493 494 495 496 497 498 499 500 501 502 503 504 505 506 507 508 509 510 511 512 513 514 515 516 517 518 519 520 521 522 523 524 525 526 527 528 529 530 531 532 533 534 535 536 537 538 539 540 541 542 543 544 545 546 547 548 549 550 551 552 553 554 555 556 557 558 559	return os.path.join(os.path.dirname(sys.modules[__name__].__file__), __name__ + ".py") #### common functions # common regexes _zEndOfSentence = re.compile(r'([.?!:;…][ .?!… »”")]\|.$)') _zBeginOfParagraph = re.compile(r"^\W") _zEndOfParagraph = re.compile(r"\W$") _zNextWord = re.compile(r" +(\w[\w-])") _zPrevWord = re.compile(r"(\w[\w-]*) +$") def option (sOpt): "return True if option sOpt is active" return _dOptions.get(sOpt, False) def displayInfo (dDA, tWord): "for debugging: retrieve info of word" if not tWord: echo("> nothing to find") return True lMorph = _oSpellChecker.getMorph(tWord[1]) if not lMorph: echo("> not in dictionary") return True if tWord[0] in dDA: echo("DA: " + str(dDA[tWord[0]])) echo("FSA: " + str(lMorph)) return True def morph (dDA, tWord, sPattern, bStrict=True, bNoWord=False): "analyse a tuple (position, word), return True if sPattern in morphologies (disambiguation on)" if not tWord: return bNoWord lMorph = dDA[tWord[0]] if tWord[0] in dDA else _oSpellChecker.getMorph(tWord[1]) if not lMorph: return False p = re.compile(sPattern) if bStrict: return all(p.search(s) for s in lMorph) return any(p.search(s) for s in lMorph) def morphex (dDA, tWord, sPattern, sNegPattern, bNoWord=False): "analyse a tuple (position, word), returns True if not sNegPattern in word morphologies and sPattern in word morphologies (disambiguation on)" if not tWord: return bNoWord lMorph = dDA[tWord[0]] if tWord[0] in dDA else _oSpellChecker.getMorph(tWord[1]) if not lMorph: return False # check negative condition np = re.compile(sNegPattern) if any(np.search(s) for s in lMorph): return False # search sPattern p = re.compile(sPattern) return any(p.search(s) for s in lMorph) def analyse (sWord, sPattern, bStrict=True): "analyse a word, return True if sPattern in morphologies (disambiguation off)" lMorph = _oSpellChecker.getMorph(sWord) if not lMorph: return False p = re.compile(sPattern) if bStrict: return all(p.search(s) for s in lMorph) return any(p.search(s) for s in lMorph) def analysex (sWord, sPattern, sNegPattern): "analyse a word, returns True if not sNegPattern in word morphologies and sPattern in word morphologies (disambiguation off)" lMorph = _oSpellChecker.getMorph(sWord) if not lMorph: return False # check negative condition np = re.compile(sNegPattern) if any(np.search(s) for s in lMorph): return False # search sPattern p = re.compile(sPattern) return any(p.search(s) for s in lMorph) ## functions to get text outside pattern scope # warning: check compile_rules.py to understand how it works def nextword (s, iStart, n):
︙			︙
532 533 534 535 536 537 538 ~~539 540 541~~ 542 ~~543~~ 544 ~~545~~ 546 ~~547~~ 548 549 ~~550~~ 551 552 553 554 555 556 557 558 ~~559 560 561~~ 562 ~~563~~ 564 ~~565~~ 566 ~~567~~ 568 569 ~~570~~ 571 572 573 574 575 ~~576~~ 577 578 579 580 581 582 583 584 585	#### Disambiguator def select (dDA, nPos, sWord, sPattern, lDefault=None): if not sWord: return True if nPos in dDA: return True ~~~~if sWord not in _dAnalyses and not _store~~MorphFr~~omFSA~~(sWord): ~~return True~~ if len(~~_dAnalyses[sW~~ord]) == 1:~~ return True ~~lSelect = [ sMorph for sMorph in ~~_dAnalyses[sW~~ord] if re.search(sPattern, sMorph) ]~~ if lSelect: ~~if len(lSelect) != len(~~_dAnalyses[sW~~ord]):~~ dDA[nPos] = lSelect ~~#echo("= "+sWord+" "+str(dDA.get(nPos, "null")))~~ elif lDefault: dDA[nPos] = lDefault ~~#echo("= "+sWord+" "+str(dDA.get(nPos, "null")))~~ return True def exclude (dDA, nPos, sWord, sPattern, lDefault=None): if not sWord: return True if nPos in dDA: return True ~~~~if sWord not in _dAnalyses and not _store~~MorphFr~~omFSA~~(sWord): ~~return True~~ if len(~~_dAnalyses[sW~~ord]) == 1:~~ return True ~~lSelect = [ sMorph for sMorph in ~~_dAnalyses[sW~~ord] if not re.search(sPattern, sMorph) ]~~ if lSelect: ~~if len(lSelect) != len(~~_dAnalyses[sW~~ord]):~~ dDA[nPos] = lSelect ~~#echo("= "+sWord+" "+str(dDA.get(nPos, "null")))~~ elif lDefault: dDA[nPos] = lDefault ~~#echo("= "+sWord+" "+str(dDA.get(nPos, "null")))~~ return True def define (dDA, nPos, lMorph): dDA[nPos] = lMorph ~~#echo("= "+str(nPos)+" "+str(dDA[nPos]))~~ return True #### GRAMMAR CHECKER PLUGINS ${plugins} ${callables}	\| < \| \| \| < < \| < \| \| \| < < < > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > >	615 616 617 618 619 620 621 622 623 624 625 626 627 628 629 630 631 632 633 634 635 636 637 638 639 640 641 642 643 644 645 646 647 648 649 650 651 652 653 654 655 656 657 658 659 660 661 662 663 664 665 666 667 668 669 670 671 672 673 674 675 676 677 678 679 680 681 682 683 684 685 686 687 688 689 690 691 692 693 694 695 696 697 698 699 700 701 702 703 704 705 706 707 708 709 710 711 712 713 714 715 716 717 718 719 720 721 722 723 724 725 726 727 728 729 730 731 732 733 734 735 736 737 738 739 740 741 742 743 744 745 746 747 748 749 750 751 752 753 754 755 756 757 758 759 760 761 762 763 764 765 766 767 768 769 770 771 772 773 774 775 776 777 778 779 780 781 782 783 784 785 786 787 788 789 790 791 792 793 794 795 796 797 798 799 800 801 802 803 804 805 806 807 808 809 810 811 812 813 814 815 816 817 818 819 820 821 822 823 824 825 826 827 828 829 830 831 832 833 834 835 836 837 838 839 840 841 842 843 844 845 846 847 848 849 850 851 852 853 854 855 856 857 858 859 860 861 862 863 864 865 866 867 868 869 870 871 872 873 874 875 876 877 878 879 880 881 882 883 884 885 886 887 888 889 890 891 892 893 894 895 896 897 898 899 900 901 902 903 904 905 906 907 908 909 910 911 912 913 914 915 916 917 918	#### Disambiguator def select (dDA, nPos, sWord, sPattern, lDefault=None): if not sWord: return True if nPos in dDA: return True lMorph = _oSpellChecker.getMorph(sWord) if not lMorph or len(lMorph) == 1: return True lSelect = [ sMorph for sMorph in lMorph if re.search(sPattern, sMorph) ] if lSelect: if len(lSelect) != len(lMorph): dDA[nPos] = lSelect elif lDefault: dDA[nPos] = lDefault return True def exclude (dDA, nPos, sWord, sPattern, lDefault=None): if not sWord: return True if nPos in dDA: return True lMorph = _oSpellChecker.getMorph(sWord) if not lMorph or len(lMorph) == 1: return True lSelect = [ sMorph for sMorph in lMorph if not re.search(sPattern, sMorph) ] if lSelect: if len(lSelect) != len(lMorph): dDA[nPos] = lSelect elif lDefault: dDA[nPos] = lDefault return True def define (dDA, nPos, lMorph): dDA[nPos] = lMorph return True #### GRAMMAR CHECKER PLUGINS ${plugins} #### CALLABLES (generated code) ${callables} #### TOKEN SENTENCE CHECKER class TokenSentence: def __init__ (self, sSentence, sSentence0, iStart): self.sSentence = sSentence self.sSentence0 = sSentence0 self.iStart = iStart self.lToken = list(_oTokenizer.genTokens(sSentence, True)) def _getNextMatchingNodes (self, dToken, dNode): "generator: return nodes where <dToken> “values” match <dNode> arcs" # token value if dToken["sValue"] in dNode: #print("value found: ", dToken["sValue"]) yield dGraph[dNode[dToken["sValue"]]] # token lemmas if "<lemmas>" in dNode: for sLemma in _oSpellChecker.getLemma(dToken["sValue"]): if sLemma in dNode["<lemmas>"]: #print("lemma found: ", sLemma) yield dGraph[dNode["<lemmas>"][sLemma]] # universal arc if "" in dNode: #print("generic arc") yield dGraph[dNode[""]] # regex value arcs if "<re_value>" in dNode: for sRegex in dNode["<re_value>"]: if re.search(sRegex, dToken["sValue"]): #print("value regex matching: ", sRegex) yield dGraph[dNode["<re_value>"][sRegex]] # regex morph arcs if "<re_morph>" in dNode: for sRegex in dNode["<re_morph>"]: for sMorph in _oSpellChecker.getMorph(dToken["sValue"]): if re.search(sRegex, sMorph): #print("morph regex matching: ", sRegex) yield dGraph[dNode["<re_morph>"][sRegex]] def parse (self, dPriority, sCountry="${country_default}", dOptions=None, bShowRuleId=False, bDebug=False, bContext=False): dErr = {} dPriority = {} # Key = position; value = priority dOpt = _dOptions if not dOptions else dOptions lPointer = [] bChange = False for dToken in self.lToken: # check arcs for each existing pointer lNewPointer = [] for i, dPointer in enumerate(lPointer): bValid = False bFirst = True for dNode in self._getNextMatchingNodes(dToken, dPointer["dNode"]): if bFirst: dPointer["dNode"] = dNode else: lNewPointer.append({"nOffset": dPointer["nOffset"], "dNode": dNode}) bFirst = False bValid = True if not bValid: del lPointer[i] lPointer.extend(lNewPointer) # check arcs of first nodes for dNode in self._getNextMatchingNodes(dToken, dGraph[0]): lPointer.append({"nOffset": dToken["i"], "dNode": dNode}) # check if there is rules to check for each pointer for dPointer in lPointer: if "<rules>" in dPointer["dNode"]: bHasChanged, errs = self._executeActions(dPointer["dNode"]["<rules>"], dPointer["nOffset"]-1, dPriority, dOpt, bShowRuleId, bContext) dErr.update(errs) if bHasChanged: bChange = True if dErr: print(dErr) return (bChange, dErr) def _executeActions (self, dNode, nTokenOffset, dPriority, dOpt, bShowRuleId, bContext): #print(locals()) dErrs = {} bChange = False for sLineId, nextNodeKey in dNode.items(): for sRuleId in dGraph[nextNodeKey]: print(sRuleId) bCondMemo = None sFuncCond, cActionType, sWhat, *eAct = dRule[sRuleId] # action in lActions: [ condition, action type, replacement/suggestion/action[, iTokenStart, iTokenEnd[, nPriority, message, URL]] ] try: bCondMemo = not sFuncCond or globals()[sFuncCond](self, sCountry, bCondMemo) if bCondMemo: if cActionType == "-": # grammar error print("-") nTokenErrorStart = nTokenOffset + eAct[0] nTokenErrorEnd = nTokenOffset + eAct[1] nErrorStart = self.iStart + self.lToken[nTokenErrorStart]["nStart"] nErrorEnd = self.iStart + self.lToken[nTokenErrorEnd]["nEnd"] if nErrorStart not in dErrs or eAct[2] > dPriority[nErrorStart]: dErrs[nErrorStart] = _createTokenError(self.lToken, self.sSentence, self.sSentence0, sWhat, nTokenErrorStart, nErrorStart, nErrorEnd, sLineId, sRuleId, True, eAct[3], eAct[4], bShowRuleId, "notype", bContext) dPriority[nErrorStart] = eAct[2] elif cActionType == "~": # text processor print("~") self._rewrite(sWhat, nErrorStart, nErrorEnd) elif cActionType == "@": # jump print("@") self._jump(sWhat) elif cActionType == "=": # disambiguation print("=") globals()[sWhat](self.lToken) elif cActionType == ">": # we do nothing, this test is just a condition to apply all following actions print(">") pass else: print("# error: unknown action at " + sLineId) elif cActionType == ">": break except Exception as e: raise Exception(str(e), sLineId) return bChange, dErrs def _rewrite (self, sWhat, nErrorStart, nErrorEnd): "text processor: rewrite tokens between <nErrorStart> and <nErrorEnd> position" lTokenValue = sWhat.split("\|") if len(lTokenValue) != (nErrorEnd - nErrorStart + 1): print("Error. Text processor: number of replacements != number of tokens.") return for i, sValue in zip(range(nErrorStart, nErrorEnd+1), lTokenValue): self.lToken[i]["sValue"] = sValue def _jump (self, sWhat): try: nFrom, nTo = sWhat.split(">") self.lToken[int(nFrom)]["iJump"] = int(nTo) except: print("# Error. Jump failed: ", sWhat) traceback.print_exc() return #### Analyse tokens def g_morph (dToken, sPattern, bStrict=True): "analyse a token, return True if <sPattern> in morphologies" if "lMorph" in dToken: lMorph = dToken["lMorph"] else: lMorph = _oSpellChecker.getMorph(dToken["sValue"]) if not lMorph: return False zPattern = re.compile(sPattern) if bStrict: return all(zPattern.search(sMorph) for sMorph in lMorph) return any(zPattern.search(sMorph) for sMorph in lMorph) def g_morphex (dToken, sPattern, sNegPattern): "analyse a token, return True if <sNegPattern> not in morphologies and <sPattern> in morphologies" if "lMorph" in dToken: lMorph = dToken["lMorph"] else: lMorph = _oSpellChecker.getMorph(dToken["sValue"]) if not lMorph: return False # check negative condition zNegPattern = re.compile(sNegPattern) if any(zNegPattern.search(sMorph) for sMorph in lMorph): return False # search sPattern zPattern = re.compile(sPattern) return any(zPattern.search(sMorph) for sMorph in lMorph) def g_analyse (dToken, sPattern, bStrict=True): "analyse a token, return True if <sPattern> in morphologies (disambiguation off)" lMorph = _oSpellChecker.getMorph(dToken["sValue"]) if not lMorph: return False zPattern = re.compile(sPattern) if bStrict: return all(zPattern.search(sMorph) for sMorph in lMorph) return any(zPattern.search(sMorph) for sMorph in lMorph) def g_analysex (dToken, sPattern, sNegPattern): "analyse a token, return True if <sNegPattern> not in morphologies and <sPattern> in morphologies (disambiguation off)" lMorph = _oSpellChecker.getMorph(dToken["sValue"]) if not lMorph: return False # check negative condition zNegPattern = re.compile(sNegPattern) if any(zNegPattern.search(sMorph) for sMorph in lMorph): return False # search sPattern zPattern = re.compile(sPattern) return any(zPattern.search(sMorph) for sMorph in lMorph) #### Go outside the rule scope def g_nextToken (i): pass def g_prevToken (i): pass def g_look (): pass def g_lookAndCheck (): pass #### Disambiguator def g_select (dToken, sPattern, lDefault=None): "select morphologies for <dToken> according to <sPattern>, always return True" lMorph = dToken["lMorph"] if "lMorph" in dToken else _oSpellChecker.getMorph(dToken["sValue"]) if not lMorph or len(lMorph) == 1: return True lSelect = [ sMorph for sMorph in lMorph if re.search(sPattern, sMorph) ] if lSelect: if len(lSelect) != len(lMorph): dToken["lMorph"] = lSelect elif lDefault: dToken["lMorph"] = lDefault return True def g_exclude (dToken, sPattern, lDefault=None): "select morphologies for <dToken> according to <sPattern>, always return True" lMorph = dToken["lMorph"] if "lMorph" in dToken else _oSpellChecker.getMorph(dToken["sValue"]) if not lMorph or len(lMorph) == 1: return True lSelect = [ sMorph for sMorph in lMorph if not re.search(sPattern, sMorph) ] if lSelect: if len(lSelect) != len(lMorph): dToken["lMorph"] = lSelect elif lDefault: dToken["lMorph"] = lDefault return True def g_define (dToken, lMorph): "set morphologies of <dToken>, always return True" dToken["lMorph"] = lMorph return True #### CALLABLES (generated code) ${graph_callables}

︙			︙
8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29	var phonet = require("resource://grammalecte/fr/phonet.js"); } //// verbs function suggVerb (sFlex, sWho, funcSugg2=null) { ~~// we don’t check if word exists in _dAnalyses, for it is assumed it has been done before~~ let aSugg = new Set(); ~~for (let sStem of ~~stem~~(sFlex)) {~~ let tTags = conj._getTags(sStem); if (tTags) { // we get the tense let aTense = new Set(); ~~for (let sMorph of _~~dAna~~lyse~~s.gl_~~get(sFlex~~, []~~)) {~~ let m; let zVerb = new RegExp (">"+sStem+" .*?(:(?:Y\|I[pqsf]\|S[pq]\|K))", "g"); while ((m = zVerb.exec(sMorph)) !== null) { // stem must be used in regex to prevent confusion between different verbs (e.g. sauras has 2 stems: savoir and saurer) if (m) { if (m[1] === ":Y") { aTense.add(":Ip");	< \| \|	8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28	var phonet = require("resource://grammalecte/fr/phonet.js"); } //// verbs function suggVerb (sFlex, sWho, funcSugg2=null) { let aSugg = new Set(); for (let sStem of _oSpellChecker.getLemma(sFlex)) { let tTags = conj._getTags(sStem); if (tTags) { // we get the tense let aTense = new Set(); for (let sMorph of _oSpellChecker.getMorph(sFlex)) { let m; let zVerb = new RegExp (">"+sStem+" .*?(:(?:Y\|I[pqsf]\|S[pq]\|K))", "g"); while ((m = zVerb.exec(sMorph)) !== null) { // stem must be used in regex to prevent confusion between different verbs (e.g. sauras has 2 stems: savoir and saurer) if (m) { if (m[1] === ":Y") { aTense.add(":Ip");
︙			︙
57 58 59 60 61 62 63 64 65 66 67 68 69 70 71	return Array.from(aSugg).join("\|"); } return ""; } function suggVerbPpas (sFlex, sWhat=null) { let aSugg = new Set(); ~~for (let sStem of ~~stem~~(sFlex)) {~~ let tTags = conj._getTags(sStem); if (tTags) { if (!sWhat) { aSugg.add(conj._getConjWithTags(sStem, tTags, ":PQ", ":Q1")); aSugg.add(conj._getConjWithTags(sStem, tTags, ":PQ", ":Q2")); aSugg.add(conj._getConjWithTags(sStem, tTags, ":PQ", ":Q3")); aSugg.add(conj._getConjWithTags(sStem, tTags, ":PQ", ":Q4"));	\|	56 57 58 59 60 61 62 63 64 65 66 67 68 69 70	return Array.from(aSugg).join("\|"); } return ""; } function suggVerbPpas (sFlex, sWhat=null) { let aSugg = new Set(); for (let sStem of _oSpellChecker.getLemma(sFlex)) { let tTags = conj._getTags(sStem); if (tTags) { if (!sWhat) { aSugg.add(conj._getConjWithTags(sStem, tTags, ":PQ", ":Q1")); aSugg.add(conj._getConjWithTags(sStem, tTags, ":PQ", ":Q2")); aSugg.add(conj._getConjWithTags(sStem, tTags, ":PQ", ":Q3")); aSugg.add(conj._getConjWithTags(sStem, tTags, ":PQ", ":Q4"));
︙			︙
107 108 109 110 111 112 113 ~~114~~ 115 116 117 118 119 120 121 122 123 124 125 126 ~~127~~ 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 ~~148~~ 149 150 151 152 153 154 155	return Array.from(aSugg).join("\|"); } return ""; } function suggVerbTense (sFlex, sTense, sWho) { let aSugg = new Set(); ~~for (let sStem of ~~stem~~(sFlex)) {~~ if (conj.hasConj(sStem, sTense, sWho)) { aSugg.add(conj.getConj(sStem, sTense, sWho)); } } if (aSugg.size > 0) { return Array.from(aSugg).join("\|"); } return ""; } function suggVerbImpe (sFlex) { let aSugg = new Set(); ~~for (let sStem of ~~stem~~(sFlex)) {~~ let tTags = conj._getTags(sStem); if (tTags) { if (conj._hasConjWithTags(tTags, ":E", ":2s")) { aSugg.add(conj._getConjWithTags(sStem, tTags, ":E", ":2s")); } if (conj._hasConjWithTags(tTags, ":E", ":1p")) { aSugg.add(conj._getConjWithTags(sStem, tTags, ":E", ":1p")); } if (conj._hasConjWithTags(tTags, ":E", ":2p")) { aSugg.add(conj._getConjWithTags(sStem, tTags, ":E", ":2p")); } } } if (aSugg.size > 0) { return Array.from(aSugg).join("\|"); } return ""; } function suggVerbInfi (sFlex) { ~~return ~~stem~~(sFlex).filter(sStem => conj.isVerb(sStem)).join("\|");~~ } const _dQuiEst = new Map ([ ["je", ":1s"], ["j’", ":1s"], ["j’en", ":1s"], ["j’y", ":1s"], ["tu", ":2s"], ["il", ":3s"], ["on", ":3s"], ["elle", ":3s"], ["nous", ":1p"], ["vous", ":2p"], ["ils", ":3p"], ["elles", ":3p"]	\| \| \|	106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154	return Array.from(aSugg).join("\|"); } return ""; } function suggVerbTense (sFlex, sTense, sWho) { let aSugg = new Set(); for (let sStem of _oSpellChecker.getLemma(sFlex)) { if (conj.hasConj(sStem, sTense, sWho)) { aSugg.add(conj.getConj(sStem, sTense, sWho)); } } if (aSugg.size > 0) { return Array.from(aSugg).join("\|"); } return ""; } function suggVerbImpe (sFlex) { let aSugg = new Set(); for (let sStem of _oSpellChecker.getLemma(sFlex)) { let tTags = conj._getTags(sStem); if (tTags) { if (conj._hasConjWithTags(tTags, ":E", ":2s")) { aSugg.add(conj._getConjWithTags(sStem, tTags, ":E", ":2s")); } if (conj._hasConjWithTags(tTags, ":E", ":1p")) { aSugg.add(conj._getConjWithTags(sStem, tTags, ":E", ":1p")); } if (conj._hasConjWithTags(tTags, ":E", ":2p")) { aSugg.add(conj._getConjWithTags(sStem, tTags, ":E", ":2p")); } } } if (aSugg.size > 0) { return Array.from(aSugg).join("\|"); } return ""; } function suggVerbInfi (sFlex) { return _oSpellChecker.getLemma(sFlex).filter(sStem => conj.isVerb(sStem)).join("\|"); } const _dQuiEst = new Map ([ ["je", ":1s"], ["j’", ":1s"], ["j’en", ":1s"], ["j’y", ":1s"], ["tu", ":2s"], ["il", ":3s"], ["on", ":3s"], ["elle", ":3s"], ["nous", ":1p"], ["vous", ":2p"], ["ils", ":3p"], ["elles", ":3p"]
︙			︙
172 173 174 175 176 177 178 ~~179~~ 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 ~~200~~ 201 202 ~~203~~ 204 205 206 207 208 209 210	if (!sWho) { if (sSuj[0].gl_isLowerCase()) { // pas un pronom, ni un nom propre return ""; } sWho = ":3s"; } let aSugg = new Set(); ~~for (let sStem of ~~stem~~(sFlex)) {~~ let tTags = conj._getTags(sStem); if (tTags) { for (let sTense of lMode) { if (conj._hasConjWithTags(tTags, sTense, sWho)) { aSugg.add(conj._getConjWithTags(sStem, tTags, sTense, sWho)); } } } } if (aSugg.size > 0) { return Array.from(aSugg).join("\|"); } return ""; } //// Nouns and adjectives function suggPlur (sFlex, sWordToAgree=null) { // returns plural forms assuming sFlex is singular if (sWordToAgree) { ~~if (!_~~dAna~~lyse~~s.has~~(sWordToAgree) ~~&& !_storeMorphFromFSA(sWordToAgree)) {~~~~ return ""; } ~~let sGender = cregex.getGender(~~_dAnalyses.gl_get(sW~~or~~dToAgree, [])~~);~~ if (sGender == ":m") { return suggMasPlur(sFlex); } else if (sGender == ":f") { return suggFemPlur(sFlex); } } let aSugg = new Set();	\| \| > \|	171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210	if (!sWho) { if (sSuj[0].gl_isLowerCase()) { // pas un pronom, ni un nom propre return ""; } sWho = ":3s"; } let aSugg = new Set(); for (let sStem of _oSpellChecker.getLemma(sFlex)) { let tTags = conj._getTags(sStem); if (tTags) { for (let sTense of lMode) { if (conj._hasConjWithTags(tTags, sTense, sWho)) { aSugg.add(conj._getConjWithTags(sStem, tTags, sTense, sWho)); } } } } if (aSugg.size > 0) { return Array.from(aSugg).join("\|"); } return ""; } //// Nouns and adjectives function suggPlur (sFlex, sWordToAgree=null) { // returns plural forms assuming sFlex is singular if (sWordToAgree) { let lMorph = _oSpellChecker.getMorph(sWordToAgree); if (lMorph.length === 0) { return ""; } let sGender = cregex.getGender(lMorph); if (sGender == ":m") { return suggMasPlur(sFlex); } else if (sGender == ":f") { return suggFemPlur(sFlex); } } let aSugg = new Set();
︙			︙
254 255 256 257 258 259 260 ~~261~~ 262 ~~263~~ 264 265 266 267 268 269 270	return Array.from(aSugg).join("\|"); } return ""; } function suggMasSing (sFlex, bSuggSimil=false) { // returns masculine singular forms ~~// we don’t check if word exists in _dAnalyses, for it is assumed it has been done before~~ let aSugg = new Set(); ~~for (let sMorph of _~~dAna~~lyse~~s.gl_~~get(sFlex~~, []~~)) {~~ if (!sMorph.includes(":V")) { // not a verb if (sMorph.includes(":m") \|\| sMorph.includes(":e")) { aSugg.add(suggSing(sFlex)); } else { let sStem = cregex.getLemmaOfMorph(sMorph); if (mfsp.isFemForm(sStem)) {	< \|	254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269	return Array.from(aSugg).join("\|"); } return ""; } function suggMasSing (sFlex, bSuggSimil=false) { // returns masculine singular forms let aSugg = new Set(); for (let sMorph of _oSpellChecker.getMorph(sFlex)) { if (!sMorph.includes(":V")) { // not a verb if (sMorph.includes(":m") \|\| sMorph.includes(":e")) { aSugg.add(suggSing(sFlex)); } else { let sStem = cregex.getLemmaOfMorph(sMorph); if (mfsp.isFemForm(sStem)) {
︙			︙
290 291 292 293 294 295 296 ~~297~~ 298 ~~299~~ 300 301 302 303 304 305 306	return Array.from(aSugg).join("\|"); } return ""; } function suggMasPlur (sFlex, bSuggSimil=false) { // returns masculine plural forms ~~// we don’t check if word exists in _dAnalyses, for it is assumed it has been done before~~ let aSugg = new Set(); ~~for (let sMorph of _~~dAna~~lyse~~s.gl_~~get(sFlex~~, []~~)) {~~ if (!sMorph.includes(":V")) { // not a verb if (sMorph.includes(":m") \|\| sMorph.includes(":e")) { aSugg.add(suggPlur(sFlex)); } else { let sStem = cregex.getLemmaOfMorph(sMorph); if (mfsp.isFemForm(sStem)) {	< \|	289 290 291 292 293 294 295 296 297 298 299 300 301 302 303 304	return Array.from(aSugg).join("\|"); } return ""; } function suggMasPlur (sFlex, bSuggSimil=false) { // returns masculine plural forms let aSugg = new Set(); for (let sMorph of _oSpellChecker.getMorph(sFlex)) { if (!sMorph.includes(":V")) { // not a verb if (sMorph.includes(":m") \|\| sMorph.includes(":e")) { aSugg.add(suggPlur(sFlex)); } else { let sStem = cregex.getLemmaOfMorph(sMorph); if (mfsp.isFemForm(sStem)) {
︙			︙
331 332 333 334 335 336 337 ~~338~~ 339 ~~340~~ 341 342 343 344 345 346 347	} return ""; } function suggFemSing (sFlex, bSuggSimil=false) { // returns feminine singular forms ~~// we don’t check if word exists in _dAnalyses, for it is assumed it has been done before~~ let aSugg = new Set(); ~~for (let sMorph of _~~dAna~~lyse~~s.gl_~~get(sFlex~~, []~~)) {~~ if (!sMorph.includes(":V")) { // not a verb if (sMorph.includes(":f") \|\| sMorph.includes(":e")) { aSugg.add(suggSing(sFlex)); } else { let sStem = cregex.getLemmaOfMorph(sMorph); if (mfsp.isFemForm(sStem)) {	< \|	329 330 331 332 333 334 335 336 337 338 339 340 341 342 343 344	} return ""; } function suggFemSing (sFlex, bSuggSimil=false) { // returns feminine singular forms let aSugg = new Set(); for (let sMorph of _oSpellChecker.getMorph(sFlex)) { if (!sMorph.includes(":V")) { // not a verb if (sMorph.includes(":f") \|\| sMorph.includes(":e")) { aSugg.add(suggSing(sFlex)); } else { let sStem = cregex.getLemmaOfMorph(sMorph); if (mfsp.isFemForm(sStem)) {
︙			︙
365 366 367 368 369 370 371 ~~372~~ 373 ~~374~~ 375 376 377 378 379 380 381	return Array.from(aSugg).join("\|"); } return ""; } function suggFemPlur (sFlex, bSuggSimil=false) { // returns feminine plural forms ~~// we don’t check if word exists in _dAnalyses, for it is assumed it has been done before~~ let aSugg = new Set(); ~~for (let sMorph of _~~dAna~~lyse~~s.gl_~~get(sFlex~~, []~~)) {~~ if (!sMorph.includes(":V")) { // not a verb if (sMorph.includes(":f") \|\| sMorph.includes(":e")) { aSugg.add(suggPlur(sFlex)); } else { let sStem = cregex.getLemmaOfMorph(sMorph); if (mfsp.isFemForm(sStem)) {	< \|	362 363 364 365 366 367 368 369 370 371 372 373 374 375 376 377	return Array.from(aSugg).join("\|"); } return ""; } function suggFemPlur (sFlex, bSuggSimil=false) { // returns feminine plural forms let aSugg = new Set(); for (let sMorph of _oSpellChecker.getMorph(sFlex)) { if (!sMorph.includes(":V")) { // not a verb if (sMorph.includes(":f") \|\| sMorph.includes(":e")) { aSugg.add(suggPlur(sFlex)); } else { let sStem = cregex.getLemmaOfMorph(sMorph); if (mfsp.isFemForm(sStem)) {
︙			︙
398 399 400 401 402 403 404 ~~405~~ 406 407 408 409 410 411 412 413 414 415 416 ~~417~~ 418 419 420 421 422 423 424 425 426 427 428 429 ~~430~~ 431 432 ~~433~~ 434 435 436 437 438 439 440 441 442 443 444 445 446 447 448 449 450 451 ~~452~~ 453 454 455 456 457 458 459 ~~460~~ 461 462 463 464 465 466 467 468 469 470 471 472 473 474 475 ~~476~~ 477 478 479 480 481 482 483 484 485 486 487 488 489 490 491 492 493 494 495 ~~496~~ 497 498 499 500 501 502 503	if (aSugg.size > 0) { return Array.from(aSugg).join("\|"); } return ""; } function hasFemForm (sFlex) { ~~for (let sStem of ~~stem~~(sFlex)) {~~ if (mfsp.isFemForm(sStem) \|\| conj.hasConj(sStem, ":PQ", ":Q3")) { return true; } } if (phonet.hasSimil(sFlex, ":f")) { return true; } return false; } function hasMasForm (sFlex) { ~~for (let sStem of ~~stem~~(sFlex)) {~~ if (mfsp.isFemForm(sStem) \|\| conj.hasConj(sStem, ":PQ", ":Q1")) { // what has a feminine form also has a masculine form return true; } } if (phonet.hasSimil(sFlex, ":m")) { return true; } return false; } function switchGender (sFlex, bPlur=null) { ~~// we don’t check if word exists in _dAnalyses, for it is assumed it has been done before~~ let aSugg = new Set(); if (bPlur === null) { ~~for (let sMorph of _~~dAna~~lyse~~s.gl_~~get(sFlex~~, []~~)) {~~ if (sMorph.includes(":f")) { if (sMorph.includes(":s")) { aSugg.add(suggMasSing(sFlex)); } else if (sMorph.includes(":p")) { aSugg.add(suggMasPlur(sFlex)); } } else if (sMorph.includes(":m")) { if (sMorph.includes(":s")) { aSugg.add(suggFemSing(sFlex)); } else if (sMorph.includes(":p")) { aSugg.add(suggFemPlur(sFlex)); } else { aSugg.add(suggFemSing(sFlex)); aSugg.add(suggFemPlur(sFlex)); } } } } else if (bPlur) { ~~for (let sMorph of _~~dAna~~lyse~~s.gl_~~get(sFlex~~, []~~)) {~~ if (sMorph.includes(":f")) { aSugg.add(suggMasPlur(sFlex)); } else if (sMorph.includes(":m")) { aSugg.add(suggFemPlur(sFlex)); } } } else { ~~for (let sMorph of _~~dAna~~lyse~~s.gl_~~get(sFlex~~, []~~)) {~~ if (sMorph.includes(":f")) { aSugg.add(suggMasSing(sFlex)); } else if (sMorph.includes(":m")) { aSugg.add(suggFemSing(sFlex)); } } } if (aSugg.size > 0) { return Array.from(aSugg).join("\|"); } return ""; } function switchPlural (sFlex) { let aSugg = new Set(); ~~for (let sMorph of _~~dAna~~lyse~~s.gl_~~get(sFlex~~, [])) { // we don’t check if word exists in _dAnalyses, for it is assumed it has been done before~~~~ if (sMorph.includes(":s")) { aSugg.add(suggPlur(sFlex)); } else if (sMorph.includes(":p")) { aSugg.add(suggSing(sFlex)); } } if (aSugg.size > 0) { return Array.from(aSugg).join("\|"); } return ""; } function hasSimil (sWord, sPattern=null) { return phonet.hasSimil(sWord, sPattern); } function suggSimil (sWord, sPattern=null, bSubst=false) { // return list of words phonetically similar to sWord and whom POS is matching sPattern let aSugg = phonet.selectSimil(sWord, sPattern); ~~for (let sMorph of _~~dAna~~lyse~~s.gl_~~get(sWord~~, []~~)) {~~ for (let e of conj.getSimil(sWord, sMorph, bSubst)) { aSugg.add(e); } } if (aSugg.size > 0) { return Array.from(aSugg).join("\|"); }	\| \| < \| \| \| \| \|	394 395 396 397 398 399 400 401 402 403 404 405 406 407 408 409 410 411 412 413 414 415 416 417 418 419 420 421 422 423 424 425 426 427 428 429 430 431 432 433 434 435 436 437 438 439 440 441 442 443 444 445 446 447 448 449 450 451 452 453 454 455 456 457 458 459 460 461 462 463 464 465 466 467 468 469 470 471 472 473 474 475 476 477 478 479 480 481 482 483 484 485 486 487 488 489 490 491 492 493 494 495 496 497 498	if (aSugg.size > 0) { return Array.from(aSugg).join("\|"); } return ""; } function hasFemForm (sFlex) { for (let sStem of _oSpellChecker.getLemma(sFlex)) { if (mfsp.isFemForm(sStem) \|\| conj.hasConj(sStem, ":PQ", ":Q3")) { return true; } } if (phonet.hasSimil(sFlex, ":f")) { return true; } return false; } function hasMasForm (sFlex) { for (let sStem of _oSpellChecker.getLemma(sFlex)) { if (mfsp.isFemForm(sStem) \|\| conj.hasConj(sStem, ":PQ", ":Q1")) { // what has a feminine form also has a masculine form return true; } } if (phonet.hasSimil(sFlex, ":m")) { return true; } return false; } function switchGender (sFlex, bPlur=null) { let aSugg = new Set(); if (bPlur === null) { for (let sMorph of _oSpellChecker.getMorph(sFlex)) { if (sMorph.includes(":f")) { if (sMorph.includes(":s")) { aSugg.add(suggMasSing(sFlex)); } else if (sMorph.includes(":p")) { aSugg.add(suggMasPlur(sFlex)); } } else if (sMorph.includes(":m")) { if (sMorph.includes(":s")) { aSugg.add(suggFemSing(sFlex)); } else if (sMorph.includes(":p")) { aSugg.add(suggFemPlur(sFlex)); } else { aSugg.add(suggFemSing(sFlex)); aSugg.add(suggFemPlur(sFlex)); } } } } else if (bPlur) { for (let sMorph of _oSpellChecker.getMorph(sFlex)) { if (sMorph.includes(":f")) { aSugg.add(suggMasPlur(sFlex)); } else if (sMorph.includes(":m")) { aSugg.add(suggFemPlur(sFlex)); } } } else { for (let sMorph of _oSpellChecker.getMorph(sFlex)) { if (sMorph.includes(":f")) { aSugg.add(suggMasSing(sFlex)); } else if (sMorph.includes(":m")) { aSugg.add(suggFemSing(sFlex)); } } } if (aSugg.size > 0) { return Array.from(aSugg).join("\|"); } return ""; } function switchPlural (sFlex) { let aSugg = new Set(); for (let sMorph of _oSpellChecker.getMorph(sFlex)) { if (sMorph.includes(":s")) { aSugg.add(suggPlur(sFlex)); } else if (sMorph.includes(":p")) { aSugg.add(suggSing(sFlex)); } } if (aSugg.size > 0) { return Array.from(aSugg).join("\|"); } return ""; } function hasSimil (sWord, sPattern=null) { return phonet.hasSimil(sWord, sPattern); } function suggSimil (sWord, sPattern=null, bSubst=false) { // return list of words phonetically similar to sWord and whom POS is matching sPattern let aSugg = phonet.selectSimil(sWord, sPattern); for (let sMorph of _oSpellChecker.getMorph(sWord)) { for (let e of conj.getSimil(sWord, sMorph, bSubst)) { aSugg.add(e); } } if (aSugg.size > 0) { return Array.from(aSugg).join("\|"); }
︙			︙
511 512 513 514 515 516 517 ~~518 519~~ 520 521 522 523 524 525 526	if (sWord[0] == "h" \|\| sWord[0] == "H") { return "ce\|cet"; } return "ce"; } function suggLesLa (sWord) { ~~~~// we don’t check if word exists in _dAnalyses, for it is assumed it has been done before~~ if (_~~dAna~~lyse~~s.gl_~~get(sWord~~, []~~).some(s => s.includes(":p"))) {~~ return "les\|la"; } return "la"; } function formatNumber (s) { let nLen = s.length;	< \|	506 507 508 509 510 511 512 513 514 515 516 517 518 519 520	if (sWord[0] == "h" \|\| sWord[0] == "H") { return "ce\|cet"; } return "ce"; } function suggLesLa (sWord) { if (_oSpellChecker.getMorph(sWord).some(s => s.includes(":p"))) { return "les\|la"; } return "la"; } function formatNumber (s) { let nLen = s.length;
︙			︙

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24	#### GRAMMAR CHECKING ENGINE PLUGIN: Suggestion mechanisms from . import conj from . import mfsp from . import phonet ## Verbs def suggVerb (sFlex, sWho, funcSugg2=None): aSugg = set() ~~for sStem in ~~stem~~(sFlex):~~ tTags = conj._getTags(sStem) if tTags: # we get the tense aTense = set() ~~for sMorph in _~~dAna~~l~~yses~~.get(sFlex~~, []): # we don’t check if word exists in _dAnalyses, for it is assumed it has been done before~~~~ for m in re.finditer(">"+sStem+" .*?(:(?:Y\|I[pqsf]\|S[pq]\|K\|P))", sMorph): # stem must be used in regex to prevent confusion between different verbs (e.g. sauras has 2 stems: savoir and saurer) if m: if m.group(1) == ":Y": aTense.add(":Ip") aTense.add(":Iq") aTense.add(":Is")	\| \|	1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24	#### GRAMMAR CHECKING ENGINE PLUGIN: Suggestion mechanisms from . import conj from . import mfsp from . import phonet ## Verbs def suggVerb (sFlex, sWho, funcSugg2=None): aSugg = set() for sStem in _oSpellChecker.getLemma(sFlex): tTags = conj._getTags(sStem) if tTags: # we get the tense aTense = set() for sMorph in _oSpellChecker.getMorph(sFlex): for m in re.finditer(">"+sStem+" .*?(:(?:Y\|I[pqsf]\|S[pq]\|K\|P))", sMorph): # stem must be used in regex to prevent confusion between different verbs (e.g. sauras has 2 stems: savoir and saurer) if m: if m.group(1) == ":Y": aTense.add(":Ip") aTense.add(":Iq") aTense.add(":Is")
︙			︙
38 39 40 41 42 43 44 45 46 47 48 49 50 51 52	if aSugg: return "\|".join(aSugg) return "" def suggVerbPpas (sFlex, sWhat=None): aSugg = set() ~~for sStem in ~~stem~~(sFlex):~~ tTags = conj._getTags(sStem) if tTags: if not sWhat: aSugg.add(conj._getConjWithTags(sStem, tTags, ":PQ", ":Q1")) aSugg.add(conj._getConjWithTags(sStem, tTags, ":PQ", ":Q2")) aSugg.add(conj._getConjWithTags(sStem, tTags, ":PQ", ":Q3")) aSugg.add(conj._getConjWithTags(sStem, tTags, ":PQ", ":Q4"))	\|	38 39 40 41 42 43 44 45 46 47 48 49 50 51 52	if aSugg: return "\|".join(aSugg) return "" def suggVerbPpas (sFlex, sWhat=None): aSugg = set() for sStem in _oSpellChecker.getLemma(sFlex): tTags = conj._getTags(sStem) if tTags: if not sWhat: aSugg.add(conj._getConjWithTags(sStem, tTags, ":PQ", ":Q1")) aSugg.add(conj._getConjWithTags(sStem, tTags, ":PQ", ":Q2")) aSugg.add(conj._getConjWithTags(sStem, tTags, ":PQ", ":Q3")) aSugg.add(conj._getConjWithTags(sStem, tTags, ":PQ", ":Q4"))
︙			︙
81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 ~~113~~ 114 115 116 117 118 119 120	if aSugg: return "\|".join(aSugg) return "" def suggVerbTense (sFlex, sTense, sWho): aSugg = set() ~~for sStem in ~~stem~~(sFlex):~~ if conj.hasConj(sStem, sTense, sWho): aSugg.add(conj.getConj(sStem, sTense, sWho)) if aSugg: return "\|".join(aSugg) return "" def suggVerbImpe (sFlex): aSugg = set() ~~for sStem in ~~stem~~(sFlex):~~ tTags = conj._getTags(sStem) if tTags: if conj._hasConjWithTags(tTags, ":E", ":2s"): aSugg.add(conj._getConjWithTags(sStem, tTags, ":E", ":2s")) if conj._hasConjWithTags(tTags, ":E", ":1p"): aSugg.add(conj._getConjWithTags(sStem, tTags, ":E", ":1p")) if conj._hasConjWithTags(tTags, ":E", ":2p"): aSugg.add(conj._getConjWithTags(sStem, tTags, ":E", ":2p")) if aSugg: return "\|".join(aSugg) return "" def suggVerbInfi (sFlex): ~~return "\|".join([ sStem for sStem in ~~stem~~(sFlex) if conj.isVerb(sStem) ])~~ _dQuiEst = { "je": ":1s", "j’": ":1s", "j’en": ":1s", "j’y": ":1s", \ "tu": ":2s", "il": ":3s", "on": ":3s", "elle": ":3s", "nous": ":1p", "vous": ":2p", "ils": ":3p", "elles": ":3p" } _lIndicatif = [":Ip", ":Iq", ":Is", ":If"] _lSubjonctif = [":Sp", ":Sq"]	\| \| \|	81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120	if aSugg: return "\|".join(aSugg) return "" def suggVerbTense (sFlex, sTense, sWho): aSugg = set() for sStem in _oSpellChecker.getLemma(sFlex): if conj.hasConj(sStem, sTense, sWho): aSugg.add(conj.getConj(sStem, sTense, sWho)) if aSugg: return "\|".join(aSugg) return "" def suggVerbImpe (sFlex): aSugg = set() for sStem in _oSpellChecker.getLemma(sFlex): tTags = conj._getTags(sStem) if tTags: if conj._hasConjWithTags(tTags, ":E", ":2s"): aSugg.add(conj._getConjWithTags(sStem, tTags, ":E", ":2s")) if conj._hasConjWithTags(tTags, ":E", ":1p"): aSugg.add(conj._getConjWithTags(sStem, tTags, ":E", ":1p")) if conj._hasConjWithTags(tTags, ":E", ":2p"): aSugg.add(conj._getConjWithTags(sStem, tTags, ":E", ":2p")) if aSugg: return "\|".join(aSugg) return "" def suggVerbInfi (sFlex): return "\|".join([ sStem for sStem in _oSpellChecker.getLemma(sFlex) if conj.isVerb(sStem) ]) _dQuiEst = { "je": ":1s", "j’": ":1s", "j’en": ":1s", "j’y": ":1s", \ "tu": ":2s", "il": ":3s", "on": ":3s", "elle": ":3s", "nous": ":1p", "vous": ":2p", "ils": ":3p", "elles": ":3p" } _lIndicatif = [":Ip", ":Iq", ":Is", ":If"] _lSubjonctif = [":Sp", ":Sq"]
︙			︙
129 130 131 132 133 134 135 ~~136~~ 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 ~~152~~ 153 ~~154~~ 155 156 157 158 159 160 161	return "" sWho = _dQuiEst.get(sSuj.lower(), None) if not sWho: if sSuj[0:1].islower(): # pas un pronom, ni un nom propre return "" sWho = ":3s" aSugg = set() ~~for sStem in ~~stem~~(sFlex):~~ tTags = conj._getTags(sStem) if tTags: for sTense in lMode: if conj._hasConjWithTags(tTags, sTense, sWho): aSugg.add(conj._getConjWithTags(sStem, tTags, sTense, sWho)) if aSugg: return "\|".join(aSugg) return "" ## Nouns and adjectives def suggPlur (sFlex, sWordToAgree=None): "returns plural forms assuming sFlex is singular" if sWordToAgree: ~~if ~~sWordToAgree not in _dAnalyses and not _store~~Morph~~FromFSA(sWordToAgree)~~:~~ return "" ~~sGender = cr.getGender(~~_dAnalyses.get(sW~~or~~dToAgree, [])~~)~~ if sGender == ":m": return suggMasPlur(sFlex) elif sGender == ":f": return suggFemPlur(sFlex) aSugg = set() if "-" not in sFlex: if sFlex.endswith("l"):	\| > \| \|	129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162	return "" sWho = _dQuiEst.get(sSuj.lower(), None) if not sWho: if sSuj[0:1].islower(): # pas un pronom, ni un nom propre return "" sWho = ":3s" aSugg = set() for sStem in _oSpellChecker.getLemma(sFlex): tTags = conj._getTags(sStem) if tTags: for sTense in lMode: if conj._hasConjWithTags(tTags, sTense, sWho): aSugg.add(conj._getConjWithTags(sStem, tTags, sTense, sWho)) if aSugg: return "\|".join(aSugg) return "" ## Nouns and adjectives def suggPlur (sFlex, sWordToAgree=None): "returns plural forms assuming sFlex is singular" if sWordToAgree: lMorph = _oSpellChecker.getMorph(sFlex) if not lMorph: return "" sGender = cr.getGender(lMorph) if sGender == ":m": return suggMasPlur(sFlex) elif sGender == ":f": return suggFemPlur(sFlex) aSugg = set() if "-" not in sFlex: if sFlex.endswith("l"):
︙			︙
189 190 191 192 193 194 195 ~~196~~ 197 ~~198~~ 199 200 201 202 203 204 205	if aSugg: return "\|".join(aSugg) return "" def suggMasSing (sFlex, bSuggSimil=False): "returns masculine singular forms" ~~# we don’t check if word exists in _dAnalyses, for it is assumed it has been done before~~ aSugg = set() ~~for sMorph in _~~dAna~~l~~yses~~.get(sFlex~~, []~~):~~ if not ":V" in sMorph: # not a verb if ":m" in sMorph or ":e" in sMorph: aSugg.add(suggSing(sFlex)) else: sStem = cr.getLemmaOfMorph(sMorph) if mfsp.isFemForm(sStem):	< \|	190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205	if aSugg: return "\|".join(aSugg) return "" def suggMasSing (sFlex, bSuggSimil=False): "returns masculine singular forms" aSugg = set() for sMorph in _oSpellChecker.getMorph(sFlex): if not ":V" in sMorph: # not a verb if ":m" in sMorph or ":e" in sMorph: aSugg.add(suggSing(sFlex)) else: sStem = cr.getLemmaOfMorph(sMorph) if mfsp.isFemForm(sStem):
︙			︙
217 218 219 220 221 222 223 ~~224~~ 225 ~~226~~ 227 228 229 230 231 232 233	if aSugg: return "\|".join(aSugg) return "" def suggMasPlur (sFlex, bSuggSimil=False): "returns masculine plural forms" ~~# we don’t check if word exists in _dAnalyses, for it is assumed it has been done before~~ aSugg = set() ~~for sMorph in _~~dAna~~l~~yses~~.get(sFlex~~, []~~):~~ if not ":V" in sMorph: # not a verb if ":m" in sMorph or ":e" in sMorph: aSugg.add(suggPlur(sFlex)) else: sStem = cr.getLemmaOfMorph(sMorph) if mfsp.isFemForm(sStem):	< \|	217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232	if aSugg: return "\|".join(aSugg) return "" def suggMasPlur (sFlex, bSuggSimil=False): "returns masculine plural forms" aSugg = set() for sMorph in _oSpellChecker.getMorph(sFlex): if not ":V" in sMorph: # not a verb if ":m" in sMorph or ":e" in sMorph: aSugg.add(suggPlur(sFlex)) else: sStem = cr.getLemmaOfMorph(sMorph) if mfsp.isFemForm(sStem):
︙			︙
248 249 250 251 252 253 254 ~~255~~ 256 ~~257~~ 258 259 260 261 262 263 264	if aSugg: return "\|".join(aSugg) return "" def suggFemSing (sFlex, bSuggSimil=False): "returns feminine singular forms" ~~# we don’t check if word exists in _dAnalyses, for it is assumed it has been done before~~ aSugg = set() ~~for sMorph in _~~dAna~~l~~yses~~.get(sFlex~~, []~~):~~ if not ":V" in sMorph: # not a verb if ":f" in sMorph or ":e" in sMorph: aSugg.add(suggSing(sFlex)) else: sStem = cr.getLemmaOfMorph(sMorph) if mfsp.isFemForm(sStem):	< \|	247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262	if aSugg: return "\|".join(aSugg) return "" def suggFemSing (sFlex, bSuggSimil=False): "returns feminine singular forms" aSugg = set() for sMorph in _oSpellChecker.getMorph(sFlex): if not ":V" in sMorph: # not a verb if ":f" in sMorph or ":e" in sMorph: aSugg.add(suggSing(sFlex)) else: sStem = cr.getLemmaOfMorph(sMorph) if mfsp.isFemForm(sStem):
︙			︙
274 275 276 277 278 279 280 ~~281~~ 282 ~~283~~ 284 285 286 287 288 289 290	if aSugg: return "\|".join(aSugg) return "" def suggFemPlur (sFlex, bSuggSimil=False): "returns feminine plural forms" ~~# we don’t check if word exists in _dAnalyses, for it is assumed it has been done before~~ aSugg = set() ~~for sMorph in _~~dAna~~l~~yses~~.get(sFlex~~, []~~):~~ if not ":V" in sMorph: # not a verb if ":f" in sMorph or ":e" in sMorph: aSugg.add(suggPlur(sFlex)) else: sStem = cr.getLemmaOfMorph(sMorph) if mfsp.isFemForm(sStem):	< \|	272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287	if aSugg: return "\|".join(aSugg) return "" def suggFemPlur (sFlex, bSuggSimil=False): "returns feminine plural forms" aSugg = set() for sMorph in _oSpellChecker.getMorph(sFlex): if not ":V" in sMorph: # not a verb if ":f" in sMorph or ":e" in sMorph: aSugg.add(suggPlur(sFlex)) else: sStem = cr.getLemmaOfMorph(sMorph) if mfsp.isFemForm(sStem):
︙			︙
299 300 301 302 303 304 305 ~~306~~ 307 308 309 310 311 312 313 314 ~~315~~ 316 317 318 319 320 321 322 323 324 ~~325~~ 326 327 ~~328~~ 329 330 331 332 333 334 335 336 337 338 339 340 341 342 ~~343~~ 344 345 346 347 348 ~~349~~ 350 351 352 353 354 355 356 357 358 359 ~~360~~ 361 ~~362~~ 363 364 365 366 367 368 369 370 371 372 373 374 375 376 377 ~~378~~ 379 ~~380~~ 381 382 383 384 385 386 387 388 389 390 391 392 393 394 395 396 ~~397 398~~ 399 400 401 402 403 404 405	aSugg.add(e) if aSugg: return "\|".join(aSugg) return "" def hasFemForm (sFlex): ~~for sStem in ~~stem~~(sFlex):~~ if mfsp.isFemForm(sStem) or conj.hasConj(sStem, ":PQ", ":Q3"): return True if phonet.hasSimil(sFlex, ":f"): return True return False def hasMasForm (sFlex): ~~for sStem in ~~stem~~(sFlex):~~ if mfsp.isFemForm(sStem) or conj.hasConj(sStem, ":PQ", ":Q1"): # what has a feminine form also has a masculine form return True if phonet.hasSimil(sFlex, ":m"): return True return False def switchGender (sFlex, bPlur=None): ~~# we don’t check if word exists in _dAnalyses, for it is assumed it has been done before~~ aSugg = set() if bPlur == None: ~~for sMorph in _~~dAna~~l~~yses~~.get(sFlex~~, []~~):~~ if ":f" in sMorph: if ":s" in sMorph: aSugg.add(suggMasSing(sFlex)) elif ":p" in sMorph: aSugg.add(suggMasPlur(sFlex)) elif ":m" in sMorph: if ":s" in sMorph: aSugg.add(suggFemSing(sFlex)) elif ":p" in sMorph: aSugg.add(suggFemPlur(sFlex)) else: aSugg.add(suggFemSing(sFlex)) aSugg.add(suggFemPlur(sFlex)) elif bPlur: ~~for sMorph in _~~dAna~~l~~yses~~.get(sFlex~~, []~~):~~ if ":f" in sMorph: aSugg.add(suggMasPlur(sFlex)) elif ":m" in sMorph: aSugg.add(suggFemPlur(sFlex)) else: ~~for sMorph in _~~dAna~~l~~yses~~.get(sFlex~~, []~~):~~ if ":f" in sMorph: aSugg.add(suggMasSing(sFlex)) elif ":m" in sMorph: aSugg.add(suggFemSing(sFlex)) if aSugg: return "\|".join(aSugg) return "" def switchPlural (sFlex): ~~# we don’t check if word exists in _dAnalyses, for it is assumed it has been done before~~ aSugg = set() ~~for sMorph in _~~dAna~~l~~yses~~.get(sFlex~~, []~~):~~ if ":s" in sMorph: aSugg.add(suggPlur(sFlex)) elif ":p" in sMorph: aSugg.add(suggSing(sFlex)) if aSugg: return "\|".join(aSugg) return "" def hasSimil (sWord, sPattern=None): return phonet.hasSimil(sWord, sPattern) def suggSimil (sWord, sPattern=None, bSubst=False): "return list of words phonetically similar to sWord and whom POS is matching sPattern" ~~# we don’t check if word exists in _dAnalyses, for it is assumed it has been done before~~ aSugg = phonet.selectSimil(sWord, sPattern) ~~for sMorph in _~~dAna~~l~~yses~~.get(sWord~~, []~~):~~ aSugg.update(conj.getSimil(sWord, sMorph, bSubst)) break if aSugg: return "\|".join(aSugg) return "" def suggCeOrCet (sWord): if re.match("(?i)[aeéèêiouyâîï]", sWord): return "cet" if sWord[0:1] == "h" or sWord[0:1] == "H": return "ce\|cet" return "ce" def suggLesLa (sWord): ~~~~# we don’t check if word exists in _dAnalyses, for it is assumed it has been done before~~ if any( ":p" in sMorph for sMorph in _~~dAna~~l~~yses~~.get(sWord~~, []~~) ):~~ return "les\|la" return "la" _zBinary = re.compile("^[01]+$") def formatNumber (s):	\| \| < \| \| \| < \| < \| < \|	296 297 298 299 300 301 302 303 304 305 306 307 308 309 310 311 312 313 314 315 316 317 318 319 320 321 322 323 324 325 326 327 328 329 330 331 332 333 334 335 336 337 338 339 340 341 342 343 344 345 346 347 348 349 350 351 352 353 354 355 356 357 358 359 360 361 362 363 364 365 366 367 368 369 370 371 372 373 374 375 376 377 378 379 380 381 382 383 384 385 386 387 388 389 390 391 392 393 394 395 396 397 398	aSugg.add(e) if aSugg: return "\|".join(aSugg) return "" def hasFemForm (sFlex): for sStem in _oSpellChecker.getLemma(sFlex): if mfsp.isFemForm(sStem) or conj.hasConj(sStem, ":PQ", ":Q3"): return True if phonet.hasSimil(sFlex, ":f"): return True return False def hasMasForm (sFlex): for sStem in _oSpellChecker.getLemma(sFlex): if mfsp.isFemForm(sStem) or conj.hasConj(sStem, ":PQ", ":Q1"): # what has a feminine form also has a masculine form return True if phonet.hasSimil(sFlex, ":m"): return True return False def switchGender (sFlex, bPlur=None): aSugg = set() if bPlur == None: for sMorph in _oSpellChecker.getMorph(sFlex): if ":f" in sMorph: if ":s" in sMorph: aSugg.add(suggMasSing(sFlex)) elif ":p" in sMorph: aSugg.add(suggMasPlur(sFlex)) elif ":m" in sMorph: if ":s" in sMorph: aSugg.add(suggFemSing(sFlex)) elif ":p" in sMorph: aSugg.add(suggFemPlur(sFlex)) else: aSugg.add(suggFemSing(sFlex)) aSugg.add(suggFemPlur(sFlex)) elif bPlur: for sMorph in _oSpellChecker.getMorph(sFlex): if ":f" in sMorph: aSugg.add(suggMasPlur(sFlex)) elif ":m" in sMorph: aSugg.add(suggFemPlur(sFlex)) else: for sMorph in _oSpellChecker.getMorph(sFlex): if ":f" in sMorph: aSugg.add(suggMasSing(sFlex)) elif ":m" in sMorph: aSugg.add(suggFemSing(sFlex)) if aSugg: return "\|".join(aSugg) return "" def switchPlural (sFlex): aSugg = set() for sMorph in _oSpellChecker.getMorph(sFlex): if ":s" in sMorph: aSugg.add(suggPlur(sFlex)) elif ":p" in sMorph: aSugg.add(suggSing(sFlex)) if aSugg: return "\|".join(aSugg) return "" def hasSimil (sWord, sPattern=None): return phonet.hasSimil(sWord, sPattern) def suggSimil (sWord, sPattern=None, bSubst=False): "return list of words phonetically similar to sWord and whom POS is matching sPattern" aSugg = phonet.selectSimil(sWord, sPattern) for sMorph in _oSpellChecker.getMorph(sWord): aSugg.update(conj.getSimil(sWord, sMorph, bSubst)) break if aSugg: return "\|".join(aSugg) return "" def suggCeOrCet (sWord): if re.match("(?i)[aeéèêiouyâîï]", sWord): return "cet" if sWord[0:1] == "h" or sWord[0:1] == "H": return "ce\|cet" return "ce" def suggLesLa (sWord): if any( ":p" in sMorph for sMorph in _oSpellChecker.getMorph(sWord) ): return "les\|la" return "la" _zBinary = re.compile("^[01]+$") def formatNumber (s):
︙			︙

︙			︙
39 40 41 42 43 44 45 46 47 48 49 50 51 52	this.oExtendedDic = this._loadDictionary(extentedDic, sPath); this.oCommunityDic = this._loadDictionary(communityDic, sPath); this.oPersonalDic = this._loadDictionary(personalDic, sPath); this.bExtendedDic = Boolean(this.oExtendedDic); this.bCommunityDic = Boolean(this.oCommunityDic); this.bPersonalDic = Boolean(this.oPersonalDic); this.oTokenizer = null; } _loadDictionary (dictionary, sPath="", bNecessary=false) { // returns an IBDAWG object if (!dictionary) { return null; }	> > > >	39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56	this.oExtendedDic = this._loadDictionary(extentedDic, sPath); this.oCommunityDic = this._loadDictionary(communityDic, sPath); this.oPersonalDic = this._loadDictionary(personalDic, sPath); this.bExtendedDic = Boolean(this.oExtendedDic); this.bCommunityDic = Boolean(this.oCommunityDic); this.bPersonalDic = Boolean(this.oPersonalDic); this.oTokenizer = null; // storage this.bStorage = false; this._dMorphologies = new Map(); // key: flexion, value: list of morphologies this._dLemmas = new Map(); // key: flexion, value: list of lemmas } _loadDictionary (dictionary, sPath="", bNecessary=false) { // returns an IBDAWG object if (!dictionary) { return null; }
︙			︙
130 131 132 133 134 135 136 137 138 139 140 141 142 143	this.bCommunityDic = false; } deactivatePersonalDictionary () { this.bPersonalDic = false; } // parse text functions parseParagraph (sText) { if (!this.oTokenizer) { this.loadTokenizer(); }	> > > > > > > > > > > > > > > >	134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163	this.bCommunityDic = false; } deactivatePersonalDictionary () { this.bPersonalDic = false; } // Storage activateStorage () { this.bStorage = true; } deactivateStorage () { this.bStorage = false; } clearStorage () { this._dLemmas.clear(); this._dMorphologies.clear(); } // parse text functions parseParagraph (sText) { if (!this.oTokenizer) { this.loadTokenizer(); }
︙			︙
201 202 203 204 205 206 207 ~~208~~ 209 ~~210~~ 211 212 ~~213~~ 214 215 ~~216~~ 217 ~~218~~ 219 220 221 222 223 224 225	return true; } return false; } getMorph (sWord) { // retrieves morphologies list, different casing allowed ~~let l~~Result~~ = this.oMainDic.getMorph(sWord);~~ if (this.bExtendedDic) { ~~l~~Result~~.push(...this.oExtendedDic.getMorph(sWord));~~ } if (this.bCommunityDic) { ~~l~~Result~~.push(...this.oCommunityDic.getMorph(sWord));~~ } if (this.bPersonalDic) { ~~l~~Result~~.push(...this.oPersonalDic.getMorph(sWord));~~ } ~~return l~~Result~~;~~ } * suggest (sWord, nSuggLimit=10) { // generator: returns 1, 2 or 3 lists of suggestions yield this.oMainDic.suggest(sWord, nSuggLimit); if (this.bExtendedDic) { yield this.oExtendedDic.suggest(sWord, nSuggLimit);	> > > \| \| \| \| > > > > > \| > > > > > > > > > > >	221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264	return true; } return false; } getMorph (sWord) { // retrieves morphologies list, different casing allowed if (this.bStorage && this._dMorphologies.has(sWord)) { return this._dMorphologies.get(sWord); } let lMorph = this.oMainDic.getMorph(sWord); if (this.bExtendedDic) { lMorph.push(...this.oExtendedDic.getMorph(sWord)); } if (this.bCommunityDic) { lMorph.push(...this.oCommunityDic.getMorph(sWord)); } if (this.bPersonalDic) { lMorph.push(...this.oPersonalDic.getMorph(sWord)); } if (this.bStorage) { this._dMorphologies.set(sWord, lMorph); this._dLemmas.set(sWord, Array.from(new Set(this.getMorph(sWord).map((sMorph) => { return sMorph.slice(1, sMorph.indexOf(" ")); })))); //console.log(sWord, this._dLemmas.get(sWord)); } return lMorph; } getLemma (sWord) { // retrieves lemmas if (this.bStorage) { if (!this._dLemmas.has(sWord)) { this.getMorph(sWord); } return this._dLemmas.get(sWord); } return Array.from(new Set(this.getMorph(sWord).map((sMorph) => { return sMorph.slice(1, sMorph.indexOf(" ")); }))); } * suggest (sWord, nSuggLimit=10) { // generator: returns 1, 2 or 3 lists of suggestions yield this.oMainDic.suggest(sWord, nSuggLimit); if (this.bExtendedDic) { yield this.oExtendedDic.suggest(sWord, nSuggLimit);
︙			︙

︙			︙
14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44	const aTkzPatterns = { // All regexps must start with ^. "default": [ [/^[  \t]+/, 'SPACE'], [/^\/(?:~\|bin\|boot\|dev\|etc\|home\|lib\|mnt\|opt\|root\|sbin\|tmp\|usr\|var\|Bureau\|Documents\|Images\|Musique\|Public\|Téléchargements\|Vidéos)(?:\/[a-zA-Zà-öÀ-Ö0-9ø-ÿØ-ßĀ-ʯﬁ-ﬆ_.()-]+)/, 'FOLDERUNIX'], [/^[a-zA-Z]:\\(?:Program Files(?: \(x86\)\|)\|[a-zA-Zà-öÀ-Ö0-9ø-ÿØ-ßĀ-ʯﬁ-ﬆ.()]+)(?:\\[a-zA-Zà-öÀ-Ö0-9ø-ÿØ-ßĀ-ʯﬁ-ﬆ_.()-]+)/, 'FOLDERWIN'], ~~[/^[,.;:!?…«»“”‘’"(){}\[\]/·–—]+/, 'SEPARATOR'],~~ [/^[A-Z][.][A-Z][.](?:[A-Z][.])/, 'ACRONYM'], [/^(?:https?:\/\/\|www[.]\|[a-zA-Zà-öÀ-Ö0-9ø-ÿØ-ßĀ-ʯﬁ-ﬆ_-]+[@.][a-zA-Zà-öÀ-Ö0-9ø-ÿØ-ßĀ-ʯﬁ-ﬆ_-]{2,}[@.])[a-zA-Z0-9][a-zA-Zà-öÀ-Ö0-9ø-ÿØ-ßĀ-ʯﬁ-ﬆ_.\/?&!%=+"'@$#-]+/, 'LINK'], [/^[#@][a-zA-Zà-öÀ-Ö0-9ø-ÿØ-ßĀ-ʯﬁ-ﬆ_-]+/, 'TAG'], [/^<[a-zA-Zà-öÀ-Ö0-9ø-ÿØ-ßĀ-ʯﬁ-ﬆ]+.?>\|<\/[a-zA-Zà-öÀ-Ö0-9ø-ÿØ-ßĀ-ʯﬁ-ﬆ]+ >/, 'HTML'], [/^\[\/?[a-zA-Zà-öÀ-Ö0-9ø-ÿØ-ßĀ-ʯﬁ-ﬆ]+\]/, 'PSEUDOHTML'], [/^&\w+;(?:\w+;\|)/, 'HTMLENTITY'], [/^\d\d?h\d\d\b/, 'HOUR'], [/^-?\d+(?:[.,]\d+\|)/, 'NUM'], [/^[a-zA-Zà-öÀ-Ö0-9ø-ÿØ-ßĀ-ʯﬁ-ﬆ]+(?:[’'`-][a-zA-Zà-öÀ-Ö0-9ø-ÿØ-ßĀ-ʯﬁ-ﬆ]+)/, 'WORD'] ], "fr": [ [/^[  \t]+/, 'SPACE'], [/^\/(?:~\|bin\|boot\|dev\|etc\|home\|lib\|mnt\|opt\|root\|sbin\|tmp\|usr\|var\|Bureau\|Documents\|Images\|Musique\|Public\|Téléchargements\|Vidéos)(?:\/[a-zA-Zà-öÀ-Ö0-9ø-ÿØ-ßĀ-ʯﬁ-ﬆ_.()-]+)/, 'FOLDERUNIX'], [/^[a-zA-Z]:\\(?:Program Files(?: \(x86\)\|)\|[a-zA-Zà-öÀ-Ö0-9ø-ÿØ-ßĀ-ʯﬁ-ﬆ.()]+)(?:\\[a-zA-Zà-öÀ-Ö0-9ø-ÿØ-ßĀ-ʯﬁ-ﬆ_.()-]+)/, 'FOLDERWIN'], ~~[/^[,.;:!?…«»“”‘’"(){}\[\]/·–—]+/, 'SEPARATOR'],~~ [/^[A-Z][.][A-Z][.](?:[A-Z][.])/, 'ACRONYM'], [/^(?:https?:\/\/\|www[.]\|[a-zA-Zà-öÀ-Ö0-9ø-ÿØ-ßĀ-ʯﬁ-ﬆ_-]+[@.][a-zA-Zà-öÀ-Ö0-9ø-ÿØ-ßĀ-ʯﬁ-ﬆ_-]{2,}[@.])[a-zA-Z0-9][a-zA-Zà-öÀ-Ö0-9ø-ÿØ-ßĀ-ʯﬁ-ﬆ_.\/?&!%=+"'@$#-]+/, 'LINK'], [/^[#@][a-zA-Zà-öÀ-Ö0-9ø-ÿØ-ßĀ-ʯﬁ-ﬆ_-]+/, 'TAG'], [/^<[a-zA-Zà-öÀ-Ö0-9ø-ÿØ-ßĀ-ʯﬁ-ﬆ]+.?>\|<\/[a-zA-Zà-öÀ-Ö0-9ø-ÿØ-ßĀ-ʯﬁ-ﬆ]+ *>/, 'HTML'], [/^\[\/?[a-zA-Zà-öÀ-Ö0-9ø-ÿØ-ßĀ-ʯﬁ-ﬆ]+\]/, 'PSEUDOHTML'], [/^&\w+;(?:\w+;\|)/, 'HTMLENTITY'], [/^(?:l\|d\|n\|m\|t\|s\|j\|c\|ç\|lorsqu\|puisqu\|jusqu\|quoiqu\|qu)['’`]/i, 'ELPFX'],	\| \|	14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44	const aTkzPatterns = { // All regexps must start with ^. "default": [ [/^[  \t]+/, 'SPACE'], [/^\/(?:~\|bin\|boot\|dev\|etc\|home\|lib\|mnt\|opt\|root\|sbin\|tmp\|usr\|var\|Bureau\|Documents\|Images\|Musique\|Public\|Téléchargements\|Vidéos)(?:\/[a-zA-Zà-öÀ-Ö0-9ø-ÿØ-ßĀ-ʯﬁ-ﬆ_.()-]+)/, 'FOLDERUNIX'], [/^[a-zA-Z]:\\(?:Program Files(?: \(x86\)\|)\|[a-zA-Zà-öÀ-Ö0-9ø-ÿØ-ßĀ-ʯﬁ-ﬆ.()]+)(?:\\[a-zA-Zà-öÀ-Ö0-9ø-ÿØ-ßĀ-ʯﬁ-ﬆ_.()-]+)/, 'FOLDERWIN'], [/^[,.;:!?…«»“”‘’"(){}\[\]/·–—]/, 'SEPARATOR'], [/^[A-Z][.][A-Z][.](?:[A-Z][.])/, 'ACRONYM'], [/^(?:https?:\/\/\|www[.]\|[a-zA-Zà-öÀ-Ö0-9ø-ÿØ-ßĀ-ʯﬁ-ﬆ_-]+[@.][a-zA-Zà-öÀ-Ö0-9ø-ÿØ-ßĀ-ʯﬁ-ﬆ_-]{2,}[@.])[a-zA-Z0-9][a-zA-Zà-öÀ-Ö0-9ø-ÿØ-ßĀ-ʯﬁ-ﬆ_.\/?&!%=+"'@$#-]+/, 'LINK'], [/^[#@][a-zA-Zà-öÀ-Ö0-9ø-ÿØ-ßĀ-ʯﬁ-ﬆ_-]+/, 'TAG'], [/^<[a-zA-Zà-öÀ-Ö0-9ø-ÿØ-ßĀ-ʯﬁ-ﬆ]+.?>\|<\/[a-zA-Zà-öÀ-Ö0-9ø-ÿØ-ßĀ-ʯﬁ-ﬆ]+ >/, 'HTML'], [/^\[\/?[a-zA-Zà-öÀ-Ö0-9ø-ÿØ-ßĀ-ʯﬁ-ﬆ]+\]/, 'PSEUDOHTML'], [/^&\w+;(?:\w+;\|)/, 'HTMLENTITY'], [/^\d\d?h\d\d\b/, 'HOUR'], [/^-?\d+(?:[.,]\d+\|)/, 'NUM'], [/^[a-zA-Zà-öÀ-Ö0-9ø-ÿØ-ßĀ-ʯﬁ-ﬆ]+(?:[’'`-][a-zA-Zà-öÀ-Ö0-9ø-ÿØ-ßĀ-ʯﬁ-ﬆ]+)/, 'WORD'] ], "fr": [ [/^[  \t]+/, 'SPACE'], [/^\/(?:~\|bin\|boot\|dev\|etc\|home\|lib\|mnt\|opt\|root\|sbin\|tmp\|usr\|var\|Bureau\|Documents\|Images\|Musique\|Public\|Téléchargements\|Vidéos)(?:\/[a-zA-Zà-öÀ-Ö0-9ø-ÿØ-ßĀ-ʯﬁ-ﬆ_.()-]+)/, 'FOLDERUNIX'], [/^[a-zA-Z]:\\(?:Program Files(?: \(x86\)\|)\|[a-zA-Zà-öÀ-Ö0-9ø-ÿØ-ßĀ-ʯﬁ-ﬆ.()]+)(?:\\[a-zA-Zà-öÀ-Ö0-9ø-ÿØ-ßĀ-ʯﬁ-ﬆ_.()-]+)/, 'FOLDERWIN'], [/^[,.;:!?…«»“”‘’"(){}\[\]/·–—]/, 'SEPARATOR'], [/^[A-Z][.][A-Z][.](?:[A-Z][.])/, 'ACRONYM'], [/^(?:https?:\/\/\|www[.]\|[a-zA-Zà-öÀ-Ö0-9ø-ÿØ-ßĀ-ʯﬁ-ﬆ_-]+[@.][a-zA-Zà-öÀ-Ö0-9ø-ÿØ-ßĀ-ʯﬁ-ﬆ_-]{2,}[@.])[a-zA-Z0-9][a-zA-Zà-öÀ-Ö0-9ø-ÿØ-ßĀ-ʯﬁ-ﬆ_.\/?&!%=+"'@$#-]+/, 'LINK'], [/^[#@][a-zA-Zà-öÀ-Ö0-9ø-ÿØ-ßĀ-ʯﬁ-ﬆ_-]+/, 'TAG'], [/^<[a-zA-Zà-öÀ-Ö0-9ø-ÿØ-ßĀ-ʯﬁ-ﬆ]+.?>\|<\/[a-zA-Zà-öÀ-Ö0-9ø-ÿØ-ßĀ-ʯﬁ-ﬆ]+ *>/, 'HTML'], [/^\[\/?[a-zA-Zà-öÀ-Ö0-9ø-ÿØ-ßĀ-ʯﬁ-ﬆ]+\]/, 'PSEUDOHTML'], [/^&\w+;(?:\w+;\|)/, 'HTMLENTITY'], [/^(?:l\|d\|n\|m\|t\|s\|j\|c\|ç\|lorsqu\|puisqu\|jusqu\|quoiqu\|qu)['’`]/i, 'ELPFX'],
︙			︙
58 59 60 61 62 63 64 65 66 67 68 69 70 ~~71 72 73 74 75 76 77 78~~ 79 80 81 82 83 84 85 ~~86 87~~ 88 89 90 91 92 93 94 95	this.sLang = "default"; } this.aRules = aTkzPatterns[this.sLang]; } * genTokens (sText) { let m; ~~let i = 0;~~ while (sText) { ~~let nCut = 1;~~ for (let [zRegex, sType] of this.aRules) { try { if ((m = zRegex.exec(sText)) !== null) { if ~~(sType =~~= ~~'SEPARATOR') {~~ ~~for (let c of m[0]) {~~ ~~yield { "sType": sType, "sValue": c, "nStart": i, "nEnd": i + m[0].length }~~ } ~~} else {~~ yield { "sType": sType, "sValue": m[0], "nStart": i, "nEnd": i + m[0].length } } nCut = m[0].length; break; } } catch (e) { helpers.logerror(e); } } ~~i ~~+= n~~Cut; sText = sText.slice(nCut);~~ } } } if (typeof(exports) !== 'undefined') { exports.Tokenizer = Tokenizer; }	\| \| > \| < < < < \| < \| \| \|	58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91	this.sLang = "default"; } this.aRules = aTkzPatterns[this.sLang]; } * genTokens (sText) { let m; let iNext = 0; while (sText) { let iCut = 1; let iToken = 0; for (let [zRegex, sType] of this.aRules) { try { if ((m = zRegex.exec(sText)) !== null) { iToken += 1; yield { "i": iToken, "sType": sType, "sValue": m[0], "nStart": iNext, "nEnd": iNext + m[0].length } iCut = m[0].length; break; } } catch (e) { helpers.logerror(e); } } iNext += iCut; sText = sText.slice(iCut); } } } if (typeof(exports) !== 'undefined') { exports.Tokenizer = Tokenizer; }

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18	# Spellchecker # Wrapper for the IBDAWG class. # Useful to check several dictionaries at once. # To avoid iterating over a pile of dictionaries, it is assumed that 3 are enough: # - the main dictionary, bundled with the package # - the extended dictionary # - the community dictionary, added by an organization # - the personal dictionary, created by the user for its own convenience import traceback from . import ibdawg from . import tokenizer dDefaultDictionaries = {	\|	1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18	# Spellchecker # Wrapper for the IBDAWG class. # Useful to check several dictionaries at once. # To avoid iterating over a pile of dictionaries, it is assumed that 3 are enough: # - the main dictionary, bundled with the package # - the extended dictionary # - the community dictionary, added by an organization # - the personal dictionary, created by the user for its own convenience import importlib import traceback from . import ibdawg from . import tokenizer dDefaultDictionaries = {
︙			︙
32 33 34 35 36 37 38 39 40 41 42 43 44 45	self.oExtendedDic = self._loadDictionary(sfExtendedDic) self.oCommunityDic = self._loadDictionary(sfCommunityDic) self.oPersonalDic = self._loadDictionary(sfPersonalDic) self.bExtendedDic = bool(self.oExtendedDic) self.bCommunityDic = bool(self.oCommunityDic) self.bPersonalDic = bool(self.oPersonalDic) self.oTokenizer = None def _loadDictionary (self, source, bNecessary=False): "returns an IBDAWG object" if not source: return None try: return ibdawg.IBDAWG(source)	> > > > > > >	32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52	self.oExtendedDic = self._loadDictionary(sfExtendedDic) self.oCommunityDic = self._loadDictionary(sfCommunityDic) self.oPersonalDic = self._loadDictionary(sfPersonalDic) self.bExtendedDic = bool(self.oExtendedDic) self.bCommunityDic = bool(self.oCommunityDic) self.bPersonalDic = bool(self.oPersonalDic) self.oTokenizer = None # Default suggestions self.dDefaultSugg = None self.loadSuggestions(sLangCode) # storage self.bStorage = False self._dMorphologies = {} # key: flexion, value: list of morphologies self._dLemmas = {} # key: flexion, value: list of lemmas def _loadDictionary (self, source, bNecessary=False): "returns an IBDAWG object" if not source: return None try: return ibdawg.IBDAWG(source)
︙			︙
95 96 97 98 99 100 101 102 103 104 105 106 107 108	def deactivateCommunityDictionary (self): self.bCommunityDic = False def deactivatePersonalDictionary (self): self.bPersonalDic = False # parse text functions def parseParagraph (self, sText, bSpellSugg=False): if not self.oTokenizer: self.loadTokenizer() aSpellErrs = []	> > > > > > > > > > > > > > > > > > > > > > > >	102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139	def deactivateCommunityDictionary (self): self.bCommunityDic = False def deactivatePersonalDictionary (self): self.bPersonalDic = False # Default suggestions def loadSuggestions (self, sLangCode): try: suggest_module = importlib.import_module("."+sLangCode, "graphspell") except: print("No suggestion module for language <"+sLangCode+">") return self.dDefaultSugg = suggest_module.dSugg # Storage def activateStorage (self): self.bStorage = True def deactivateStorage (self): self.bStorage = False def clearStorage (self): self._dLemmas.clear() self._dMorphologies.clear() # parse text functions def parseParagraph (self, sText, bSpellSugg=False): if not self.oTokenizer: self.loadTokenizer() aSpellErrs = []
︙			︙
167 168 169 170 171 172 173 ~~174~~ 175 ~~176~~ 177 ~~178~~ 179 ~~180~~ ~~181~~ 182 183 184 185 186 187 ~~188~~ 189 190 191 192 193 194 195	return True if self.bPersonalDic and self.oPersonalDic.lookup(sWord): return True return False def getMorph (self, sWord): "retrieves morphologies list, different casing allowed" ~~l~~Result~~ = self.oMainDic.getMorph(sWord)~~ if self.bExtendedDic: ~~l~~Result~~.extend(self.oExtendedDic.getMorph(sWord))~~ if self.bCommunityDic: ~~l~~Result~~.extend(self.oCommunityDic.getMorph(sWord))~~ if self.bPersonalDic: ~~l~~Result~~.extend(self.oPersonalDic.getMorph(sWord))~~ ~~return l~~Result~~~~ def getLemma (self, sWord): return set([ s[1:s.find(" ")] for s in self.getMorph(sWord) ]) def suggest (self, sWord, nSuggLimit=10): "generator: returns 1, 2 or 3 lists of suggestions" ~~yield self.oMainDic.suggest(sWord, nSuggLimit)~~ if self.bExtendedDic: yield self.oExtendedDic.suggest(sWord, nSuggLimit) if self.bCommunityDic: yield self.oCommunityDic.suggest(sWord, nSuggLimit) if self.bPersonalDic: yield self.oPersonalDic.suggest(sWord, nSuggLimit)	> > \| \| \| \| > > > \| > > > > > > > > > > > > \| > >	198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245	return True if self.bPersonalDic and self.oPersonalDic.lookup(sWord): return True return False def getMorph (self, sWord): "retrieves morphologies list, different casing allowed" if self.bStorage and sWord in self._dMorphologies: return self._dMorphologies[sWord] lMorph = self.oMainDic.getMorph(sWord) if self.bExtendedDic: lMorph.extend(self.oExtendedDic.getMorph(sWord)) if self.bCommunityDic: lMorph.extend(self.oCommunityDic.getMorph(sWord)) if self.bPersonalDic: lMorph.extend(self.oPersonalDic.getMorph(sWord)) if self.bStorage: self._dMorphologies[sWord] = lMorph self._dLemmas[sWord] = set([ s[1:s.find(" ")] for s in lMorph ]) return lMorph def getLemma (self, sWord): "retrieves lemmas" if self.bStorage: if sWord not in self._dLemmas: self.getMorph(sWord) return self._dLemmas[sWord] return set([ s[1:s.find(" ")] for s in self.getMorph(sWord) ]) def suggest (self, sWord, nSuggLimit=10): "generator: returns 1, 2 or 3 lists of suggestions" if self.dDefaultSugg: if sWord in self.dDefaultSugg: yield self.dDefaultSugg[sWord].split("\|") elif sWord.istitle() and sWord.lower() in self.dDefaultSugg: lRes = self.dDefaultSugg[sWord.lower()].split("\|") yield list(map(lambda sSugg: sSugg[0:1].upper()+sSugg[1:], lRes)) else: yield self.oMainDic.suggest(sWord, nSuggLimit) else: yield self.oMainDic.suggest(sWord, nSuggLimit) if self.bExtendedDic: yield self.oExtendedDic.suggest(sWord, nSuggLimit) if self.bCommunityDic: yield self.oCommunityDic.suggest(sWord, nSuggLimit) if self.bPersonalDic: yield self.oPersonalDic.suggest(sWord, nSuggLimit)
︙			︙

︙			︙
15 16 17 18 19 20 21 22 23 24 25 26 27 28	import json import platform from distutils import dir_util, file_util import dialog_bundled import compile_rules import helpers import lex_build sWarningMessage = "The content of this folder is generated by code and replaced at each build.\n"	>	15 16 17 18 19 20 21 22 23 24 25 26 27 28 29	import json import platform from distutils import dir_util, file_util import dialog_bundled import compile_rules import compile_rules_graph import helpers import lex_build sWarningMessage = "The content of this folder is generated by code and replaced at each build.\n"
︙			︙
189 190 191 192 193 194 195 ~~196 197~~ 198 199 200 201 202 203 204	spLang = "gc_lang/" + sLang dVars = xConfig._sections['args'] dVars['locales'] = dVars["locales"].replace("_", "-") dVars['loc'] = str(dict([ [s, [s[0:2], s[3:5], ""]] for s in dVars["locales"].split(" ") ])) ## COMPILE RULES ~~dResult = compile_rules.make(spLang, dVars['lang'], bJavaScript) dVars.update(dResult)~~ ## READ GRAMMAR CHECKER PLUGINS print("PYTHON:") print("+ Plugins: ", end="") sCodePlugins = "" for sf in os.listdir(spLang+"/modules"): if re.match(r"gce_\w+[.]py$", sf):	\| \| > > >	190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208	spLang = "gc_lang/" + sLang dVars = xConfig._sections['args'] dVars['locales'] = dVars["locales"].replace("_", "-") dVars['loc'] = str(dict([ [s, [s[0:2], s[3:5], ""]] for s in dVars["locales"].split(" ") ])) ## COMPILE RULES dResultRegex = compile_rules.make(spLang, dVars['lang'], bJavaScript) dVars.update(dResultRegex) dResultGraph = compile_rules_graph.make(spLang, dVars['lang'], bJavaScript) dVars.update(dResultGraph) ## READ GRAMMAR CHECKER PLUGINS print("PYTHON:") print("+ Plugins: ", end="") sCodePlugins = "" for sf in os.listdir(spLang+"/modules"): if re.match(r"gce_\w+[.]py$", sf):
︙			︙
225 226 227 228 229 230 231 ~~232~~ 233 234 235 236 237 238 239	helpers.copyAndFileTemplate(spLang+"/modules/"+sf, spLangPack+"/"+sf, dVars) print(sf, end=", ") print() # TEST FILES with open("grammalecte/"+sLang+"/gc_test.txt", "w", encoding="utf-8", newline="\n") as hDstPy: hDstPy.write("# TESTS FOR LANG [" + sLang + "]\n\n") ~~hDstPy.write(dVars['gctests'])~~ createOXT(spLang, dVars, xConfig._sections['oxt'], spLangPack, bInstallOXT) createServerOptions(sLang, dVars) createPackageZip(sLang, dVars, spLangPack) #### JAVASCRIPT	> > > \| >	229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247	helpers.copyAndFileTemplate(spLang+"/modules/"+sf, spLangPack+"/"+sf, dVars) print(sf, end=", ") print() # TEST FILES with open("grammalecte/"+sLang+"/gc_test.txt", "w", encoding="utf-8", newline="\n") as hDstPy: hDstPy.write("# TESTS FOR LANG [" + sLang + "]\n\n") hDstPy.write("# REGEX RULES\n\n") hDstPy.write(dVars['regex_gctests']) hDstPy.write("\n\n\n# GRAPH RULES\n\n") hDstPy.write(dVars['graph_gctests']) hDstPy.write("\n") createOXT(spLang, dVars, xConfig._sections['oxt'], spLangPack, bInstallOXT) createServerOptions(sLang, dVars) createPackageZip(sLang, dVars, spLangPack) #### JAVASCRIPT
︙			︙

Grammalecte Changes On Branch 1d9246b16105c006

Changes In Branch rg Through [1d9246b161] Excluding Merge-Ins