Grammalecte: Diff

Differences From Artifact [62e5b9807b]:

File gc_core/py/lang_core/gc_engine.py — part of check-in [7b412f5207] at 2018-09-05 18:49:50 on branch rg — [core] gc engine: use echo instead of print for debugging (user: olr, size: 51196) [annotate] [blame] [check-ins using]

To Artifact [7169e30ca7]:

File gc_core/py/lang_core/gc_engine.py — part of check-in [8fddaca364] at 2018-09-05 19:27:54 on branch rg — [core] gc engine: code clarity + change echo parameters (user: olr, size: 51292) [annotate] [blame] [check-ins using]

︙
98 99 100 101 102 103 104 ~~105 106~~ ~~107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122~~ 123 124 125 126 127 128 129	98 99 100 101 102 103 104 105 106 107 108 109 110 111 112	- - + - - - - - - - - - - - - - - - -	try: aRule[0] = re.compile(aRule[0]) except: echo("Bad regular expression in # " + str(aRule[2])) aRule[0] = "(?i)<Grammalecte>" ~~#### Parsing~~ #### Rules and options ~~_zEndOfSentence = re.compile(r'([.?!:;…][ .?!… »”")]\|.$)')~~ ~~_zBeginOfParagraph = re.compile(r"^\W")~~ ~~_zEndOfParagraph = re.compile(r"\W*$")~~ ~~def _getSentenceBoundaries (sText):~~ ~~iStart = _zBeginOfParagraph.match(sText).end()~~ ~~for m in _zEndOfSentence.finditer(sText):~~ ~~yield (iStart, m.end())~~ ~~iStart = m.end()~~ ~~def parse (sText, sCountry="${country_default}", bDebug=False, dOptions=None, bContext=False):~~ ~~"init point to analyze a text"~~ ~~oText = TextParser(sText)~~ ~~return oText.parse(sCountry, bDebug, dOptions, bContext)~~ def ignoreRule (sRuleId): "disable rule <sRuleId>" _aIgnoredRules.add(sRuleId) def resetIgnoreRules ():
︙
200 201 202 203 204 205 206 207 208 209 210 211 212 213	183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214	+ + + + + + + + + + + + + + + + + +	def getSpellChecker (): "return the spellchecker object" return _oSpellChecker #### Parsing _zEndOfSentence = re.compile(r'([.?!:;…][ .?!… »”")]\|.$)') _zBeginOfParagraph = re.compile(r"^\W") _zEndOfParagraph = re.compile(r"\W*$") def _getSentenceBoundaries (sText): iStart = _zBeginOfParagraph.match(sText).end() for m in _zEndOfSentence.finditer(sText): yield (iStart, m.end()) iStart = m.end() def parse (sText, sCountry="${country_default}", bDebug=False, dOptions=None, bContext=False): "init point to analyze a text" oText = TextParser(sText) return oText.parse(sCountry, bDebug, dOptions, bContext) #### TEXT PARSER class TextParser: "Text parser" def __init__ (self, sText):
︙
281 282 283 284 285 286 287 ~~288~~ 289 290 291 292 293 294 295 296 297 298 299 300 301 ~~302~~ 303 304 305 306 307 308 309	282 283 284 285 286 287 288 289 290 291 292 293 294 295 296 297 298 299 300 301 302 303 304 305 306 307 308 309 310	- + - +	# graph rules if not bParagraph and bChange: self.update(sText, bDebug) bChange = False for sGraphName, sLineId in lRuleGroup: if sGraphName not in dOptions or dOptions[sGraphName]: if bDebug: ~~echo("\n>>>> GRAPH:", sGraphName, sLineId)~~ echo("\n>>>> GRAPH: " + sGraphName + " " + sLineId) sText = self.parseGraph(_rules_graph.dAllGraph[sGraphName], sCountry, dOptions, bShowRuleId, bDebug, bContext) elif not sOption or dOptions.get(sOption, False): # regex rules for zRegex, bUppercase, sLineId, sRuleId, nPriority, lActions in lRuleGroup: if sRuleId not in _aIgnoredRules: for m in zRegex.finditer(sText): bCondMemo = None for sFuncCond, cActionType, sWhat, *eAct in lActions: # action in lActions: [ condition, action type, replacement/suggestion/action[, iGroup[, message, URL]] ] try: bCondMemo = not sFuncCond or globals()[sFuncCond](sText, sText0, m, self.dTokenPos, sCountry, bCondMemo) if bCondMemo: if bDebug: ~~echo("RULE:", sLineId)~~ echo("RULE: " + sLineId) if cActionType == "-": # grammar error nErrorStart = nOffset + m.start(eAct[0]) if nErrorStart not in self.dError or nPriority > self.dErrorPriority.get(nErrorStart, -1): self.dError[nErrorStart] = self._createErrorFromRegex(sText, sText0, sWhat, nOffset, m, eAct[0], sLineId, sRuleId, bUppercase, eAct[1], eAct[2], bShowRuleId, sOption, bContext) self.dErrorPriority[nErrorStart] = nPriority elif cActionType == "~":
︙
350 351 352 353 354 355 356 ~~357~~ 358 359 360 361 362 363 ~~364~~ 365 366 367 368 369 370 ~~371~~ 372 373 374 375 376 ~~377~~ 378 379 380 381 382 383 384	351 352 353 354 355 356 357 358 359 360 361 362 363 364 365 366 367 368 369 370 371 372 373 374 375 376 377 378 379 380 381 382 383 384 385	- + - + - + - +	"generator: return nodes where <dToken> “values” match <dNode> arcs" dNode = dPointer["dNode"] iNode1 = dPointer["iNode1"] bTokenFound = False # token value if dToken["sValue"] in dNode: if bDebug: ~~echo(" MATCH:", dToken["sValue"])~~ echo(" MATCH: " + dToken["sValue"]) yield { "iNode1": iNode1, "dNode": dGraph[dNode[dToken["sValue"]]] } bTokenFound = True if dToken["sValue"][0:2].istitle(): # we test only 2 first chars, to make valid words such as "Laissez-les", "Passe-partout". sValue = dToken["sValue"].lower() if sValue in dNode: if bDebug: ~~echo(" MATCH:", sValue)~~ echo(" MATCH: " + sValue) yield { "iNode1": iNode1, "dNode": dGraph[dNode[sValue]] } bTokenFound = True elif dToken["sValue"].isupper(): sValue = dToken["sValue"].lower() if sValue in dNode: if bDebug: ~~echo(" MATCH:", sValue)~~ echo(" MATCH: " + sValue) yield { "iNode1": iNode1, "dNode": dGraph[dNode[sValue]] } bTokenFound = True sValue = dToken["sValue"].capitalize() if sValue in dNode: if bDebug: ~~echo(" MATCH:", sValue)~~ echo(" MATCH: " + sValue) yield { "iNode1": iNode1, "dNode": dGraph[dNode[sValue]] } bTokenFound = True # regex value arcs if dToken["sType"] not in frozenset(["INFO", "PUNC", "SIGN"]): if "<re_value>" in dNode: for sRegex in dNode["<re_value>"]: if "¬" not in sRegex:
︙
474 475 476 477 478 479 480 ~~481~~ 482 483 484 485 486 487 488	475 476 477 478 479 480 481 482 483 484 485 486 487 488 489	- +	def parseGraph (self, dGraph, sCountry="${country_default}", dOptions=None, bShowRuleId=False, bDebug=False, bContext=False): "parse graph with tokens from the text and execute actions encountered" dOpt = _dOptions if not dOptions else dOptions lPointer = [] bTagAndRewrite = False for iToken, dToken in enumerate(self.lToken): if bDebug: ~~echo("TOKEN:", dToken["sValue"])~~ echo("TOKEN: " + dToken["sValue"]) # check arcs for each existing pointer lNextPointer = [] for dPointer in lPointer: lNextPointer.extend(self._getNextPointers(dToken, dGraph, dPointer, bDebug)) lPointer = lNextPointer # check arcs of first nodes lPointer.extend(self._getNextPointers(dToken, dGraph, { "iNode1": iToken, "dNode": dGraph[0] }, bDebug))
︙
504 505 506 507 508 509 510 ~~511~~ 512 513 514 515 516 517 518	505 506 507 508 509 510 511 512 513 514 515 516 517 518 519	- +	"execute actions found in the DARG" bChange = False for sLineId, nextNodeKey in dNode.items(): bCondMemo = None for sRuleId in dGraph[nextNodeKey]: try: if bDebug: ~~echo(" >TRY:", sRuleId)~~ echo(" >TRY: " + sRuleId) sOption, sFuncCond, cActionType, sWhat, *eAct = _rules_graph.dRule[sRuleId] # Suggestion [ option, condition, "-", replacement/suggestion/action, iTokenStart, iTokenEnd, cStartLimit, cEndLimit, bCaseSvty, nPriority, sMessage, sURL ] # TextProcessor [ option, condition, "~", replacement/suggestion/action, iTokenStart, iTokenEnd, bCaseSvty ] # Disambiguator [ option, condition, "=", replacement/suggestion/action ] # Tag [ option, condition, "/", replacement/suggestion/action, iTokenStart, iTokenEnd ] # Immunity [ option, condition, "%", "", iTokenStart, iTokenEnd ] # Test [ option, condition, ">", "" ]
︙
527 528 529 530 531 532 533 ~~534~~ 535 536 537 538 539 540 541 ~~542 543~~ 544 545 546 547 ~~548~~ 549 550 551 ~~552~~ 553 554 555 556 557 558 559 560 561 562 563 ~~564 565~~ 566 567 568 569 570 571 572 573 ~~574~~ 575 576 577 578 579 580 581 582 583 584 585 586 587 588 589 590 591 ~~592~~ 593 594 595 596 597 598 599	528 529 530 531 532 533 534 535 536 537 538 539 540 541 542 543 544 545 546 547 548 549 550 551 552 553 554 555 556 557 558 559 560 561 562 563 564 565 566 567 568 569 570 571 572 573 574 575 576 577 578 579 580 581 582 583 584 585 586 587 588 589 590 591 592 593 594 595 596 597 598 599 600	- + - - + + - + - + - - + + - + - +	nTokenErrorEnd = nTokenOffset + iTokenEnd if iTokenEnd > 0 else nLastToken + iTokenEnd nErrorStart = self.nOffsetWithinParagraph + (self.lToken[nTokenErrorStart]["nStart"] if cStartLimit == "<" else self.lToken[nTokenErrorStart]["nEnd"]) nErrorEnd = self.nOffsetWithinParagraph + (self.lToken[nTokenErrorEnd]["nEnd"] if cEndLimit == ">" else self.lToken[nTokenErrorEnd]["nStart"]) if nErrorStart not in self.dError or nPriority > self.dErrorPriority.get(nErrorStart, -1): self.dError[nErrorStart] = self._createErrorFromTokens(sWhat, nTokenOffset, nLastToken, nTokenErrorStart, nErrorStart, nErrorEnd, sLineId, sRuleId, bCaseSvty, sMessage, sURL, bShowRuleId, sOption, bContext) self.dErrorPriority[nErrorStart] = nPriority if bDebug: ~~echo(" NEW_ERROR: ", sRuleId, sLineId~~, ": "~~, self.dError[nErrorStart])~~ echo(" NEW_ERROR: {} {}: {}".format(sRuleId, sLineId, self.dError[nErrorStart])) elif cActionType == "~": # text processor nTokenStart = nTokenOffset + eAct[0] if eAct[0] > 0 else nLastToken + eAct[0] nTokenEnd = nTokenOffset + eAct[1] if eAct[1] > 0 else nLastToken + eAct[1] self._tagAndPrepareTokenForRewriting(sWhat, nTokenStart, nTokenEnd, nTokenOffset, nLastToken, eAct[2], bDebug) bChange = True if bDebug: ~~echo(" TEXT_PROCESSOR: ", sRuleId, sLineId) echo(" ", self.lToken[nTokenStart]["sValue"], "~~:",~~ self.lToken[nTokenEnd]["sValue"]~~, " >~~", sWhat)~~ echo(" TEXT_PROCESSOR: " + sRuleId + " " + sLineId) echo(" " + self.lToken[nTokenStart]["sValue"] + " : " + self.lToken[nTokenEnd]["sValue"] + " > ", sWhat) elif cActionType == "=": # disambiguation globals()[sWhat](self.lToken, nTokenOffset, nLastToken) if bDebug: ~~echo(" DISAMBIGUATOR: ", sRuleId, sLineId, ~~"("+sWhat+")"~~, self.lToken[nTokenOffset+1]["sValue"], ~~":",~~ self.lToken[nLastToken]["sValue"])~~ echo(" DISAMBIGUATOR: {} {} ({}) {}:{}".format(sRuleId, sLineId, sWhat, self.lToken[nTokenOffset+1]["sValue"], self.lToken[nLastToken]["sValue"])) elif cActionType == ">": # we do nothing, this test is just a condition to apply all following actions if bDebug: ~~echo(" COND_OK: ", sRuleId, sLineId)~~ echo(" COND_OK: " + sRuleId + " " + sLineId) pass elif cActionType == "/": # Tag nTokenStart = nTokenOffset + eAct[0] if eAct[0] > 0 else nLastToken + eAct[0] nTokenEnd = nTokenOffset + eAct[1] if eAct[1] > 0 else nLastToken + eAct[1] for i in range(nTokenStart, nTokenEnd+1): if "tags" in self.lToken[i]: self.lToken[i]["tags"].update(sWhat.split("\|")) else: self.lToken[i]["tags"] = set(sWhat.split("\|")) if bDebug: ~~echo(" TAG: ", sRuleId, sLineId) echo(" ", sWhat, " >", self.lToken[nTokenStart]["sValue"], "~~:",~~ self.lToken[nTokenEnd]["sValue"])~~ echo(" TAG: " + sRuleId + " " + sLineId) echo(" " + sWhat + " > " + self.lToken[nTokenStart]["sValue"] + " : " + self.lToken[nTokenEnd]["sValue"]) if sWhat not in self.dTags: self.dTags[sWhat] = [nTokenStart, nTokenStart] else: self.dTags[sWhat][0] = min(nTokenStart, self.dTags[sWhat][0]) self.dTags[sWhat][1] = max(nTokenEnd, self.dTags[sWhat][1]) elif cActionType == "%": # immunity if bDebug: ~~echo(" IMMUNITY:\n ", _rules_graph.dRule[sRuleId])~~ echo(" IMMUNITY:\n " + _rules_graph.dRule[sRuleId]) nTokenStart = nTokenOffset + eAct[0] if eAct[0] > 0 else nLastToken + eAct[0] nTokenEnd = nTokenOffset + eAct[1] if eAct[1] > 0 else nLastToken + eAct[1] if nTokenEnd - nTokenStart == 0: self.lToken[nTokenStart]["bImmune"] = True nErrorStart = self.nOffsetWithinParagraph + self.lToken[nTokenStart]["nStart"] if nErrorStart in self.dError: del self.dError[nErrorStart] else: for i in range(nTokenStart, nTokenEnd+1): self.lToken[i]["bImmune"] = True nErrorStart = self.nOffsetWithinParagraph + self.lToken[i]["nStart"] if nErrorStart in self.dError: del self.dError[nErrorStart] else: echo("# error: unknown action at " + sLineId) elif cActionType == ">": if bDebug: ~~echo(" COND_BREAK: ", sRuleId, sLineId)~~ echo(" COND_BREAK: " + sRuleId + " " + sLineId) break except Exception as e: raise Exception(str(e), sLineId, sRuleId, self.sSentence) return bChange def _createErrorFromRegex (self, sText, sText0, sRepl, nOffset, m, iGroup, sLineId, sRuleId, bUppercase, sMsg, sURL, bShowRuleId, sOption, bContext): nStart = nOffset + m.start(iGroup)
︙
671 672 673 674 675 676 677 ~~678~~ 679 680 681 682 683 ~~684~~ 685 686 687 688 689 690 691	672 673 674 675 676 677 678 679 680 681 682 683 684 685 686 687 688 689 690	- -	if bContext: dErr['sUnderlined'] = self.sSentence0[nStart:nEnd] dErr['sBefore'] = self.sSentence0[max(0,nStart-80):nStart] dErr['sAfter'] = self.sSentence0[nEnd:nEnd+80] return dErr def _expand (self, sText, nTokenOffset, nLastToken): ~~#echo("", sText)~~ for m in re.finditer(r"\\(-?[0-9]+)", sText): if m.group(1)[0:1] == "-": sText = sText.replace(m.group(0), self.lToken[nLastToken+int(m.group(1))+1]["sValue"]) else: sText = sText.replace(m.group(0), self.lToken[nTokenOffset+int(m.group(1))]["sValue"]) ~~#echo(">", sText)~~ return sText def rewriteText (self, sText, sRepl, iGroup, m, bUppercase): "text processor: write <sRepl> in <sText> at <iGroup> position" nLen = m.end(iGroup) - m.start(iGroup) if sRepl == "": sNew = " " * nLen
︙
700 701 702 703 704 705 706 ~~707~~ 708 709 710 711 712 713 714	699 700 701 702 703 704 705 706 707 708 709 710 711 712 713	- +	sNew = m.expand(sRepl) sNew = sNew + " " * (nLen-len(sNew)) return sText[0:m.start(iGroup)] + sNew + sText[m.end(iGroup):] def _tagAndPrepareTokenForRewriting (self, sWhat, nTokenRewriteStart, nTokenRewriteEnd, nTokenOffset, nLastToken, bCaseSvty, bDebug): "text processor: rewrite tokens between <nTokenRewriteStart> and <nTokenRewriteEnd> position" if bDebug: ~~echo(" START:", nTokenRewriteStart, ~~"END:",~~ nTokenRewriteEnd)~~ echo(" START: {} - END: {} ".format(nTokenRewriteStart, nTokenRewriteEnd)) if sWhat == "*": # purge text if nTokenRewriteEnd - nTokenRewriteStart == 0: self.lToken[nTokenRewriteStart]["bToRemove"] = True else: for i in range(nTokenRewriteStart, nTokenRewriteEnd+1): self.lToken[i]["bToRemove"] = True
︙
757 758 759 760 761 762 763 ~~764~~ 765 766 767 768 769 770 771 772 773 ~~774~~ 775 776 777 778 779 780 781 782 ~~783~~ 784 785 786 787 788 789 790 791 792 793 794 795 796 797 ~~798~~ 799 800 801 802 803 804 805	756 757 758 759 760 761 762 763 764 765 766 767 768 769 770 771 772 773 774 775 776 777 778 779 780 781 782 783 784 785 786 787 788 789 790 791 792 793 794 795 796 797 798 799 800 801 802 803 804	- + - + - + - +	for iToken, dToken in enumerate(self.lToken): bKeepToken = True if dToken["sType"] != "INFO": if nMergeUntil and iToken <= nMergeUntil: dTokenMerger["sValue"] += " " * (dToken["nStart"] - dTokenMerger["nEnd"]) + dToken["sValue"] dTokenMerger["nEnd"] = dToken["nEnd"] if bDebug: ~~echo(" MERGED TOKEN:", dTokenMerger["sValue"])~~ echo(" MERGED TOKEN: " + dTokenMerger["sValue"]) bKeepToken = False if "nMergeUntil" in dToken: if iToken > nMergeUntil: # this token is not already merged with a previous token dTokenMerger = dToken if dToken["nMergeUntil"] > nMergeUntil: nMergeUntil = dToken["nMergeUntil"] del dToken["nMergeUntil"] elif "bToRemove" in dToken: if bDebug: ~~echo(" REMOVED:", dToken["sValue"])~~ echo(" REMOVED: " + dToken["sValue"]) self.sSentence = self.sSentence[:dToken["nStart"]] + " " * (dToken["nEnd"] - dToken["nStart"]) + self.sSentence[dToken["nEnd"]:] bKeepToken = False # if bKeepToken: lNewToken.append(dToken) if "sNewValue" in dToken: # rewrite token and sentence if bDebug: ~~echo(dToken["sValue"], "~~->",~~ dToken["sNewValue"])~~ echo(dToken["sValue"] + " -> " + dToken["sNewValue"]) dToken["sRealValue"] = dToken["sValue"] dToken["sValue"] = dToken["sNewValue"] nDiffLen = len(dToken["sRealValue"]) - len(dToken["sNewValue"]) sNewRepl = (dToken["sNewValue"] + " " * nDiffLen) if nDiffLen >= 0 else dToken["sNewValue"][:len(dToken["sRealValue"])] self.sSentence = self.sSentence[:dToken["nStart"]] + sNewRepl + self.sSentence[dToken["nEnd"]:] del dToken["sNewValue"] else: try: del self.dTokenPos[dToken["nStart"]] except: echo(self) echo(dToken) exit() if bDebug: ~~echo(" TEXT REWRITED:", self.sSentence)~~ echo(" TEXT REWRITED: " + self.sSentence) self.lToken.clear() self.lToken = lNewToken #### common functions def option (sOpt):
︙

Grammalecte Diff

Differences From Artifact [62e5b9807b]:

To Artifact [7169e30ca7]: