python/Lib/difflib.py

7db96d56Sopenharmony_ci"""
7db96d56Sopenharmony_ciModule difflib -- helpers for computing deltas between objects.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciFunction get_close_matches(word, possibilities, n=3, cutoff=0.6):
7db96d56Sopenharmony_ci    Use SequenceMatcher to return list of the best "good enough" matches.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciFunction context_diff(a, b):
7db96d56Sopenharmony_ci    For two lists of strings, return a delta in context diff format.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciFunction ndiff(a, b):
7db96d56Sopenharmony_ci    Return a delta: the difference between `a` and `b` (lists of strings).
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciFunction restore(delta, which):
7db96d56Sopenharmony_ci    Return one of the two sequences that generated an ndiff delta.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciFunction unified_diff(a, b):
7db96d56Sopenharmony_ci    For two lists of strings, return a delta in unified diff format.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciClass SequenceMatcher:
7db96d56Sopenharmony_ci    A flexible class for comparing pairs of sequences of any type.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciClass Differ:
7db96d56Sopenharmony_ci    For producing human-readable deltas from sequences of lines of text.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciClass HtmlDiff:
7db96d56Sopenharmony_ci    For producing HTML side by side comparison with change highlights.
7db96d56Sopenharmony_ci"""
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci__all__ = ['get_close_matches', 'ndiff', 'restore', 'SequenceMatcher',
7db96d56Sopenharmony_ci           'Differ','IS_CHARACTER_JUNK', 'IS_LINE_JUNK', 'context_diff',
7db96d56Sopenharmony_ci           'unified_diff', 'diff_bytes', 'HtmlDiff', 'Match']
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cifrom heapq import nlargest as _nlargest
7db96d56Sopenharmony_cifrom collections import namedtuple as _namedtuple
7db96d56Sopenharmony_cifrom types import GenericAlias
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciMatch = _namedtuple('Match', 'a b size')
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cidef _calculate_ratio(matches, length):
7db96d56Sopenharmony_ci    if length:
7db96d56Sopenharmony_ci        return 2.0 * matches / length
7db96d56Sopenharmony_ci    return 1.0
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciclass SequenceMatcher:
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    """
7db96d56Sopenharmony_ci    SequenceMatcher is a flexible class for comparing pairs of sequences of
7db96d56Sopenharmony_ci    any type, so long as the sequence elements are hashable.  The basic
7db96d56Sopenharmony_ci    algorithm predates, and is a little fancier than, an algorithm
7db96d56Sopenharmony_ci    published in the late 1980's by Ratcliff and Obershelp under the
7db96d56Sopenharmony_ci    hyperbolic name "gestalt pattern matching".  The basic idea is to find
7db96d56Sopenharmony_ci    the longest contiguous matching subsequence that contains no "junk"
7db96d56Sopenharmony_ci    elements (R-O doesn't address junk).  The same idea is then applied
7db96d56Sopenharmony_ci    recursively to the pieces of the sequences to the left and to the right
7db96d56Sopenharmony_ci    of the matching subsequence.  This does not yield minimal edit
7db96d56Sopenharmony_ci    sequences, but does tend to yield matches that "look right" to people.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    SequenceMatcher tries to compute a "human-friendly diff" between two
7db96d56Sopenharmony_ci    sequences.  Unlike e.g. UNIX(tm) diff, the fundamental notion is the
7db96d56Sopenharmony_ci    longest *contiguous* & junk-free matching subsequence.  That's what
7db96d56Sopenharmony_ci    catches peoples' eyes.  The Windows(tm) windiff has another interesting
7db96d56Sopenharmony_ci    notion, pairing up elements that appear uniquely in each sequence.
7db96d56Sopenharmony_ci    That, and the method here, appear to yield more intuitive difference
7db96d56Sopenharmony_ci    reports than does diff.  This method appears to be the least vulnerable
7db96d56Sopenharmony_ci    to syncing up on blocks of "junk lines", though (like blank lines in
7db96d56Sopenharmony_ci    ordinary text files, or maybe "<P>" lines in HTML files).  That may be
7db96d56Sopenharmony_ci    because this is the only method of the 3 that has a *concept* of
7db96d56Sopenharmony_ci    "junk" <wink>.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    Example, comparing two strings, and considering blanks to be "junk":
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    >>> s = SequenceMatcher(lambda x: x == " ",
7db96d56Sopenharmony_ci    ...                     "private Thread currentThread;",
7db96d56Sopenharmony_ci    ...                     "private volatile Thread currentThread;")
7db96d56Sopenharmony_ci    >>>
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    .ratio() returns a float in [0, 1], measuring the "similarity" of the
7db96d56Sopenharmony_ci    sequences.  As a rule of thumb, a .ratio() value over 0.6 means the
7db96d56Sopenharmony_ci    sequences are close matches:
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    >>> print(round(s.ratio(), 3))
7db96d56Sopenharmony_ci    0.866
7db96d56Sopenharmony_ci    >>>
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    If you're only interested in where the sequences match,
7db96d56Sopenharmony_ci    .get_matching_blocks() is handy:
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    >>> for block in s.get_matching_blocks():
7db96d56Sopenharmony_ci    ...     print("a[%d] and b[%d] match for %d elements" % block)
7db96d56Sopenharmony_ci    a[0] and b[0] match for 8 elements
7db96d56Sopenharmony_ci    a[8] and b[17] match for 21 elements
7db96d56Sopenharmony_ci    a[29] and b[38] match for 0 elements
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    Note that the last tuple returned by .get_matching_blocks() is always a
7db96d56Sopenharmony_ci    dummy, (len(a), len(b), 0), and this is the only case in which the last
7db96d56Sopenharmony_ci    tuple element (number of elements matched) is 0.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    If you want to know how to change the first sequence into the second,
7db96d56Sopenharmony_ci    use .get_opcodes():
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    >>> for opcode in s.get_opcodes():
7db96d56Sopenharmony_ci    ...     print("%6s a[%d:%d] b[%d:%d]" % opcode)
7db96d56Sopenharmony_ci     equal a[0:8] b[0:8]
7db96d56Sopenharmony_ci    insert a[8:8] b[8:17]
7db96d56Sopenharmony_ci     equal a[8:29] b[17:38]
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    See the Differ class for a fancy human-friendly file differencer, which
7db96d56Sopenharmony_ci    uses SequenceMatcher both to compare sequences of lines, and to compare
7db96d56Sopenharmony_ci    sequences of characters within similar (near-matching) lines.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    See also function get_close_matches() in this module, which shows how
7db96d56Sopenharmony_ci    simple code building on SequenceMatcher can be used to do useful work.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    Timing:  Basic R-O is cubic time worst case and quadratic time expected
7db96d56Sopenharmony_ci    case.  SequenceMatcher is quadratic time for the worst case and has
7db96d56Sopenharmony_ci    expected-case behavior dependent in a complicated way on how many
7db96d56Sopenharmony_ci    elements the sequences have in common; best case time is linear.
7db96d56Sopenharmony_ci    """
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def __init__(self, isjunk=None, a='', b='', autojunk=True):
7db96d56Sopenharmony_ci        """Construct a SequenceMatcher.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        Optional arg isjunk is None (the default), or a one-argument
7db96d56Sopenharmony_ci        function that takes a sequence element and returns true iff the
7db96d56Sopenharmony_ci        element is junk.  None is equivalent to passing "lambda x: 0", i.e.
7db96d56Sopenharmony_ci        no elements are considered to be junk.  For example, pass
7db96d56Sopenharmony_ci            lambda x: x in " \\t"
7db96d56Sopenharmony_ci        if you're comparing lines as sequences of characters, and don't
7db96d56Sopenharmony_ci        want to synch up on blanks or hard tabs.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        Optional arg a is the first of two sequences to be compared.  By
7db96d56Sopenharmony_ci        default, an empty string.  The elements of a must be hashable.  See
7db96d56Sopenharmony_ci        also .set_seqs() and .set_seq1().
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        Optional arg b is the second of two sequences to be compared.  By
7db96d56Sopenharmony_ci        default, an empty string.  The elements of b must be hashable. See
7db96d56Sopenharmony_ci        also .set_seqs() and .set_seq2().
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        Optional arg autojunk should be set to False to disable the
7db96d56Sopenharmony_ci        "automatic junk heuristic" that treats popular elements as junk
7db96d56Sopenharmony_ci        (see module documentation for more information).
7db96d56Sopenharmony_ci        """
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # Members:
7db96d56Sopenharmony_ci        # a
7db96d56Sopenharmony_ci        #      first sequence
7db96d56Sopenharmony_ci        # b
7db96d56Sopenharmony_ci        #      second sequence; differences are computed as "what do
7db96d56Sopenharmony_ci        #      we need to do to 'a' to change it into 'b'?"
7db96d56Sopenharmony_ci        # b2j
7db96d56Sopenharmony_ci        #      for x in b, b2j[x] is a list of the indices (into b)
7db96d56Sopenharmony_ci        #      at which x appears; junk and popular elements do not appear
7db96d56Sopenharmony_ci        # fullbcount
7db96d56Sopenharmony_ci        #      for x in b, fullbcount[x] == the number of times x
7db96d56Sopenharmony_ci        #      appears in b; only materialized if really needed (used
7db96d56Sopenharmony_ci        #      only for computing quick_ratio())
7db96d56Sopenharmony_ci        # matching_blocks
7db96d56Sopenharmony_ci        #      a list of (i, j, k) triples, where a[i:i+k] == b[j:j+k];
7db96d56Sopenharmony_ci        #      ascending & non-overlapping in i and in j; terminated by
7db96d56Sopenharmony_ci        #      a dummy (len(a), len(b), 0) sentinel
7db96d56Sopenharmony_ci        # opcodes
7db96d56Sopenharmony_ci        #      a list of (tag, i1, i2, j1, j2) tuples, where tag is
7db96d56Sopenharmony_ci        #      one of
7db96d56Sopenharmony_ci        #          'replace'   a[i1:i2] should be replaced by b[j1:j2]
7db96d56Sopenharmony_ci        #          'delete'    a[i1:i2] should be deleted
7db96d56Sopenharmony_ci        #          'insert'    b[j1:j2] should be inserted
7db96d56Sopenharmony_ci        #          'equal'     a[i1:i2] == b[j1:j2]
7db96d56Sopenharmony_ci        # isjunk
7db96d56Sopenharmony_ci        #      a user-supplied function taking a sequence element and
7db96d56Sopenharmony_ci        #      returning true iff the element is "junk" -- this has
7db96d56Sopenharmony_ci        #      subtle but helpful effects on the algorithm, which I'll
7db96d56Sopenharmony_ci        #      get around to writing up someday <0.9 wink>.
7db96d56Sopenharmony_ci        #      DON'T USE!  Only __chain_b uses this.  Use "in self.bjunk".
7db96d56Sopenharmony_ci        # bjunk
7db96d56Sopenharmony_ci        #      the items in b for which isjunk is True.
7db96d56Sopenharmony_ci        # bpopular
7db96d56Sopenharmony_ci        #      nonjunk items in b treated as junk by the heuristic (if used).
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        self.isjunk = isjunk
7db96d56Sopenharmony_ci        self.a = self.b = None
7db96d56Sopenharmony_ci        self.autojunk = autojunk
7db96d56Sopenharmony_ci        self.set_seqs(a, b)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def set_seqs(self, a, b):
7db96d56Sopenharmony_ci        """Set the two sequences to be compared.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        >>> s = SequenceMatcher()
7db96d56Sopenharmony_ci        >>> s.set_seqs("abcd", "bcde")
7db96d56Sopenharmony_ci        >>> s.ratio()
7db96d56Sopenharmony_ci        0.75
7db96d56Sopenharmony_ci        """
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        self.set_seq1(a)
7db96d56Sopenharmony_ci        self.set_seq2(b)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def set_seq1(self, a):
7db96d56Sopenharmony_ci        """Set the first sequence to be compared.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        The second sequence to be compared is not changed.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        >>> s = SequenceMatcher(None, "abcd", "bcde")
7db96d56Sopenharmony_ci        >>> s.ratio()
7db96d56Sopenharmony_ci        0.75
7db96d56Sopenharmony_ci        >>> s.set_seq1("bcde")
7db96d56Sopenharmony_ci        >>> s.ratio()
7db96d56Sopenharmony_ci        1.0
7db96d56Sopenharmony_ci        >>>
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        SequenceMatcher computes and caches detailed information about the
7db96d56Sopenharmony_ci        second sequence, so if you want to compare one sequence S against
7db96d56Sopenharmony_ci        many sequences, use .set_seq2(S) once and call .set_seq1(x)
7db96d56Sopenharmony_ci        repeatedly for each of the other sequences.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        See also set_seqs() and set_seq2().
7db96d56Sopenharmony_ci        """
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        if a is self.a:
7db96d56Sopenharmony_ci            return
7db96d56Sopenharmony_ci        self.a = a
7db96d56Sopenharmony_ci        self.matching_blocks = self.opcodes = None
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def set_seq2(self, b):
7db96d56Sopenharmony_ci        """Set the second sequence to be compared.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        The first sequence to be compared is not changed.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        >>> s = SequenceMatcher(None, "abcd", "bcde")
7db96d56Sopenharmony_ci        >>> s.ratio()
7db96d56Sopenharmony_ci        0.75
7db96d56Sopenharmony_ci        >>> s.set_seq2("abcd")
7db96d56Sopenharmony_ci        >>> s.ratio()
7db96d56Sopenharmony_ci        1.0
7db96d56Sopenharmony_ci        >>>
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        SequenceMatcher computes and caches detailed information about the
7db96d56Sopenharmony_ci        second sequence, so if you want to compare one sequence S against
7db96d56Sopenharmony_ci        many sequences, use .set_seq2(S) once and call .set_seq1(x)
7db96d56Sopenharmony_ci        repeatedly for each of the other sequences.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        See also set_seqs() and set_seq1().
7db96d56Sopenharmony_ci        """
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        if b is self.b:
7db96d56Sopenharmony_ci            return
7db96d56Sopenharmony_ci        self.b = b
7db96d56Sopenharmony_ci        self.matching_blocks = self.opcodes = None
7db96d56Sopenharmony_ci        self.fullbcount = None
7db96d56Sopenharmony_ci        self.__chain_b()
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    # For each element x in b, set b2j[x] to a list of the indices in
7db96d56Sopenharmony_ci    # b where x appears; the indices are in increasing order; note that
7db96d56Sopenharmony_ci    # the number of times x appears in b is len(b2j[x]) ...
7db96d56Sopenharmony_ci    # when self.isjunk is defined, junk elements don't show up in this
7db96d56Sopenharmony_ci    # map at all, which stops the central find_longest_match method
7db96d56Sopenharmony_ci    # from starting any matching block at a junk element ...
7db96d56Sopenharmony_ci    # b2j also does not contain entries for "popular" elements, meaning
7db96d56Sopenharmony_ci    # elements that account for more than 1 + 1% of the total elements, and
7db96d56Sopenharmony_ci    # when the sequence is reasonably large (>= 200 elements); this can
7db96d56Sopenharmony_ci    # be viewed as an adaptive notion of semi-junk, and yields an enormous
7db96d56Sopenharmony_ci    # speedup when, e.g., comparing program files with hundreds of
7db96d56Sopenharmony_ci    # instances of "return NULL;" ...
7db96d56Sopenharmony_ci    # note that this is only called when b changes; so for cross-product
7db96d56Sopenharmony_ci    # kinds of matches, it's best to call set_seq2 once, then set_seq1
7db96d56Sopenharmony_ci    # repeatedly
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def __chain_b(self):
7db96d56Sopenharmony_ci        # Because isjunk is a user-defined (not C) function, and we test
7db96d56Sopenharmony_ci        # for junk a LOT, it's important to minimize the number of calls.
7db96d56Sopenharmony_ci        # Before the tricks described here, __chain_b was by far the most
7db96d56Sopenharmony_ci        # time-consuming routine in the whole module!  If anyone sees
7db96d56Sopenharmony_ci        # Jim Roskind, thank him again for profile.py -- I never would
7db96d56Sopenharmony_ci        # have guessed that.
7db96d56Sopenharmony_ci        # The first trick is to build b2j ignoring the possibility
7db96d56Sopenharmony_ci        # of junk.  I.e., we don't call isjunk at all yet.  Throwing
7db96d56Sopenharmony_ci        # out the junk later is much cheaper than building b2j "right"
7db96d56Sopenharmony_ci        # from the start.
7db96d56Sopenharmony_ci        b = self.b
7db96d56Sopenharmony_ci        self.b2j = b2j = {}
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        for i, elt in enumerate(b):
7db96d56Sopenharmony_ci            indices = b2j.setdefault(elt, [])
7db96d56Sopenharmony_ci            indices.append(i)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # Purge junk elements
7db96d56Sopenharmony_ci        self.bjunk = junk = set()
7db96d56Sopenharmony_ci        isjunk = self.isjunk
7db96d56Sopenharmony_ci        if isjunk:
7db96d56Sopenharmony_ci            for elt in b2j.keys():
7db96d56Sopenharmony_ci                if isjunk(elt):
7db96d56Sopenharmony_ci                    junk.add(elt)
7db96d56Sopenharmony_ci            for elt in junk: # separate loop avoids separate list of keys
7db96d56Sopenharmony_ci                del b2j[elt]
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # Purge popular elements that are not junk
7db96d56Sopenharmony_ci        self.bpopular = popular = set()
7db96d56Sopenharmony_ci        n = len(b)
7db96d56Sopenharmony_ci        if self.autojunk and n >= 200:
7db96d56Sopenharmony_ci            ntest = n // 100 + 1
7db96d56Sopenharmony_ci            for elt, idxs in b2j.items():
7db96d56Sopenharmony_ci                if len(idxs) > ntest:
7db96d56Sopenharmony_ci                    popular.add(elt)
7db96d56Sopenharmony_ci            for elt in popular: # ditto; as fast for 1% deletion
7db96d56Sopenharmony_ci                del b2j[elt]
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def find_longest_match(self, alo=0, ahi=None, blo=0, bhi=None):
7db96d56Sopenharmony_ci        """Find longest matching block in a[alo:ahi] and b[blo:bhi].
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        By default it will find the longest match in the entirety of a and b.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        If isjunk is not defined:
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        Return (i,j,k) such that a[i:i+k] is equal to b[j:j+k], where
7db96d56Sopenharmony_ci            alo <= i <= i+k <= ahi
7db96d56Sopenharmony_ci            blo <= j <= j+k <= bhi
7db96d56Sopenharmony_ci        and for all (i',j',k') meeting those conditions,
7db96d56Sopenharmony_ci            k >= k'
7db96d56Sopenharmony_ci            i <= i'
7db96d56Sopenharmony_ci            and if i == i', j <= j'
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        In other words, of all maximal matching blocks, return one that
7db96d56Sopenharmony_ci        starts earliest in a, and of all those maximal matching blocks that
7db96d56Sopenharmony_ci        start earliest in a, return the one that starts earliest in b.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        >>> s = SequenceMatcher(None, " abcd", "abcd abcd")
7db96d56Sopenharmony_ci        >>> s.find_longest_match(0, 5, 0, 9)
7db96d56Sopenharmony_ci        Match(a=0, b=4, size=5)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        If isjunk is defined, first the longest matching block is
7db96d56Sopenharmony_ci        determined as above, but with the additional restriction that no
7db96d56Sopenharmony_ci        junk element appears in the block.  Then that block is extended as
7db96d56Sopenharmony_ci        far as possible by matching (only) junk elements on both sides.  So
7db96d56Sopenharmony_ci        the resulting block never matches on junk except as identical junk
7db96d56Sopenharmony_ci        happens to be adjacent to an "interesting" match.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        Here's the same example as before, but considering blanks to be
7db96d56Sopenharmony_ci        junk.  That prevents " abcd" from matching the " abcd" at the tail
7db96d56Sopenharmony_ci        end of the second sequence directly.  Instead only the "abcd" can
7db96d56Sopenharmony_ci        match, and matches the leftmost "abcd" in the second sequence:
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        >>> s = SequenceMatcher(lambda x: x==" ", " abcd", "abcd abcd")
7db96d56Sopenharmony_ci        >>> s.find_longest_match(0, 5, 0, 9)
7db96d56Sopenharmony_ci        Match(a=1, b=0, size=4)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        If no blocks match, return (alo, blo, 0).
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        >>> s = SequenceMatcher(None, "ab", "c")
7db96d56Sopenharmony_ci        >>> s.find_longest_match(0, 2, 0, 1)
7db96d56Sopenharmony_ci        Match(a=0, b=0, size=0)
7db96d56Sopenharmony_ci        """
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # CAUTION:  stripping common prefix or suffix would be incorrect.
7db96d56Sopenharmony_ci        # E.g.,
7db96d56Sopenharmony_ci        #    ab
7db96d56Sopenharmony_ci        #    acab
7db96d56Sopenharmony_ci        # Longest matching block is "ab", but if common prefix is
7db96d56Sopenharmony_ci        # stripped, it's "a" (tied with "b").  UNIX(tm) diff does so
7db96d56Sopenharmony_ci        # strip, so ends up claiming that ab is changed to acab by
7db96d56Sopenharmony_ci        # inserting "ca" in the middle.  That's minimal but unintuitive:
7db96d56Sopenharmony_ci        # "it's obvious" that someone inserted "ac" at the front.
7db96d56Sopenharmony_ci        # Windiff ends up at the same place as diff, but by pairing up
7db96d56Sopenharmony_ci        # the unique 'b's and then matching the first two 'a's.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        a, b, b2j, isbjunk = self.a, self.b, self.b2j, self.bjunk.__contains__
7db96d56Sopenharmony_ci        if ahi is None:
7db96d56Sopenharmony_ci            ahi = len(a)
7db96d56Sopenharmony_ci        if bhi is None:
7db96d56Sopenharmony_ci            bhi = len(b)
7db96d56Sopenharmony_ci        besti, bestj, bestsize = alo, blo, 0
7db96d56Sopenharmony_ci        # find longest junk-free match
7db96d56Sopenharmony_ci        # during an iteration of the loop, j2len[j] = length of longest
7db96d56Sopenharmony_ci        # junk-free match ending with a[i-1] and b[j]
7db96d56Sopenharmony_ci        j2len = {}
7db96d56Sopenharmony_ci        nothing = []
7db96d56Sopenharmony_ci        for i in range(alo, ahi):
7db96d56Sopenharmony_ci            # look at all instances of a[i] in b; note that because
7db96d56Sopenharmony_ci            # b2j has no junk keys, the loop is skipped if a[i] is junk
7db96d56Sopenharmony_ci            j2lenget = j2len.get
7db96d56Sopenharmony_ci            newj2len = {}
7db96d56Sopenharmony_ci            for j in b2j.get(a[i], nothing):
7db96d56Sopenharmony_ci                # a[i] matches b[j]
7db96d56Sopenharmony_ci                if j < blo:
7db96d56Sopenharmony_ci                    continue
7db96d56Sopenharmony_ci                if j >= bhi:
7db96d56Sopenharmony_ci                    break
7db96d56Sopenharmony_ci                k = newj2len[j] = j2lenget(j-1, 0) + 1
7db96d56Sopenharmony_ci                if k > bestsize:
7db96d56Sopenharmony_ci                    besti, bestj, bestsize = i-k+1, j-k+1, k
7db96d56Sopenharmony_ci            j2len = newj2len
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # Extend the best by non-junk elements on each end.  In particular,
7db96d56Sopenharmony_ci        # "popular" non-junk elements aren't in b2j, which greatly speeds
7db96d56Sopenharmony_ci        # the inner loop above, but also means "the best" match so far
7db96d56Sopenharmony_ci        # doesn't contain any junk *or* popular non-junk elements.
7db96d56Sopenharmony_ci        while besti > alo and bestj > blo and \
7db96d56Sopenharmony_ci              not isbjunk(b[bestj-1]) and \
7db96d56Sopenharmony_ci              a[besti-1] == b[bestj-1]:
7db96d56Sopenharmony_ci            besti, bestj, bestsize = besti-1, bestj-1, bestsize+1
7db96d56Sopenharmony_ci        while besti+bestsize < ahi and bestj+bestsize < bhi and \
7db96d56Sopenharmony_ci              not isbjunk(b[bestj+bestsize]) and \
7db96d56Sopenharmony_ci              a[besti+bestsize] == b[bestj+bestsize]:
7db96d56Sopenharmony_ci            bestsize += 1
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # Now that we have a wholly interesting match (albeit possibly
7db96d56Sopenharmony_ci        # empty!), we may as well suck up the matching junk on each
7db96d56Sopenharmony_ci        # side of it too.  Can't think of a good reason not to, and it
7db96d56Sopenharmony_ci        # saves post-processing the (possibly considerable) expense of
7db96d56Sopenharmony_ci        # figuring out what to do with it.  In the case of an empty
7db96d56Sopenharmony_ci        # interesting match, this is clearly the right thing to do,
7db96d56Sopenharmony_ci        # because no other kind of match is possible in the regions.
7db96d56Sopenharmony_ci        while besti > alo and bestj > blo and \
7db96d56Sopenharmony_ci              isbjunk(b[bestj-1]) and \
7db96d56Sopenharmony_ci              a[besti-1] == b[bestj-1]:
7db96d56Sopenharmony_ci            besti, bestj, bestsize = besti-1, bestj-1, bestsize+1
7db96d56Sopenharmony_ci        while besti+bestsize < ahi and bestj+bestsize < bhi and \
7db96d56Sopenharmony_ci              isbjunk(b[bestj+bestsize]) and \
7db96d56Sopenharmony_ci              a[besti+bestsize] == b[bestj+bestsize]:
7db96d56Sopenharmony_ci            bestsize = bestsize + 1
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        return Match(besti, bestj, bestsize)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def get_matching_blocks(self):
7db96d56Sopenharmony_ci        """Return list of triples describing matching subsequences.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        Each triple is of the form (i, j, n), and means that
7db96d56Sopenharmony_ci        a[i:i+n] == b[j:j+n].  The triples are monotonically increasing in
7db96d56Sopenharmony_ci        i and in j.  New in Python 2.5, it's also guaranteed that if
7db96d56Sopenharmony_ci        (i, j, n) and (i', j', n') are adjacent triples in the list, and
7db96d56Sopenharmony_ci        the second is not the last triple in the list, then i+n != i' or
7db96d56Sopenharmony_ci        j+n != j'.  IOW, adjacent triples never describe adjacent equal
7db96d56Sopenharmony_ci        blocks.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        The last triple is a dummy, (len(a), len(b), 0), and is the only
7db96d56Sopenharmony_ci        triple with n==0.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        >>> s = SequenceMatcher(None, "abxcd", "abcd")
7db96d56Sopenharmony_ci        >>> list(s.get_matching_blocks())
7db96d56Sopenharmony_ci        [Match(a=0, b=0, size=2), Match(a=3, b=2, size=2), Match(a=5, b=4, size=0)]
7db96d56Sopenharmony_ci        """
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        if self.matching_blocks is not None:
7db96d56Sopenharmony_ci            return self.matching_blocks
7db96d56Sopenharmony_ci        la, lb = len(self.a), len(self.b)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # This is most naturally expressed as a recursive algorithm, but
7db96d56Sopenharmony_ci        # at least one user bumped into extreme use cases that exceeded
7db96d56Sopenharmony_ci        # the recursion limit on their box.  So, now we maintain a list
7db96d56Sopenharmony_ci        # ('queue`) of blocks we still need to look at, and append partial
7db96d56Sopenharmony_ci        # results to `matching_blocks` in a loop; the matches are sorted
7db96d56Sopenharmony_ci        # at the end.
7db96d56Sopenharmony_ci        queue = [(0, la, 0, lb)]
7db96d56Sopenharmony_ci        matching_blocks = []
7db96d56Sopenharmony_ci        while queue:
7db96d56Sopenharmony_ci            alo, ahi, blo, bhi = queue.pop()
7db96d56Sopenharmony_ci            i, j, k = x = self.find_longest_match(alo, ahi, blo, bhi)
7db96d56Sopenharmony_ci            # a[alo:i] vs b[blo:j] unknown
7db96d56Sopenharmony_ci            # a[i:i+k] same as b[j:j+k]
7db96d56Sopenharmony_ci            # a[i+k:ahi] vs b[j+k:bhi] unknown
7db96d56Sopenharmony_ci            if k:   # if k is 0, there was no matching block
7db96d56Sopenharmony_ci                matching_blocks.append(x)
7db96d56Sopenharmony_ci                if alo < i and blo < j:
7db96d56Sopenharmony_ci                    queue.append((alo, i, blo, j))
7db96d56Sopenharmony_ci                if i+k < ahi and j+k < bhi:
7db96d56Sopenharmony_ci                    queue.append((i+k, ahi, j+k, bhi))
7db96d56Sopenharmony_ci        matching_blocks.sort()
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # It's possible that we have adjacent equal blocks in the
7db96d56Sopenharmony_ci        # matching_blocks list now.  Starting with 2.5, this code was added
7db96d56Sopenharmony_ci        # to collapse them.
7db96d56Sopenharmony_ci        i1 = j1 = k1 = 0
7db96d56Sopenharmony_ci        non_adjacent = []
7db96d56Sopenharmony_ci        for i2, j2, k2 in matching_blocks:
7db96d56Sopenharmony_ci            # Is this block adjacent to i1, j1, k1?
7db96d56Sopenharmony_ci            if i1 + k1 == i2 and j1 + k1 == j2:
7db96d56Sopenharmony_ci                # Yes, so collapse them -- this just increases the length of
7db96d56Sopenharmony_ci                # the first block by the length of the second, and the first
7db96d56Sopenharmony_ci                # block so lengthened remains the block to compare against.
7db96d56Sopenharmony_ci                k1 += k2
7db96d56Sopenharmony_ci            else:
7db96d56Sopenharmony_ci                # Not adjacent.  Remember the first block (k1==0 means it's
7db96d56Sopenharmony_ci                # the dummy we started with), and make the second block the
7db96d56Sopenharmony_ci                # new block to compare against.
7db96d56Sopenharmony_ci                if k1:
7db96d56Sopenharmony_ci                    non_adjacent.append((i1, j1, k1))
7db96d56Sopenharmony_ci                i1, j1, k1 = i2, j2, k2
7db96d56Sopenharmony_ci        if k1:
7db96d56Sopenharmony_ci            non_adjacent.append((i1, j1, k1))
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        non_adjacent.append( (la, lb, 0) )
7db96d56Sopenharmony_ci        self.matching_blocks = list(map(Match._make, non_adjacent))
7db96d56Sopenharmony_ci        return self.matching_blocks
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def get_opcodes(self):
7db96d56Sopenharmony_ci        """Return list of 5-tuples describing how to turn a into b.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        Each tuple is of the form (tag, i1, i2, j1, j2).  The first tuple
7db96d56Sopenharmony_ci        has i1 == j1 == 0, and remaining tuples have i1 == the i2 from the
7db96d56Sopenharmony_ci        tuple preceding it, and likewise for j1 == the previous j2.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        The tags are strings, with these meanings:
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        'replace':  a[i1:i2] should be replaced by b[j1:j2]
7db96d56Sopenharmony_ci        'delete':   a[i1:i2] should be deleted.
7db96d56Sopenharmony_ci                    Note that j1==j2 in this case.
7db96d56Sopenharmony_ci        'insert':   b[j1:j2] should be inserted at a[i1:i1].
7db96d56Sopenharmony_ci                    Note that i1==i2 in this case.
7db96d56Sopenharmony_ci        'equal':    a[i1:i2] == b[j1:j2]
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        >>> a = "qabxcd"
7db96d56Sopenharmony_ci        >>> b = "abycdf"
7db96d56Sopenharmony_ci        >>> s = SequenceMatcher(None, a, b)
7db96d56Sopenharmony_ci        >>> for tag, i1, i2, j1, j2 in s.get_opcodes():
7db96d56Sopenharmony_ci        ...    print(("%7s a[%d:%d] (%s) b[%d:%d] (%s)" %
7db96d56Sopenharmony_ci        ...           (tag, i1, i2, a[i1:i2], j1, j2, b[j1:j2])))
7db96d56Sopenharmony_ci         delete a[0:1] (q) b[0:0] ()
7db96d56Sopenharmony_ci          equal a[1:3] (ab) b[0:2] (ab)
7db96d56Sopenharmony_ci        replace a[3:4] (x) b[2:3] (y)
7db96d56Sopenharmony_ci          equal a[4:6] (cd) b[3:5] (cd)
7db96d56Sopenharmony_ci         insert a[6:6] () b[5:6] (f)
7db96d56Sopenharmony_ci        """
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        if self.opcodes is not None:
7db96d56Sopenharmony_ci            return self.opcodes
7db96d56Sopenharmony_ci        i = j = 0
7db96d56Sopenharmony_ci        self.opcodes = answer = []
7db96d56Sopenharmony_ci        for ai, bj, size in self.get_matching_blocks():
7db96d56Sopenharmony_ci            # invariant:  we've pumped out correct diffs to change
7db96d56Sopenharmony_ci            # a[:i] into b[:j], and the next matching block is
7db96d56Sopenharmony_ci            # a[ai:ai+size] == b[bj:bj+size].  So we need to pump
7db96d56Sopenharmony_ci            # out a diff to change a[i:ai] into b[j:bj], pump out
7db96d56Sopenharmony_ci            # the matching block, and move (i,j) beyond the match
7db96d56Sopenharmony_ci            tag = ''
7db96d56Sopenharmony_ci            if i < ai and j < bj:
7db96d56Sopenharmony_ci                tag = 'replace'
7db96d56Sopenharmony_ci            elif i < ai:
7db96d56Sopenharmony_ci                tag = 'delete'
7db96d56Sopenharmony_ci            elif j < bj:
7db96d56Sopenharmony_ci                tag = 'insert'
7db96d56Sopenharmony_ci            if tag:
7db96d56Sopenharmony_ci                answer.append( (tag, i, ai, j, bj) )
7db96d56Sopenharmony_ci            i, j = ai+size, bj+size
7db96d56Sopenharmony_ci            # the list of matching blocks is terminated by a
7db96d56Sopenharmony_ci            # sentinel with size 0
7db96d56Sopenharmony_ci            if size:
7db96d56Sopenharmony_ci                answer.append( ('equal', ai, i, bj, j) )
7db96d56Sopenharmony_ci        return answer
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def get_grouped_opcodes(self, n=3):
7db96d56Sopenharmony_ci        """ Isolate change clusters by eliminating ranges with no changes.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        Return a generator of groups with up to n lines of context.
7db96d56Sopenharmony_ci        Each group is in the same format as returned by get_opcodes().
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        >>> from pprint import pprint
7db96d56Sopenharmony_ci        >>> a = list(map(str, range(1,40)))
7db96d56Sopenharmony_ci        >>> b = a[:]
7db96d56Sopenharmony_ci        >>> b[8:8] = ['i']     # Make an insertion
7db96d56Sopenharmony_ci        >>> b[20] += 'x'       # Make a replacement
7db96d56Sopenharmony_ci        >>> b[23:28] = []      # Make a deletion
7db96d56Sopenharmony_ci        >>> b[30] += 'y'       # Make another replacement
7db96d56Sopenharmony_ci        >>> pprint(list(SequenceMatcher(None,a,b).get_grouped_opcodes()))
7db96d56Sopenharmony_ci        [[('equal', 5, 8, 5, 8), ('insert', 8, 8, 8, 9), ('equal', 8, 11, 9, 12)],
7db96d56Sopenharmony_ci         [('equal', 16, 19, 17, 20),
7db96d56Sopenharmony_ci          ('replace', 19, 20, 20, 21),
7db96d56Sopenharmony_ci          ('equal', 20, 22, 21, 23),
7db96d56Sopenharmony_ci          ('delete', 22, 27, 23, 23),
7db96d56Sopenharmony_ci          ('equal', 27, 30, 23, 26)],
7db96d56Sopenharmony_ci         [('equal', 31, 34, 27, 30),
7db96d56Sopenharmony_ci          ('replace', 34, 35, 30, 31),
7db96d56Sopenharmony_ci          ('equal', 35, 38, 31, 34)]]
7db96d56Sopenharmony_ci        """
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        codes = self.get_opcodes()
7db96d56Sopenharmony_ci        if not codes:
7db96d56Sopenharmony_ci            codes = [("equal", 0, 1, 0, 1)]
7db96d56Sopenharmony_ci        # Fixup leading and trailing groups if they show no changes.
7db96d56Sopenharmony_ci        if codes[0][0] == 'equal':
7db96d56Sopenharmony_ci            tag, i1, i2, j1, j2 = codes[0]
7db96d56Sopenharmony_ci            codes[0] = tag, max(i1, i2-n), i2, max(j1, j2-n), j2
7db96d56Sopenharmony_ci        if codes[-1][0] == 'equal':
7db96d56Sopenharmony_ci            tag, i1, i2, j1, j2 = codes[-1]
7db96d56Sopenharmony_ci            codes[-1] = tag, i1, min(i2, i1+n), j1, min(j2, j1+n)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        nn = n + n
7db96d56Sopenharmony_ci        group = []
7db96d56Sopenharmony_ci        for tag, i1, i2, j1, j2 in codes:
7db96d56Sopenharmony_ci            # End the current group and start a new one whenever
7db96d56Sopenharmony_ci            # there is a large range with no changes.
7db96d56Sopenharmony_ci            if tag == 'equal' and i2-i1 > nn:
7db96d56Sopenharmony_ci                group.append((tag, i1, min(i2, i1+n), j1, min(j2, j1+n)))
7db96d56Sopenharmony_ci                yield group
7db96d56Sopenharmony_ci                group = []
7db96d56Sopenharmony_ci                i1, j1 = max(i1, i2-n), max(j1, j2-n)
7db96d56Sopenharmony_ci            group.append((tag, i1, i2, j1 ,j2))
7db96d56Sopenharmony_ci        if group and not (len(group)==1 and group[0][0] == 'equal'):
7db96d56Sopenharmony_ci            yield group
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def ratio(self):
7db96d56Sopenharmony_ci        """Return a measure of the sequences' similarity (float in [0,1]).
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        Where T is the total number of elements in both sequences, and
7db96d56Sopenharmony_ci        M is the number of matches, this is 2.0*M / T.
7db96d56Sopenharmony_ci        Note that this is 1 if the sequences are identical, and 0 if
7db96d56Sopenharmony_ci        they have nothing in common.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        .ratio() is expensive to compute if you haven't already computed
7db96d56Sopenharmony_ci        .get_matching_blocks() or .get_opcodes(), in which case you may
7db96d56Sopenharmony_ci        want to try .quick_ratio() or .real_quick_ratio() first to get an
7db96d56Sopenharmony_ci        upper bound.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        >>> s = SequenceMatcher(None, "abcd", "bcde")
7db96d56Sopenharmony_ci        >>> s.ratio()
7db96d56Sopenharmony_ci        0.75
7db96d56Sopenharmony_ci        >>> s.quick_ratio()
7db96d56Sopenharmony_ci        0.75
7db96d56Sopenharmony_ci        >>> s.real_quick_ratio()
7db96d56Sopenharmony_ci        1.0
7db96d56Sopenharmony_ci        """
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        matches = sum(triple[-1] for triple in self.get_matching_blocks())
7db96d56Sopenharmony_ci        return _calculate_ratio(matches, len(self.a) + len(self.b))
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def quick_ratio(self):
7db96d56Sopenharmony_ci        """Return an upper bound on ratio() relatively quickly.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        This isn't defined beyond that it is an upper bound on .ratio(), and
7db96d56Sopenharmony_ci        is faster to compute.
7db96d56Sopenharmony_ci        """
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # viewing a and b as multisets, set matches to the cardinality
7db96d56Sopenharmony_ci        # of their intersection; this counts the number of matches
7db96d56Sopenharmony_ci        # without regard to order, so is clearly an upper bound
7db96d56Sopenharmony_ci        if self.fullbcount is None:
7db96d56Sopenharmony_ci            self.fullbcount = fullbcount = {}
7db96d56Sopenharmony_ci            for elt in self.b:
7db96d56Sopenharmony_ci                fullbcount[elt] = fullbcount.get(elt, 0) + 1
7db96d56Sopenharmony_ci        fullbcount = self.fullbcount
7db96d56Sopenharmony_ci        # avail[x] is the number of times x appears in 'b' less the
7db96d56Sopenharmony_ci        # number of times we've seen it in 'a' so far ... kinda
7db96d56Sopenharmony_ci        avail = {}
7db96d56Sopenharmony_ci        availhas, matches = avail.__contains__, 0
7db96d56Sopenharmony_ci        for elt in self.a:
7db96d56Sopenharmony_ci            if availhas(elt):
7db96d56Sopenharmony_ci                numb = avail[elt]
7db96d56Sopenharmony_ci            else:
7db96d56Sopenharmony_ci                numb = fullbcount.get(elt, 0)
7db96d56Sopenharmony_ci            avail[elt] = numb - 1
7db96d56Sopenharmony_ci            if numb > 0:
7db96d56Sopenharmony_ci                matches = matches + 1
7db96d56Sopenharmony_ci        return _calculate_ratio(matches, len(self.a) + len(self.b))
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def real_quick_ratio(self):
7db96d56Sopenharmony_ci        """Return an upper bound on ratio() very quickly.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        This isn't defined beyond that it is an upper bound on .ratio(), and
7db96d56Sopenharmony_ci        is faster to compute than either .ratio() or .quick_ratio().
7db96d56Sopenharmony_ci        """
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        la, lb = len(self.a), len(self.b)
7db96d56Sopenharmony_ci        # can't have more matches than the number of elements in the
7db96d56Sopenharmony_ci        # shorter sequence
7db96d56Sopenharmony_ci        return _calculate_ratio(min(la, lb), la + lb)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    __class_getitem__ = classmethod(GenericAlias)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cidef get_close_matches(word, possibilities, n=3, cutoff=0.6):
7db96d56Sopenharmony_ci    """Use SequenceMatcher to return list of the best "good enough" matches.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    word is a sequence for which close matches are desired (typically a
7db96d56Sopenharmony_ci    string).
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    possibilities is a list of sequences against which to match word
7db96d56Sopenharmony_ci    (typically a list of strings).
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    Optional arg n (default 3) is the maximum number of close matches to
7db96d56Sopenharmony_ci    return.  n must be > 0.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    Optional arg cutoff (default 0.6) is a float in [0, 1].  Possibilities
7db96d56Sopenharmony_ci    that don't score at least that similar to word are ignored.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    The best (no more than n) matches among the possibilities are returned
7db96d56Sopenharmony_ci    in a list, sorted by similarity score, most similar first.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    >>> get_close_matches("appel", ["ape", "apple", "peach", "puppy"])
7db96d56Sopenharmony_ci    ['apple', 'ape']
7db96d56Sopenharmony_ci    >>> import keyword as _keyword
7db96d56Sopenharmony_ci    >>> get_close_matches("wheel", _keyword.kwlist)
7db96d56Sopenharmony_ci    ['while']
7db96d56Sopenharmony_ci    >>> get_close_matches("Apple", _keyword.kwlist)
7db96d56Sopenharmony_ci    []
7db96d56Sopenharmony_ci    >>> get_close_matches("accept", _keyword.kwlist)
7db96d56Sopenharmony_ci    ['except']
7db96d56Sopenharmony_ci    """
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    if not n >  0:
7db96d56Sopenharmony_ci        raise ValueError("n must be > 0: %r" % (n,))
7db96d56Sopenharmony_ci    if not 0.0 <= cutoff <= 1.0:
7db96d56Sopenharmony_ci        raise ValueError("cutoff must be in [0.0, 1.0]: %r" % (cutoff,))
7db96d56Sopenharmony_ci    result = []
7db96d56Sopenharmony_ci    s = SequenceMatcher()
7db96d56Sopenharmony_ci    s.set_seq2(word)
7db96d56Sopenharmony_ci    for x in possibilities:
7db96d56Sopenharmony_ci        s.set_seq1(x)
7db96d56Sopenharmony_ci        if s.real_quick_ratio() >= cutoff and \
7db96d56Sopenharmony_ci           s.quick_ratio() >= cutoff and \
7db96d56Sopenharmony_ci           s.ratio() >= cutoff:
7db96d56Sopenharmony_ci            result.append((s.ratio(), x))
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    # Move the best scorers to head of list
7db96d56Sopenharmony_ci    result = _nlargest(n, result)
7db96d56Sopenharmony_ci    # Strip scores for the best n matches
7db96d56Sopenharmony_ci    return [x for score, x in result]
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cidef _keep_original_ws(s, tag_s):
7db96d56Sopenharmony_ci    """Replace whitespace with the original whitespace characters in `s`"""
7db96d56Sopenharmony_ci    return ''.join(
7db96d56Sopenharmony_ci        c if tag_c == " " and c.isspace() else tag_c
7db96d56Sopenharmony_ci        for c, tag_c in zip(s, tag_s)
7db96d56Sopenharmony_ci    )
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciclass Differ:
7db96d56Sopenharmony_ci    r"""
7db96d56Sopenharmony_ci    Differ is a class for comparing sequences of lines of text, and
7db96d56Sopenharmony_ci    producing human-readable differences or deltas.  Differ uses
7db96d56Sopenharmony_ci    SequenceMatcher both to compare sequences of lines, and to compare
7db96d56Sopenharmony_ci    sequences of characters within similar (near-matching) lines.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    Each line of a Differ delta begins with a two-letter code:
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        '- '    line unique to sequence 1
7db96d56Sopenharmony_ci        '+ '    line unique to sequence 2
7db96d56Sopenharmony_ci        '  '    line common to both sequences
7db96d56Sopenharmony_ci        '? '    line not present in either input sequence
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    Lines beginning with '? ' attempt to guide the eye to intraline
7db96d56Sopenharmony_ci    differences, and were not present in either input sequence.  These lines
7db96d56Sopenharmony_ci    can be confusing if the sequences contain tab characters.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    Note that Differ makes no claim to produce a *minimal* diff.  To the
7db96d56Sopenharmony_ci    contrary, minimal diffs are often counter-intuitive, because they synch
7db96d56Sopenharmony_ci    up anywhere possible, sometimes accidental matches 100 pages apart.
7db96d56Sopenharmony_ci    Restricting synch points to contiguous matches preserves some notion of
7db96d56Sopenharmony_ci    locality, at the occasional cost of producing a longer diff.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    Example: Comparing two texts.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    First we set up the texts, sequences of individual single-line strings
7db96d56Sopenharmony_ci    ending with newlines (such sequences can also be obtained from the
7db96d56Sopenharmony_ci    `readlines()` method of file-like objects):
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    >>> text1 = '''  1. Beautiful is better than ugly.
7db96d56Sopenharmony_ci    ...   2. Explicit is better than implicit.
7db96d56Sopenharmony_ci    ...   3. Simple is better than complex.
7db96d56Sopenharmony_ci    ...   4. Complex is better than complicated.
7db96d56Sopenharmony_ci    ... '''.splitlines(keepends=True)
7db96d56Sopenharmony_ci    >>> len(text1)
7db96d56Sopenharmony_ci    4
7db96d56Sopenharmony_ci    >>> text1[0][-1]
7db96d56Sopenharmony_ci    '\n'
7db96d56Sopenharmony_ci    >>> text2 = '''  1. Beautiful is better than ugly.
7db96d56Sopenharmony_ci    ...   3.   Simple is better than complex.
7db96d56Sopenharmony_ci    ...   4. Complicated is better than complex.
7db96d56Sopenharmony_ci    ...   5. Flat is better than nested.
7db96d56Sopenharmony_ci    ... '''.splitlines(keepends=True)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    Next we instantiate a Differ object:
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    >>> d = Differ()
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    Note that when instantiating a Differ object we may pass functions to
7db96d56Sopenharmony_ci    filter out line and character 'junk'.  See Differ.__init__ for details.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    Finally, we compare the two:
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    >>> result = list(d.compare(text1, text2))
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    'result' is a list of strings, so let's pretty-print it:
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    >>> from pprint import pprint as _pprint
7db96d56Sopenharmony_ci    >>> _pprint(result)
7db96d56Sopenharmony_ci    ['    1. Beautiful is better than ugly.\n',
7db96d56Sopenharmony_ci     '-   2. Explicit is better than implicit.\n',
7db96d56Sopenharmony_ci     '-   3. Simple is better than complex.\n',
7db96d56Sopenharmony_ci     '+   3.   Simple is better than complex.\n',
7db96d56Sopenharmony_ci     '?     ++\n',
7db96d56Sopenharmony_ci     '-   4. Complex is better than complicated.\n',
7db96d56Sopenharmony_ci     '?            ^                     ---- ^\n',
7db96d56Sopenharmony_ci     '+   4. Complicated is better than complex.\n',
7db96d56Sopenharmony_ci     '?           ++++ ^                      ^\n',
7db96d56Sopenharmony_ci     '+   5. Flat is better than nested.\n']
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    As a single multi-line string it looks like this:
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    >>> print(''.join(result), end="")
7db96d56Sopenharmony_ci        1. Beautiful is better than ugly.
7db96d56Sopenharmony_ci    -   2. Explicit is better than implicit.
7db96d56Sopenharmony_ci    -   3. Simple is better than complex.
7db96d56Sopenharmony_ci    +   3.   Simple is better than complex.
7db96d56Sopenharmony_ci    ?     ++
7db96d56Sopenharmony_ci    -   4. Complex is better than complicated.
7db96d56Sopenharmony_ci    ?            ^                     ---- ^
7db96d56Sopenharmony_ci    +   4. Complicated is better than complex.
7db96d56Sopenharmony_ci    ?           ++++ ^                      ^
7db96d56Sopenharmony_ci    +   5. Flat is better than nested.
7db96d56Sopenharmony_ci    """
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def __init__(self, linejunk=None, charjunk=None):
7db96d56Sopenharmony_ci        """
7db96d56Sopenharmony_ci        Construct a text differencer, with optional filters.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        The two optional keyword parameters are for filter functions:
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        - `linejunk`: A function that should accept a single string argument,
7db96d56Sopenharmony_ci          and return true iff the string is junk. The module-level function
7db96d56Sopenharmony_ci          `IS_LINE_JUNK` may be used to filter out lines without visible
7db96d56Sopenharmony_ci          characters, except for at most one splat ('#').  It is recommended
7db96d56Sopenharmony_ci          to leave linejunk None; the underlying SequenceMatcher class has
7db96d56Sopenharmony_ci          an adaptive notion of "noise" lines that's better than any static
7db96d56Sopenharmony_ci          definition the author has ever been able to craft.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        - `charjunk`: A function that should accept a string of length 1. The
7db96d56Sopenharmony_ci          module-level function `IS_CHARACTER_JUNK` may be used to filter out
7db96d56Sopenharmony_ci          whitespace characters (a blank or tab; **note**: bad idea to include
7db96d56Sopenharmony_ci          newline in this!).  Use of IS_CHARACTER_JUNK is recommended.
7db96d56Sopenharmony_ci        """
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        self.linejunk = linejunk
7db96d56Sopenharmony_ci        self.charjunk = charjunk
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def compare(self, a, b):
7db96d56Sopenharmony_ci        r"""
7db96d56Sopenharmony_ci        Compare two sequences of lines; generate the resulting delta.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        Each sequence must contain individual single-line strings ending with
7db96d56Sopenharmony_ci        newlines. Such sequences can be obtained from the `readlines()` method
7db96d56Sopenharmony_ci        of file-like objects.  The delta generated also consists of newline-
7db96d56Sopenharmony_ci        terminated strings, ready to be printed as-is via the writelines()
7db96d56Sopenharmony_ci        method of a file-like object.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        Example:
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        >>> print(''.join(Differ().compare('one\ntwo\nthree\n'.splitlines(True),
7db96d56Sopenharmony_ci        ...                                'ore\ntree\nemu\n'.splitlines(True))),
7db96d56Sopenharmony_ci        ...       end="")
7db96d56Sopenharmony_ci        - one
7db96d56Sopenharmony_ci        ?  ^
7db96d56Sopenharmony_ci        + ore
7db96d56Sopenharmony_ci        ?  ^
7db96d56Sopenharmony_ci        - two
7db96d56Sopenharmony_ci        - three
7db96d56Sopenharmony_ci        ?  -
7db96d56Sopenharmony_ci        + tree
7db96d56Sopenharmony_ci        + emu
7db96d56Sopenharmony_ci        """
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        cruncher = SequenceMatcher(self.linejunk, a, b)
7db96d56Sopenharmony_ci        for tag, alo, ahi, blo, bhi in cruncher.get_opcodes():
7db96d56Sopenharmony_ci            if tag == 'replace':
7db96d56Sopenharmony_ci                g = self._fancy_replace(a, alo, ahi, b, blo, bhi)
7db96d56Sopenharmony_ci            elif tag == 'delete':
7db96d56Sopenharmony_ci                g = self._dump('-', a, alo, ahi)
7db96d56Sopenharmony_ci            elif tag == 'insert':
7db96d56Sopenharmony_ci                g = self._dump('+', b, blo, bhi)
7db96d56Sopenharmony_ci            elif tag == 'equal':
7db96d56Sopenharmony_ci                g = self._dump(' ', a, alo, ahi)
7db96d56Sopenharmony_ci            else:
7db96d56Sopenharmony_ci                raise ValueError('unknown tag %r' % (tag,))
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci            yield from g
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def _dump(self, tag, x, lo, hi):
7db96d56Sopenharmony_ci        """Generate comparison results for a same-tagged range."""
7db96d56Sopenharmony_ci        for i in range(lo, hi):
7db96d56Sopenharmony_ci            yield '%s %s' % (tag, x[i])
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def _plain_replace(self, a, alo, ahi, b, blo, bhi):
7db96d56Sopenharmony_ci        assert alo < ahi and blo < bhi
7db96d56Sopenharmony_ci        # dump the shorter block first -- reduces the burden on short-term
7db96d56Sopenharmony_ci        # memory if the blocks are of very different sizes
7db96d56Sopenharmony_ci        if bhi - blo < ahi - alo:
7db96d56Sopenharmony_ci            first  = self._dump('+', b, blo, bhi)
7db96d56Sopenharmony_ci            second = self._dump('-', a, alo, ahi)
7db96d56Sopenharmony_ci        else:
7db96d56Sopenharmony_ci            first  = self._dump('-', a, alo, ahi)
7db96d56Sopenharmony_ci            second = self._dump('+', b, blo, bhi)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        for g in first, second:
7db96d56Sopenharmony_ci            yield from g
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def _fancy_replace(self, a, alo, ahi, b, blo, bhi):
7db96d56Sopenharmony_ci        r"""
7db96d56Sopenharmony_ci        When replacing one block of lines with another, search the blocks
7db96d56Sopenharmony_ci        for *similar* lines; the best-matching pair (if any) is used as a
7db96d56Sopenharmony_ci        synch point, and intraline difference marking is done on the
7db96d56Sopenharmony_ci        similar pair. Lots of work, but often worth it.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        Example:
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        >>> d = Differ()
7db96d56Sopenharmony_ci        >>> results = d._fancy_replace(['abcDefghiJkl\n'], 0, 1,
7db96d56Sopenharmony_ci        ...                            ['abcdefGhijkl\n'], 0, 1)
7db96d56Sopenharmony_ci        >>> print(''.join(results), end="")
7db96d56Sopenharmony_ci        - abcDefghiJkl
7db96d56Sopenharmony_ci        ?    ^  ^  ^
7db96d56Sopenharmony_ci        + abcdefGhijkl
7db96d56Sopenharmony_ci        ?    ^  ^  ^
7db96d56Sopenharmony_ci        """
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # don't synch up unless the lines have a similarity score of at
7db96d56Sopenharmony_ci        # least cutoff; best_ratio tracks the best score seen so far
7db96d56Sopenharmony_ci        best_ratio, cutoff = 0.74, 0.75
7db96d56Sopenharmony_ci        cruncher = SequenceMatcher(self.charjunk)
7db96d56Sopenharmony_ci        eqi, eqj = None, None   # 1st indices of equal lines (if any)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # search for the pair that matches best without being identical
7db96d56Sopenharmony_ci        # (identical lines must be junk lines, & we don't want to synch up
7db96d56Sopenharmony_ci        # on junk -- unless we have to)
7db96d56Sopenharmony_ci        for j in range(blo, bhi):
7db96d56Sopenharmony_ci            bj = b[j]
7db96d56Sopenharmony_ci            cruncher.set_seq2(bj)
7db96d56Sopenharmony_ci            for i in range(alo, ahi):
7db96d56Sopenharmony_ci                ai = a[i]
7db96d56Sopenharmony_ci                if ai == bj:
7db96d56Sopenharmony_ci                    if eqi is None:
7db96d56Sopenharmony_ci                        eqi, eqj = i, j
7db96d56Sopenharmony_ci                    continue
7db96d56Sopenharmony_ci                cruncher.set_seq1(ai)
7db96d56Sopenharmony_ci                # computing similarity is expensive, so use the quick
7db96d56Sopenharmony_ci                # upper bounds first -- have seen this speed up messy
7db96d56Sopenharmony_ci                # compares by a factor of 3.
7db96d56Sopenharmony_ci                # note that ratio() is only expensive to compute the first
7db96d56Sopenharmony_ci                # time it's called on a sequence pair; the expensive part
7db96d56Sopenharmony_ci                # of the computation is cached by cruncher
7db96d56Sopenharmony_ci                if cruncher.real_quick_ratio() > best_ratio and \
7db96d56Sopenharmony_ci                      cruncher.quick_ratio() > best_ratio and \
7db96d56Sopenharmony_ci                      cruncher.ratio() > best_ratio:
7db96d56Sopenharmony_ci                    best_ratio, best_i, best_j = cruncher.ratio(), i, j
7db96d56Sopenharmony_ci        if best_ratio < cutoff:
7db96d56Sopenharmony_ci            # no non-identical "pretty close" pair
7db96d56Sopenharmony_ci            if eqi is None:
7db96d56Sopenharmony_ci                # no identical pair either -- treat it as a straight replace
7db96d56Sopenharmony_ci                yield from self._plain_replace(a, alo, ahi, b, blo, bhi)
7db96d56Sopenharmony_ci                return
7db96d56Sopenharmony_ci            # no close pair, but an identical pair -- synch up on that
7db96d56Sopenharmony_ci            best_i, best_j, best_ratio = eqi, eqj, 1.0
7db96d56Sopenharmony_ci        else:
7db96d56Sopenharmony_ci            # there's a close pair, so forget the identical pair (if any)
7db96d56Sopenharmony_ci            eqi = None
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # a[best_i] very similar to b[best_j]; eqi is None iff they're not
7db96d56Sopenharmony_ci        # identical
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # pump out diffs from before the synch point
7db96d56Sopenharmony_ci        yield from self._fancy_helper(a, alo, best_i, b, blo, best_j)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # do intraline marking on the synch pair
7db96d56Sopenharmony_ci        aelt, belt = a[best_i], b[best_j]
7db96d56Sopenharmony_ci        if eqi is None:
7db96d56Sopenharmony_ci            # pump out a '-', '?', '+', '?' quad for the synched lines
7db96d56Sopenharmony_ci            atags = btags = ""
7db96d56Sopenharmony_ci            cruncher.set_seqs(aelt, belt)
7db96d56Sopenharmony_ci            for tag, ai1, ai2, bj1, bj2 in cruncher.get_opcodes():
7db96d56Sopenharmony_ci                la, lb = ai2 - ai1, bj2 - bj1
7db96d56Sopenharmony_ci                if tag == 'replace':
7db96d56Sopenharmony_ci                    atags += '^' * la
7db96d56Sopenharmony_ci                    btags += '^' * lb
7db96d56Sopenharmony_ci                elif tag == 'delete':
7db96d56Sopenharmony_ci                    atags += '-' * la
7db96d56Sopenharmony_ci                elif tag == 'insert':
7db96d56Sopenharmony_ci                    btags += '+' * lb
7db96d56Sopenharmony_ci                elif tag == 'equal':
7db96d56Sopenharmony_ci                    atags += ' ' * la
7db96d56Sopenharmony_ci                    btags += ' ' * lb
7db96d56Sopenharmony_ci                else:
7db96d56Sopenharmony_ci                    raise ValueError('unknown tag %r' % (tag,))
7db96d56Sopenharmony_ci            yield from self._qformat(aelt, belt, atags, btags)
7db96d56Sopenharmony_ci        else:
7db96d56Sopenharmony_ci            # the synch pair is identical
7db96d56Sopenharmony_ci            yield '  ' + aelt
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # pump out diffs from after the synch point
7db96d56Sopenharmony_ci        yield from self._fancy_helper(a, best_i+1, ahi, b, best_j+1, bhi)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def _fancy_helper(self, a, alo, ahi, b, blo, bhi):
7db96d56Sopenharmony_ci        g = []
7db96d56Sopenharmony_ci        if alo < ahi:
7db96d56Sopenharmony_ci            if blo < bhi:
7db96d56Sopenharmony_ci                g = self._fancy_replace(a, alo, ahi, b, blo, bhi)
7db96d56Sopenharmony_ci            else:
7db96d56Sopenharmony_ci                g = self._dump('-', a, alo, ahi)
7db96d56Sopenharmony_ci        elif blo < bhi:
7db96d56Sopenharmony_ci            g = self._dump('+', b, blo, bhi)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        yield from g
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def _qformat(self, aline, bline, atags, btags):
7db96d56Sopenharmony_ci        r"""
7db96d56Sopenharmony_ci        Format "?" output and deal with tabs.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        Example:
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        >>> d = Differ()
7db96d56Sopenharmony_ci        >>> results = d._qformat('\tabcDefghiJkl\n', '\tabcdefGhijkl\n',
7db96d56Sopenharmony_ci        ...                      '  ^ ^  ^      ', '  ^ ^  ^      ')
7db96d56Sopenharmony_ci        >>> for line in results: print(repr(line))
7db96d56Sopenharmony_ci        ...
7db96d56Sopenharmony_ci        '- \tabcDefghiJkl\n'
7db96d56Sopenharmony_ci        '? \t ^ ^  ^\n'
7db96d56Sopenharmony_ci        '+ \tabcdefGhijkl\n'
7db96d56Sopenharmony_ci        '? \t ^ ^  ^\n'
7db96d56Sopenharmony_ci        """
7db96d56Sopenharmony_ci        atags = _keep_original_ws(aline, atags).rstrip()
7db96d56Sopenharmony_ci        btags = _keep_original_ws(bline, btags).rstrip()
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        yield "- " + aline
7db96d56Sopenharmony_ci        if atags:
7db96d56Sopenharmony_ci            yield f"? {atags}\n"
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        yield "+ " + bline
7db96d56Sopenharmony_ci        if btags:
7db96d56Sopenharmony_ci            yield f"? {btags}\n"
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci# With respect to junk, an earlier version of ndiff simply refused to
7db96d56Sopenharmony_ci# *start* a match with a junk element.  The result was cases like this:
7db96d56Sopenharmony_ci#     before: private Thread currentThread;
7db96d56Sopenharmony_ci#     after:  private volatile Thread currentThread;
7db96d56Sopenharmony_ci# If you consider whitespace to be junk, the longest contiguous match
7db96d56Sopenharmony_ci# not starting with junk is "e Thread currentThread".  So ndiff reported
7db96d56Sopenharmony_ci# that "e volatil" was inserted between the 't' and the 'e' in "private".
7db96d56Sopenharmony_ci# While an accurate view, to people that's absurd.  The current version
7db96d56Sopenharmony_ci# looks for matching blocks that are entirely junk-free, then extends the
7db96d56Sopenharmony_ci# longest one of those as far as possible but only with matching junk.
7db96d56Sopenharmony_ci# So now "currentThread" is matched, then extended to suck up the
7db96d56Sopenharmony_ci# preceding blank; then "private" is matched, and extended to suck up the
7db96d56Sopenharmony_ci# following blank; then "Thread" is matched; and finally ndiff reports
7db96d56Sopenharmony_ci# that "volatile " was inserted before "Thread".  The only quibble
7db96d56Sopenharmony_ci# remaining is that perhaps it was really the case that " volatile"
7db96d56Sopenharmony_ci# was inserted after "private".  I can live with that <wink>.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciimport re
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cidef IS_LINE_JUNK(line, pat=re.compile(r"\s*(?:#\s*)?$").match):
7db96d56Sopenharmony_ci    r"""
7db96d56Sopenharmony_ci    Return True for ignorable line: iff `line` is blank or contains a single '#'.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    Examples:
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    >>> IS_LINE_JUNK('\n')
7db96d56Sopenharmony_ci    True
7db96d56Sopenharmony_ci    >>> IS_LINE_JUNK('  #   \n')
7db96d56Sopenharmony_ci    True
7db96d56Sopenharmony_ci    >>> IS_LINE_JUNK('hello\n')
7db96d56Sopenharmony_ci    False
7db96d56Sopenharmony_ci    """
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    return pat(line) is not None
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cidef IS_CHARACTER_JUNK(ch, ws=" \t"):
7db96d56Sopenharmony_ci    r"""
7db96d56Sopenharmony_ci    Return True for ignorable character: iff `ch` is a space or tab.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    Examples:
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    >>> IS_CHARACTER_JUNK(' ')
7db96d56Sopenharmony_ci    True
7db96d56Sopenharmony_ci    >>> IS_CHARACTER_JUNK('\t')
7db96d56Sopenharmony_ci    True
7db96d56Sopenharmony_ci    >>> IS_CHARACTER_JUNK('\n')
7db96d56Sopenharmony_ci    False
7db96d56Sopenharmony_ci    >>> IS_CHARACTER_JUNK('x')
7db96d56Sopenharmony_ci    False
7db96d56Sopenharmony_ci    """
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    return ch in ws
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci########################################################################
7db96d56Sopenharmony_ci###  Unified Diff
7db96d56Sopenharmony_ci########################################################################
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cidef _format_range_unified(start, stop):
7db96d56Sopenharmony_ci    'Convert range to the "ed" format'
7db96d56Sopenharmony_ci    # Per the diff spec at http://www.unix.org/single_unix_specification/
7db96d56Sopenharmony_ci    beginning = start + 1     # lines start numbering with one
7db96d56Sopenharmony_ci    length = stop - start
7db96d56Sopenharmony_ci    if length == 1:
7db96d56Sopenharmony_ci        return '{}'.format(beginning)
7db96d56Sopenharmony_ci    if not length:
7db96d56Sopenharmony_ci        beginning -= 1        # empty ranges begin at line just before the range
7db96d56Sopenharmony_ci    return '{},{}'.format(beginning, length)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cidef unified_diff(a, b, fromfile='', tofile='', fromfiledate='',
7db96d56Sopenharmony_ci                 tofiledate='', n=3, lineterm='\n'):
7db96d56Sopenharmony_ci    r"""
7db96d56Sopenharmony_ci    Compare two sequences of lines; generate the delta as a unified diff.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    Unified diffs are a compact way of showing line changes and a few
7db96d56Sopenharmony_ci    lines of context.  The number of context lines is set by 'n' which
7db96d56Sopenharmony_ci    defaults to three.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    By default, the diff control lines (those with ---, +++, or @@) are
7db96d56Sopenharmony_ci    created with a trailing newline.  This is helpful so that inputs
7db96d56Sopenharmony_ci    created from file.readlines() result in diffs that are suitable for
7db96d56Sopenharmony_ci    file.writelines() since both the inputs and outputs have trailing
7db96d56Sopenharmony_ci    newlines.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    For inputs that do not have trailing newlines, set the lineterm
7db96d56Sopenharmony_ci    argument to "" so that the output will be uniformly newline free.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    The unidiff format normally has a header for filenames and modification
7db96d56Sopenharmony_ci    times.  Any or all of these may be specified using strings for
7db96d56Sopenharmony_ci    'fromfile', 'tofile', 'fromfiledate', and 'tofiledate'.
7db96d56Sopenharmony_ci    The modification times are normally expressed in the ISO 8601 format.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    Example:
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    >>> for line in unified_diff('one two three four'.split(),
7db96d56Sopenharmony_ci    ...             'zero one tree four'.split(), 'Original', 'Current',
7db96d56Sopenharmony_ci    ...             '2005-01-26 23:30:50', '2010-04-02 10:20:52',
7db96d56Sopenharmony_ci    ...             lineterm=''):
7db96d56Sopenharmony_ci    ...     print(line)                 # doctest: +NORMALIZE_WHITESPACE
7db96d56Sopenharmony_ci    --- Original        2005-01-26 23:30:50
7db96d56Sopenharmony_ci    +++ Current         2010-04-02 10:20:52
7db96d56Sopenharmony_ci    @@ -1,4 +1,4 @@
7db96d56Sopenharmony_ci    +zero
7db96d56Sopenharmony_ci     one
7db96d56Sopenharmony_ci    -two
7db96d56Sopenharmony_ci    -three
7db96d56Sopenharmony_ci    +tree
7db96d56Sopenharmony_ci     four
7db96d56Sopenharmony_ci    """
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    _check_types(a, b, fromfile, tofile, fromfiledate, tofiledate, lineterm)
7db96d56Sopenharmony_ci    started = False
7db96d56Sopenharmony_ci    for group in SequenceMatcher(None,a,b).get_grouped_opcodes(n):
7db96d56Sopenharmony_ci        if not started:
7db96d56Sopenharmony_ci            started = True
7db96d56Sopenharmony_ci            fromdate = '\t{}'.format(fromfiledate) if fromfiledate else ''
7db96d56Sopenharmony_ci            todate = '\t{}'.format(tofiledate) if tofiledate else ''
7db96d56Sopenharmony_ci            yield '--- {}{}{}'.format(fromfile, fromdate, lineterm)
7db96d56Sopenharmony_ci            yield '+++ {}{}{}'.format(tofile, todate, lineterm)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        first, last = group[0], group[-1]
7db96d56Sopenharmony_ci        file1_range = _format_range_unified(first[1], last[2])
7db96d56Sopenharmony_ci        file2_range = _format_range_unified(first[3], last[4])
7db96d56Sopenharmony_ci        yield '@@ -{} +{} @@{}'.format(file1_range, file2_range, lineterm)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        for tag, i1, i2, j1, j2 in group:
7db96d56Sopenharmony_ci            if tag == 'equal':
7db96d56Sopenharmony_ci                for line in a[i1:i2]:
7db96d56Sopenharmony_ci                    yield ' ' + line
7db96d56Sopenharmony_ci                continue
7db96d56Sopenharmony_ci            if tag in {'replace', 'delete'}:
7db96d56Sopenharmony_ci                for line in a[i1:i2]:
7db96d56Sopenharmony_ci                    yield '-' + line
7db96d56Sopenharmony_ci            if tag in {'replace', 'insert'}:
7db96d56Sopenharmony_ci                for line in b[j1:j2]:
7db96d56Sopenharmony_ci                    yield '+' + line
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci########################################################################
7db96d56Sopenharmony_ci###  Context Diff
7db96d56Sopenharmony_ci########################################################################
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cidef _format_range_context(start, stop):
7db96d56Sopenharmony_ci    'Convert range to the "ed" format'
7db96d56Sopenharmony_ci    # Per the diff spec at http://www.unix.org/single_unix_specification/
7db96d56Sopenharmony_ci    beginning = start + 1     # lines start numbering with one
7db96d56Sopenharmony_ci    length = stop - start
7db96d56Sopenharmony_ci    if not length:
7db96d56Sopenharmony_ci        beginning -= 1        # empty ranges begin at line just before the range
7db96d56Sopenharmony_ci    if length <= 1:
7db96d56Sopenharmony_ci        return '{}'.format(beginning)
7db96d56Sopenharmony_ci    return '{},{}'.format(beginning, beginning + length - 1)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci# See http://www.unix.org/single_unix_specification/
7db96d56Sopenharmony_cidef context_diff(a, b, fromfile='', tofile='',
7db96d56Sopenharmony_ci                 fromfiledate='', tofiledate='', n=3, lineterm='\n'):
7db96d56Sopenharmony_ci    r"""
7db96d56Sopenharmony_ci    Compare two sequences of lines; generate the delta as a context diff.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    Context diffs are a compact way of showing line changes and a few
7db96d56Sopenharmony_ci    lines of context.  The number of context lines is set by 'n' which
7db96d56Sopenharmony_ci    defaults to three.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    By default, the diff control lines (those with *** or ---) are
7db96d56Sopenharmony_ci    created with a trailing newline.  This is helpful so that inputs
7db96d56Sopenharmony_ci    created from file.readlines() result in diffs that are suitable for
7db96d56Sopenharmony_ci    file.writelines() since both the inputs and outputs have trailing
7db96d56Sopenharmony_ci    newlines.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    For inputs that do not have trailing newlines, set the lineterm
7db96d56Sopenharmony_ci    argument to "" so that the output will be uniformly newline free.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    The context diff format normally has a header for filenames and
7db96d56Sopenharmony_ci    modification times.  Any or all of these may be specified using
7db96d56Sopenharmony_ci    strings for 'fromfile', 'tofile', 'fromfiledate', and 'tofiledate'.
7db96d56Sopenharmony_ci    The modification times are normally expressed in the ISO 8601 format.
7db96d56Sopenharmony_ci    If not specified, the strings default to blanks.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    Example:
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    >>> print(''.join(context_diff('one\ntwo\nthree\nfour\n'.splitlines(True),
7db96d56Sopenharmony_ci    ...       'zero\none\ntree\nfour\n'.splitlines(True), 'Original', 'Current')),
7db96d56Sopenharmony_ci    ...       end="")
7db96d56Sopenharmony_ci    *** Original
7db96d56Sopenharmony_ci    --- Current
7db96d56Sopenharmony_ci    ***************
7db96d56Sopenharmony_ci    *** 1,4 ****
7db96d56Sopenharmony_ci      one
7db96d56Sopenharmony_ci    ! two
7db96d56Sopenharmony_ci    ! three
7db96d56Sopenharmony_ci      four
7db96d56Sopenharmony_ci    --- 1,4 ----
7db96d56Sopenharmony_ci    + zero
7db96d56Sopenharmony_ci      one
7db96d56Sopenharmony_ci    ! tree
7db96d56Sopenharmony_ci      four
7db96d56Sopenharmony_ci    """
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    _check_types(a, b, fromfile, tofile, fromfiledate, tofiledate, lineterm)
7db96d56Sopenharmony_ci    prefix = dict(insert='+ ', delete='- ', replace='! ', equal='  ')
7db96d56Sopenharmony_ci    started = False
7db96d56Sopenharmony_ci    for group in SequenceMatcher(None,a,b).get_grouped_opcodes(n):
7db96d56Sopenharmony_ci        if not started:
7db96d56Sopenharmony_ci            started = True
7db96d56Sopenharmony_ci            fromdate = '\t{}'.format(fromfiledate) if fromfiledate else ''
7db96d56Sopenharmony_ci            todate = '\t{}'.format(tofiledate) if tofiledate else ''
7db96d56Sopenharmony_ci            yield '*** {}{}{}'.format(fromfile, fromdate, lineterm)
7db96d56Sopenharmony_ci            yield '--- {}{}{}'.format(tofile, todate, lineterm)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        first, last = group[0], group[-1]
7db96d56Sopenharmony_ci        yield '***************' + lineterm
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        file1_range = _format_range_context(first[1], last[2])
7db96d56Sopenharmony_ci        yield '*** {} ****{}'.format(file1_range, lineterm)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        if any(tag in {'replace', 'delete'} for tag, _, _, _, _ in group):
7db96d56Sopenharmony_ci            for tag, i1, i2, _, _ in group:
7db96d56Sopenharmony_ci                if tag != 'insert':
7db96d56Sopenharmony_ci                    for line in a[i1:i2]:
7db96d56Sopenharmony_ci                        yield prefix[tag] + line
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        file2_range = _format_range_context(first[3], last[4])
7db96d56Sopenharmony_ci        yield '--- {} ----{}'.format(file2_range, lineterm)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        if any(tag in {'replace', 'insert'} for tag, _, _, _, _ in group):
7db96d56Sopenharmony_ci            for tag, _, _, j1, j2 in group:
7db96d56Sopenharmony_ci                if tag != 'delete':
7db96d56Sopenharmony_ci                    for line in b[j1:j2]:
7db96d56Sopenharmony_ci                        yield prefix[tag] + line
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cidef _check_types(a, b, *args):
7db96d56Sopenharmony_ci    # Checking types is weird, but the alternative is garbled output when
7db96d56Sopenharmony_ci    # someone passes mixed bytes and str to {unified,context}_diff(). E.g.
7db96d56Sopenharmony_ci    # without this check, passing filenames as bytes results in output like
7db96d56Sopenharmony_ci    #   --- b'oldfile.txt'
7db96d56Sopenharmony_ci    #   +++ b'newfile.txt'
7db96d56Sopenharmony_ci    # because of how str.format() incorporates bytes objects.
7db96d56Sopenharmony_ci    if a and not isinstance(a[0], str):
7db96d56Sopenharmony_ci        raise TypeError('lines to compare must be str, not %s (%r)' %
7db96d56Sopenharmony_ci                        (type(a[0]).__name__, a[0]))
7db96d56Sopenharmony_ci    if b and not isinstance(b[0], str):
7db96d56Sopenharmony_ci        raise TypeError('lines to compare must be str, not %s (%r)' %
7db96d56Sopenharmony_ci                        (type(b[0]).__name__, b[0]))
7db96d56Sopenharmony_ci    for arg in args:
7db96d56Sopenharmony_ci        if not isinstance(arg, str):
7db96d56Sopenharmony_ci            raise TypeError('all arguments must be str, not: %r' % (arg,))
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cidef diff_bytes(dfunc, a, b, fromfile=b'', tofile=b'',
7db96d56Sopenharmony_ci               fromfiledate=b'', tofiledate=b'', n=3, lineterm=b'\n'):
7db96d56Sopenharmony_ci    r"""
7db96d56Sopenharmony_ci    Compare `a` and `b`, two sequences of lines represented as bytes rather
7db96d56Sopenharmony_ci    than str. This is a wrapper for `dfunc`, which is typically either
7db96d56Sopenharmony_ci    unified_diff() or context_diff(). Inputs are losslessly converted to
7db96d56Sopenharmony_ci    strings so that `dfunc` only has to worry about strings, and encoded
7db96d56Sopenharmony_ci    back to bytes on return. This is necessary to compare files with
7db96d56Sopenharmony_ci    unknown or inconsistent encoding. All other inputs (except `n`) must be
7db96d56Sopenharmony_ci    bytes rather than str.
7db96d56Sopenharmony_ci    """
7db96d56Sopenharmony_ci    def decode(s):
7db96d56Sopenharmony_ci        try:
7db96d56Sopenharmony_ci            return s.decode('ascii', 'surrogateescape')
7db96d56Sopenharmony_ci        except AttributeError as err:
7db96d56Sopenharmony_ci            msg = ('all arguments must be bytes, not %s (%r)' %
7db96d56Sopenharmony_ci                   (type(s).__name__, s))
7db96d56Sopenharmony_ci            raise TypeError(msg) from err
7db96d56Sopenharmony_ci    a = list(map(decode, a))
7db96d56Sopenharmony_ci    b = list(map(decode, b))
7db96d56Sopenharmony_ci    fromfile = decode(fromfile)
7db96d56Sopenharmony_ci    tofile = decode(tofile)
7db96d56Sopenharmony_ci    fromfiledate = decode(fromfiledate)
7db96d56Sopenharmony_ci    tofiledate = decode(tofiledate)
7db96d56Sopenharmony_ci    lineterm = decode(lineterm)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    lines = dfunc(a, b, fromfile, tofile, fromfiledate, tofiledate, n, lineterm)
7db96d56Sopenharmony_ci    for line in lines:
7db96d56Sopenharmony_ci        yield line.encode('ascii', 'surrogateescape')
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cidef ndiff(a, b, linejunk=None, charjunk=IS_CHARACTER_JUNK):
7db96d56Sopenharmony_ci    r"""
7db96d56Sopenharmony_ci    Compare `a` and `b` (lists of strings); return a `Differ`-style delta.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    Optional keyword parameters `linejunk` and `charjunk` are for filter
7db96d56Sopenharmony_ci    functions, or can be None:
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    - linejunk: A function that should accept a single string argument and
7db96d56Sopenharmony_ci      return true iff the string is junk.  The default is None, and is
7db96d56Sopenharmony_ci      recommended; the underlying SequenceMatcher class has an adaptive
7db96d56Sopenharmony_ci      notion of "noise" lines.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    - charjunk: A function that accepts a character (string of length
7db96d56Sopenharmony_ci      1), and returns true iff the character is junk. The default is
7db96d56Sopenharmony_ci      the module-level function IS_CHARACTER_JUNK, which filters out
7db96d56Sopenharmony_ci      whitespace characters (a blank or tab; note: it's a bad idea to
7db96d56Sopenharmony_ci      include newline in this!).
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    Tools/scripts/ndiff.py is a command-line front-end to this function.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    Example:
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    >>> diff = ndiff('one\ntwo\nthree\n'.splitlines(keepends=True),
7db96d56Sopenharmony_ci    ...              'ore\ntree\nemu\n'.splitlines(keepends=True))
7db96d56Sopenharmony_ci    >>> print(''.join(diff), end="")
7db96d56Sopenharmony_ci    - one
7db96d56Sopenharmony_ci    ?  ^
7db96d56Sopenharmony_ci    + ore
7db96d56Sopenharmony_ci    ?  ^
7db96d56Sopenharmony_ci    - two
7db96d56Sopenharmony_ci    - three
7db96d56Sopenharmony_ci    ?  -
7db96d56Sopenharmony_ci    + tree
7db96d56Sopenharmony_ci    + emu
7db96d56Sopenharmony_ci    """
7db96d56Sopenharmony_ci    return Differ(linejunk, charjunk).compare(a, b)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cidef _mdiff(fromlines, tolines, context=None, linejunk=None,
7db96d56Sopenharmony_ci           charjunk=IS_CHARACTER_JUNK):
7db96d56Sopenharmony_ci    r"""Returns generator yielding marked up from/to side by side differences.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    Arguments:
7db96d56Sopenharmony_ci    fromlines -- list of text lines to compared to tolines
7db96d56Sopenharmony_ci    tolines -- list of text lines to be compared to fromlines
7db96d56Sopenharmony_ci    context -- number of context lines to display on each side of difference,
7db96d56Sopenharmony_ci               if None, all from/to text lines will be generated.
7db96d56Sopenharmony_ci    linejunk -- passed on to ndiff (see ndiff documentation)
7db96d56Sopenharmony_ci    charjunk -- passed on to ndiff (see ndiff documentation)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    This function returns an iterator which returns a tuple:
7db96d56Sopenharmony_ci    (from line tuple, to line tuple, boolean flag)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    from/to line tuple -- (line num, line text)
7db96d56Sopenharmony_ci        line num -- integer or None (to indicate a context separation)
7db96d56Sopenharmony_ci        line text -- original line text with following markers inserted:
7db96d56Sopenharmony_ci            '\0+' -- marks start of added text
7db96d56Sopenharmony_ci            '\0-' -- marks start of deleted text
7db96d56Sopenharmony_ci            '\0^' -- marks start of changed text
7db96d56Sopenharmony_ci            '\1' -- marks end of added/deleted/changed text
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    boolean flag -- None indicates context separation, True indicates
7db96d56Sopenharmony_ci        either "from" or "to" line contains a change, otherwise False.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    This function/iterator was originally developed to generate side by side
7db96d56Sopenharmony_ci    file difference for making HTML pages (see HtmlDiff class for example
7db96d56Sopenharmony_ci    usage).
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    Note, this function utilizes the ndiff function to generate the side by
7db96d56Sopenharmony_ci    side difference markup.  Optional ndiff arguments may be passed to this
7db96d56Sopenharmony_ci    function and they in turn will be passed to ndiff.
7db96d56Sopenharmony_ci    """
7db96d56Sopenharmony_ci    import re
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    # regular expression for finding intraline change indices
7db96d56Sopenharmony_ci    change_re = re.compile(r'(\++|\-+|\^+)')
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    # create the difference iterator to generate the differences
7db96d56Sopenharmony_ci    diff_lines_iterator = ndiff(fromlines,tolines,linejunk,charjunk)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def _make_line(lines, format_key, side, num_lines=[0,0]):
7db96d56Sopenharmony_ci        """Returns line of text with user's change markup and line formatting.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        lines -- list of lines from the ndiff generator to produce a line of
7db96d56Sopenharmony_ci                 text from.  When producing the line of text to return, the
7db96d56Sopenharmony_ci                 lines used are removed from this list.
7db96d56Sopenharmony_ci        format_key -- '+' return first line in list with "add" markup around
7db96d56Sopenharmony_ci                          the entire line.
7db96d56Sopenharmony_ci                      '-' return first line in list with "delete" markup around
7db96d56Sopenharmony_ci                          the entire line.
7db96d56Sopenharmony_ci                      '?' return first line in list with add/delete/change
7db96d56Sopenharmony_ci                          intraline markup (indices obtained from second line)
7db96d56Sopenharmony_ci                      None return first line in list with no markup
7db96d56Sopenharmony_ci        side -- indice into the num_lines list (0=from,1=to)
7db96d56Sopenharmony_ci        num_lines -- from/to current line number.  This is NOT intended to be a
7db96d56Sopenharmony_ci                     passed parameter.  It is present as a keyword argument to
7db96d56Sopenharmony_ci                     maintain memory of the current line numbers between calls
7db96d56Sopenharmony_ci                     of this function.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        Note, this function is purposefully not defined at the module scope so
7db96d56Sopenharmony_ci        that data it needs from its parent function (within whose context it
7db96d56Sopenharmony_ci        is defined) does not need to be of module scope.
7db96d56Sopenharmony_ci        """
7db96d56Sopenharmony_ci        num_lines[side] += 1
7db96d56Sopenharmony_ci        # Handle case where no user markup is to be added, just return line of
7db96d56Sopenharmony_ci        # text with user's line format to allow for usage of the line number.
7db96d56Sopenharmony_ci        if format_key is None:
7db96d56Sopenharmony_ci            return (num_lines[side],lines.pop(0)[2:])
7db96d56Sopenharmony_ci        # Handle case of intraline changes
7db96d56Sopenharmony_ci        if format_key == '?':
7db96d56Sopenharmony_ci            text, markers = lines.pop(0), lines.pop(0)
7db96d56Sopenharmony_ci            # find intraline changes (store change type and indices in tuples)
7db96d56Sopenharmony_ci            sub_info = []
7db96d56Sopenharmony_ci            def record_sub_info(match_object,sub_info=sub_info):
7db96d56Sopenharmony_ci                sub_info.append([match_object.group(1)[0],match_object.span()])
7db96d56Sopenharmony_ci                return match_object.group(1)
7db96d56Sopenharmony_ci            change_re.sub(record_sub_info,markers)
7db96d56Sopenharmony_ci            # process each tuple inserting our special marks that won't be
7db96d56Sopenharmony_ci            # noticed by an xml/html escaper.
7db96d56Sopenharmony_ci            for key,(begin,end) in reversed(sub_info):
7db96d56Sopenharmony_ci                text = text[0:begin]+'\0'+key+text[begin:end]+'\1'+text[end:]
7db96d56Sopenharmony_ci            text = text[2:]
7db96d56Sopenharmony_ci        # Handle case of add/delete entire line
7db96d56Sopenharmony_ci        else:
7db96d56Sopenharmony_ci            text = lines.pop(0)[2:]
7db96d56Sopenharmony_ci            # if line of text is just a newline, insert a space so there is
7db96d56Sopenharmony_ci            # something for the user to highlight and see.
7db96d56Sopenharmony_ci            if not text:
7db96d56Sopenharmony_ci                text = ' '
7db96d56Sopenharmony_ci            # insert marks that won't be noticed by an xml/html escaper.
7db96d56Sopenharmony_ci            text = '\0' + format_key + text + '\1'
7db96d56Sopenharmony_ci        # Return line of text, first allow user's line formatter to do its
7db96d56Sopenharmony_ci        # thing (such as adding the line number) then replace the special
7db96d56Sopenharmony_ci        # marks with what the user's change markup.
7db96d56Sopenharmony_ci        return (num_lines[side],text)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def _line_iterator():
7db96d56Sopenharmony_ci        """Yields from/to lines of text with a change indication.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        This function is an iterator.  It itself pulls lines from a
7db96d56Sopenharmony_ci        differencing iterator, processes them and yields them.  When it can
7db96d56Sopenharmony_ci        it yields both a "from" and a "to" line, otherwise it will yield one
7db96d56Sopenharmony_ci        or the other.  In addition to yielding the lines of from/to text, a
7db96d56Sopenharmony_ci        boolean flag is yielded to indicate if the text line(s) have
7db96d56Sopenharmony_ci        differences in them.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        Note, this function is purposefully not defined at the module scope so
7db96d56Sopenharmony_ci        that data it needs from its parent function (within whose context it
7db96d56Sopenharmony_ci        is defined) does not need to be of module scope.
7db96d56Sopenharmony_ci        """
7db96d56Sopenharmony_ci        lines = []
7db96d56Sopenharmony_ci        num_blanks_pending, num_blanks_to_yield = 0, 0
7db96d56Sopenharmony_ci        while True:
7db96d56Sopenharmony_ci            # Load up next 4 lines so we can look ahead, create strings which
7db96d56Sopenharmony_ci            # are a concatenation of the first character of each of the 4 lines
7db96d56Sopenharmony_ci            # so we can do some very readable comparisons.
7db96d56Sopenharmony_ci            while len(lines) < 4:
7db96d56Sopenharmony_ci                lines.append(next(diff_lines_iterator, 'X'))
7db96d56Sopenharmony_ci            s = ''.join([line[0] for line in lines])
7db96d56Sopenharmony_ci            if s.startswith('X'):
7db96d56Sopenharmony_ci                # When no more lines, pump out any remaining blank lines so the
7db96d56Sopenharmony_ci                # corresponding add/delete lines get a matching blank line so
7db96d56Sopenharmony_ci                # all line pairs get yielded at the next level.
7db96d56Sopenharmony_ci                num_blanks_to_yield = num_blanks_pending
7db96d56Sopenharmony_ci            elif s.startswith('-?+?'):
7db96d56Sopenharmony_ci                # simple intraline change
7db96d56Sopenharmony_ci                yield _make_line(lines,'?',0), _make_line(lines,'?',1), True
7db96d56Sopenharmony_ci                continue
7db96d56Sopenharmony_ci            elif s.startswith('--++'):
7db96d56Sopenharmony_ci                # in delete block, add block coming: we do NOT want to get
7db96d56Sopenharmony_ci                # caught up on blank lines yet, just process the delete line
7db96d56Sopenharmony_ci                num_blanks_pending -= 1
7db96d56Sopenharmony_ci                yield _make_line(lines,'-',0), None, True
7db96d56Sopenharmony_ci                continue
7db96d56Sopenharmony_ci            elif s.startswith(('--?+', '--+', '- ')):
7db96d56Sopenharmony_ci                # in delete block and see an intraline change or unchanged line
7db96d56Sopenharmony_ci                # coming: yield the delete line and then blanks
7db96d56Sopenharmony_ci                from_line,to_line = _make_line(lines,'-',0), None
7db96d56Sopenharmony_ci                num_blanks_to_yield,num_blanks_pending = num_blanks_pending-1,0
7db96d56Sopenharmony_ci            elif s.startswith('-+?'):
7db96d56Sopenharmony_ci                # intraline change
7db96d56Sopenharmony_ci                yield _make_line(lines,None,0), _make_line(lines,'?',1), True
7db96d56Sopenharmony_ci                continue
7db96d56Sopenharmony_ci            elif s.startswith('-?+'):
7db96d56Sopenharmony_ci                # intraline change
7db96d56Sopenharmony_ci                yield _make_line(lines,'?',0), _make_line(lines,None,1), True
7db96d56Sopenharmony_ci                continue
7db96d56Sopenharmony_ci            elif s.startswith('-'):
7db96d56Sopenharmony_ci                # delete FROM line
7db96d56Sopenharmony_ci                num_blanks_pending -= 1
7db96d56Sopenharmony_ci                yield _make_line(lines,'-',0), None, True
7db96d56Sopenharmony_ci                continue
7db96d56Sopenharmony_ci            elif s.startswith('+--'):
7db96d56Sopenharmony_ci                # in add block, delete block coming: we do NOT want to get
7db96d56Sopenharmony_ci                # caught up on blank lines yet, just process the add line
7db96d56Sopenharmony_ci                num_blanks_pending += 1
7db96d56Sopenharmony_ci                yield None, _make_line(lines,'+',1), True
7db96d56Sopenharmony_ci                continue
7db96d56Sopenharmony_ci            elif s.startswith(('+ ', '+-')):
7db96d56Sopenharmony_ci                # will be leaving an add block: yield blanks then add line
7db96d56Sopenharmony_ci                from_line, to_line = None, _make_line(lines,'+',1)
7db96d56Sopenharmony_ci                num_blanks_to_yield,num_blanks_pending = num_blanks_pending+1,0
7db96d56Sopenharmony_ci            elif s.startswith('+'):
7db96d56Sopenharmony_ci                # inside an add block, yield the add line
7db96d56Sopenharmony_ci                num_blanks_pending += 1
7db96d56Sopenharmony_ci                yield None, _make_line(lines,'+',1), True
7db96d56Sopenharmony_ci                continue
7db96d56Sopenharmony_ci            elif s.startswith(' '):
7db96d56Sopenharmony_ci                # unchanged text, yield it to both sides
7db96d56Sopenharmony_ci                yield _make_line(lines[:],None,0),_make_line(lines,None,1),False
7db96d56Sopenharmony_ci                continue
7db96d56Sopenharmony_ci            # Catch up on the blank lines so when we yield the next from/to
7db96d56Sopenharmony_ci            # pair, they are lined up.
7db96d56Sopenharmony_ci            while(num_blanks_to_yield < 0):
7db96d56Sopenharmony_ci                num_blanks_to_yield += 1
7db96d56Sopenharmony_ci                yield None,('','\n'),True
7db96d56Sopenharmony_ci            while(num_blanks_to_yield > 0):
7db96d56Sopenharmony_ci                num_blanks_to_yield -= 1
7db96d56Sopenharmony_ci                yield ('','\n'),None,True
7db96d56Sopenharmony_ci            if s.startswith('X'):
7db96d56Sopenharmony_ci                return
7db96d56Sopenharmony_ci            else:
7db96d56Sopenharmony_ci                yield from_line,to_line,True
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def _line_pair_iterator():
7db96d56Sopenharmony_ci        """Yields from/to lines of text with a change indication.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        This function is an iterator.  It itself pulls lines from the line
7db96d56Sopenharmony_ci        iterator.  Its difference from that iterator is that this function
7db96d56Sopenharmony_ci        always yields a pair of from/to text lines (with the change
7db96d56Sopenharmony_ci        indication).  If necessary it will collect single from/to lines
7db96d56Sopenharmony_ci        until it has a matching pair from/to pair to yield.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        Note, this function is purposefully not defined at the module scope so
7db96d56Sopenharmony_ci        that data it needs from its parent function (within whose context it
7db96d56Sopenharmony_ci        is defined) does not need to be of module scope.
7db96d56Sopenharmony_ci        """
7db96d56Sopenharmony_ci        line_iterator = _line_iterator()
7db96d56Sopenharmony_ci        fromlines,tolines=[],[]
7db96d56Sopenharmony_ci        while True:
7db96d56Sopenharmony_ci            # Collecting lines of text until we have a from/to pair
7db96d56Sopenharmony_ci            while (len(fromlines)==0 or len(tolines)==0):
7db96d56Sopenharmony_ci                try:
7db96d56Sopenharmony_ci                    from_line, to_line, found_diff = next(line_iterator)
7db96d56Sopenharmony_ci                except StopIteration:
7db96d56Sopenharmony_ci                    return
7db96d56Sopenharmony_ci                if from_line is not None:
7db96d56Sopenharmony_ci                    fromlines.append((from_line,found_diff))
7db96d56Sopenharmony_ci                if to_line is not None:
7db96d56Sopenharmony_ci                    tolines.append((to_line,found_diff))
7db96d56Sopenharmony_ci            # Once we have a pair, remove them from the collection and yield it
7db96d56Sopenharmony_ci            from_line, fromDiff = fromlines.pop(0)
7db96d56Sopenharmony_ci            to_line, to_diff = tolines.pop(0)
7db96d56Sopenharmony_ci            yield (from_line,to_line,fromDiff or to_diff)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    # Handle case where user does not want context differencing, just yield
7db96d56Sopenharmony_ci    # them up without doing anything else with them.
7db96d56Sopenharmony_ci    line_pair_iterator = _line_pair_iterator()
7db96d56Sopenharmony_ci    if context is None:
7db96d56Sopenharmony_ci        yield from line_pair_iterator
7db96d56Sopenharmony_ci    # Handle case where user wants context differencing.  We must do some
7db96d56Sopenharmony_ci    # storage of lines until we know for sure that they are to be yielded.
7db96d56Sopenharmony_ci    else:
7db96d56Sopenharmony_ci        context += 1
7db96d56Sopenharmony_ci        lines_to_write = 0
7db96d56Sopenharmony_ci        while True:
7db96d56Sopenharmony_ci            # Store lines up until we find a difference, note use of a
7db96d56Sopenharmony_ci            # circular queue because we only need to keep around what
7db96d56Sopenharmony_ci            # we need for context.
7db96d56Sopenharmony_ci            index, contextLines = 0, [None]*(context)
7db96d56Sopenharmony_ci            found_diff = False
7db96d56Sopenharmony_ci            while(found_diff is False):
7db96d56Sopenharmony_ci                try:
7db96d56Sopenharmony_ci                    from_line, to_line, found_diff = next(line_pair_iterator)
7db96d56Sopenharmony_ci                except StopIteration:
7db96d56Sopenharmony_ci                    return
7db96d56Sopenharmony_ci                i = index % context
7db96d56Sopenharmony_ci                contextLines[i] = (from_line, to_line, found_diff)
7db96d56Sopenharmony_ci                index += 1
7db96d56Sopenharmony_ci            # Yield lines that we have collected so far, but first yield
7db96d56Sopenharmony_ci            # the user's separator.
7db96d56Sopenharmony_ci            if index > context:
7db96d56Sopenharmony_ci                yield None, None, None
7db96d56Sopenharmony_ci                lines_to_write = context
7db96d56Sopenharmony_ci            else:
7db96d56Sopenharmony_ci                lines_to_write = index
7db96d56Sopenharmony_ci                index = 0
7db96d56Sopenharmony_ci            while(lines_to_write):
7db96d56Sopenharmony_ci                i = index % context
7db96d56Sopenharmony_ci                index += 1
7db96d56Sopenharmony_ci                yield contextLines[i]
7db96d56Sopenharmony_ci                lines_to_write -= 1
7db96d56Sopenharmony_ci            # Now yield the context lines after the change
7db96d56Sopenharmony_ci            lines_to_write = context-1
7db96d56Sopenharmony_ci            try:
7db96d56Sopenharmony_ci                while(lines_to_write):
7db96d56Sopenharmony_ci                    from_line, to_line, found_diff = next(line_pair_iterator)
7db96d56Sopenharmony_ci                    # If another change within the context, extend the context
7db96d56Sopenharmony_ci                    if found_diff:
7db96d56Sopenharmony_ci                        lines_to_write = context-1
7db96d56Sopenharmony_ci                    else:
7db96d56Sopenharmony_ci                        lines_to_write -= 1
7db96d56Sopenharmony_ci                    yield from_line, to_line, found_diff
7db96d56Sopenharmony_ci            except StopIteration:
7db96d56Sopenharmony_ci                # Catch exception from next() and return normally
7db96d56Sopenharmony_ci                return
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci_file_template = """
7db96d56Sopenharmony_ci<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
7db96d56Sopenharmony_ci          "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci<html>
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci<head>
7db96d56Sopenharmony_ci    <meta http-equiv="Content-Type"
7db96d56Sopenharmony_ci          content="text/html; charset=%(charset)s" />
7db96d56Sopenharmony_ci    <title></title>
7db96d56Sopenharmony_ci    <style type="text/css">%(styles)s
7db96d56Sopenharmony_ci    </style>
7db96d56Sopenharmony_ci</head>
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci<body>
7db96d56Sopenharmony_ci    %(table)s%(legend)s
7db96d56Sopenharmony_ci</body>
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci</html>"""
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci_styles = """
7db96d56Sopenharmony_ci        table.diff {font-family:Courier; border:medium;}
7db96d56Sopenharmony_ci        .diff_header {background-color:#e0e0e0}
7db96d56Sopenharmony_ci        td.diff_header {text-align:right}
7db96d56Sopenharmony_ci        .diff_next {background-color:#c0c0c0}
7db96d56Sopenharmony_ci        .diff_add {background-color:#aaffaa}
7db96d56Sopenharmony_ci        .diff_chg {background-color:#ffff77}
7db96d56Sopenharmony_ci        .diff_sub {background-color:#ffaaaa}"""
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci_table_template = """
7db96d56Sopenharmony_ci    <table class="diff" id="difflib_chg_%(prefix)s_top"
7db96d56Sopenharmony_ci           cellspacing="0" cellpadding="0" rules="groups" >
7db96d56Sopenharmony_ci        <colgroup></colgroup> <colgroup></colgroup> <colgroup></colgroup>
7db96d56Sopenharmony_ci        <colgroup></colgroup> <colgroup></colgroup> <colgroup></colgroup>
7db96d56Sopenharmony_ci        %(header_row)s
7db96d56Sopenharmony_ci        <tbody>
7db96d56Sopenharmony_ci%(data_rows)s        </tbody>
7db96d56Sopenharmony_ci    </table>"""
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci_legend = """
7db96d56Sopenharmony_ci    <table class="diff" summary="Legends">
7db96d56Sopenharmony_ci        <tr> <th colspan="2"> Legends </th> </tr>
7db96d56Sopenharmony_ci        <tr> <td> <table border="" summary="Colors">
7db96d56Sopenharmony_ci                      <tr><th> Colors </th> </tr>
7db96d56Sopenharmony_ci                      <tr><td class="diff_add">&nbsp;Added&nbsp;</td></tr>
7db96d56Sopenharmony_ci                      <tr><td class="diff_chg">Changed</td> </tr>
7db96d56Sopenharmony_ci                      <tr><td class="diff_sub">Deleted</td> </tr>
7db96d56Sopenharmony_ci                  </table></td>
7db96d56Sopenharmony_ci             <td> <table border="" summary="Links">
7db96d56Sopenharmony_ci                      <tr><th colspan="2"> Links </th> </tr>
7db96d56Sopenharmony_ci                      <tr><td>(f)irst change</td> </tr>
7db96d56Sopenharmony_ci                      <tr><td>(n)ext change</td> </tr>
7db96d56Sopenharmony_ci                      <tr><td>(t)op</td> </tr>
7db96d56Sopenharmony_ci                  </table></td> </tr>
7db96d56Sopenharmony_ci    </table>"""
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciclass HtmlDiff(object):
7db96d56Sopenharmony_ci    """For producing HTML side by side comparison with change highlights.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    This class can be used to create an HTML table (or a complete HTML file
7db96d56Sopenharmony_ci    containing the table) showing a side by side, line by line comparison
7db96d56Sopenharmony_ci    of text with inter-line and intra-line change highlights.  The table can
7db96d56Sopenharmony_ci    be generated in either full or contextual difference mode.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    The following methods are provided for HTML generation:
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    make_table -- generates HTML for a single side by side table
7db96d56Sopenharmony_ci    make_file -- generates complete HTML file with a single side by side table
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    See tools/scripts/diff.py for an example usage of this class.
7db96d56Sopenharmony_ci    """
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    _file_template = _file_template
7db96d56Sopenharmony_ci    _styles = _styles
7db96d56Sopenharmony_ci    _table_template = _table_template
7db96d56Sopenharmony_ci    _legend = _legend
7db96d56Sopenharmony_ci    _default_prefix = 0
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def __init__(self,tabsize=8,wrapcolumn=None,linejunk=None,
7db96d56Sopenharmony_ci                 charjunk=IS_CHARACTER_JUNK):
7db96d56Sopenharmony_ci        """HtmlDiff instance initializer
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        Arguments:
7db96d56Sopenharmony_ci        tabsize -- tab stop spacing, defaults to 8.
7db96d56Sopenharmony_ci        wrapcolumn -- column number where lines are broken and wrapped,
7db96d56Sopenharmony_ci            defaults to None where lines are not wrapped.
7db96d56Sopenharmony_ci        linejunk,charjunk -- keyword arguments passed into ndiff() (used by
7db96d56Sopenharmony_ci            HtmlDiff() to generate the side by side HTML differences).  See
7db96d56Sopenharmony_ci            ndiff() documentation for argument default values and descriptions.
7db96d56Sopenharmony_ci        """
7db96d56Sopenharmony_ci        self._tabsize = tabsize
7db96d56Sopenharmony_ci        self._wrapcolumn = wrapcolumn
7db96d56Sopenharmony_ci        self._linejunk = linejunk
7db96d56Sopenharmony_ci        self._charjunk = charjunk
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def make_file(self, fromlines, tolines, fromdesc='', todesc='',
7db96d56Sopenharmony_ci                  context=False, numlines=5, *, charset='utf-8'):
7db96d56Sopenharmony_ci        """Returns HTML file of side by side comparison with change highlights
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        Arguments:
7db96d56Sopenharmony_ci        fromlines -- list of "from" lines
7db96d56Sopenharmony_ci        tolines -- list of "to" lines
7db96d56Sopenharmony_ci        fromdesc -- "from" file column header string
7db96d56Sopenharmony_ci        todesc -- "to" file column header string
7db96d56Sopenharmony_ci        context -- set to True for contextual differences (defaults to False
7db96d56Sopenharmony_ci            which shows full differences).
7db96d56Sopenharmony_ci        numlines -- number of context lines.  When context is set True,
7db96d56Sopenharmony_ci            controls number of lines displayed before and after the change.
7db96d56Sopenharmony_ci            When context is False, controls the number of lines to place
7db96d56Sopenharmony_ci            the "next" link anchors before the next change (so click of
7db96d56Sopenharmony_ci            "next" link jumps to just before the change).
7db96d56Sopenharmony_ci        charset -- charset of the HTML document
7db96d56Sopenharmony_ci        """
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        return (self._file_template % dict(
7db96d56Sopenharmony_ci            styles=self._styles,
7db96d56Sopenharmony_ci            legend=self._legend,
7db96d56Sopenharmony_ci            table=self.make_table(fromlines, tolines, fromdesc, todesc,
7db96d56Sopenharmony_ci                                  context=context, numlines=numlines),
7db96d56Sopenharmony_ci            charset=charset
7db96d56Sopenharmony_ci        )).encode(charset, 'xmlcharrefreplace').decode(charset)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def _tab_newline_replace(self,fromlines,tolines):
7db96d56Sopenharmony_ci        """Returns from/to line lists with tabs expanded and newlines removed.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        Instead of tab characters being replaced by the number of spaces
7db96d56Sopenharmony_ci        needed to fill in to the next tab stop, this function will fill
7db96d56Sopenharmony_ci        the space with tab characters.  This is done so that the difference
7db96d56Sopenharmony_ci        algorithms can identify changes in a file when tabs are replaced by
7db96d56Sopenharmony_ci        spaces and vice versa.  At the end of the HTML generation, the tab
7db96d56Sopenharmony_ci        characters will be replaced with a nonbreakable space.
7db96d56Sopenharmony_ci        """
7db96d56Sopenharmony_ci        def expand_tabs(line):
7db96d56Sopenharmony_ci            # hide real spaces
7db96d56Sopenharmony_ci            line = line.replace(' ','\0')
7db96d56Sopenharmony_ci            # expand tabs into spaces
7db96d56Sopenharmony_ci            line = line.expandtabs(self._tabsize)
7db96d56Sopenharmony_ci            # replace spaces from expanded tabs back into tab characters
7db96d56Sopenharmony_ci            # (we'll replace them with markup after we do differencing)
7db96d56Sopenharmony_ci            line = line.replace(' ','\t')
7db96d56Sopenharmony_ci            return line.replace('\0',' ').rstrip('\n')
7db96d56Sopenharmony_ci        fromlines = [expand_tabs(line) for line in fromlines]
7db96d56Sopenharmony_ci        tolines = [expand_tabs(line) for line in tolines]
7db96d56Sopenharmony_ci        return fromlines,tolines
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def _split_line(self,data_list,line_num,text):
7db96d56Sopenharmony_ci        """Builds list of text lines by splitting text lines at wrap point
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        This function will determine if the input text line needs to be
7db96d56Sopenharmony_ci        wrapped (split) into separate lines.  If so, the first wrap point
7db96d56Sopenharmony_ci        will be determined and the first line appended to the output
7db96d56Sopenharmony_ci        text line list.  This function is used recursively to handle
7db96d56Sopenharmony_ci        the second part of the split line to further split it.
7db96d56Sopenharmony_ci        """
7db96d56Sopenharmony_ci        # if blank line or context separator, just add it to the output list
7db96d56Sopenharmony_ci        if not line_num:
7db96d56Sopenharmony_ci            data_list.append((line_num,text))
7db96d56Sopenharmony_ci            return
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # if line text doesn't need wrapping, just add it to the output list
7db96d56Sopenharmony_ci        size = len(text)
7db96d56Sopenharmony_ci        max = self._wrapcolumn
7db96d56Sopenharmony_ci        if (size <= max) or ((size -(text.count('\0')*3)) <= max):
7db96d56Sopenharmony_ci            data_list.append((line_num,text))
7db96d56Sopenharmony_ci            return
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # scan text looking for the wrap point, keeping track if the wrap
7db96d56Sopenharmony_ci        # point is inside markers
7db96d56Sopenharmony_ci        i = 0
7db96d56Sopenharmony_ci        n = 0
7db96d56Sopenharmony_ci        mark = ''
7db96d56Sopenharmony_ci        while n < max and i < size:
7db96d56Sopenharmony_ci            if text[i] == '\0':
7db96d56Sopenharmony_ci                i += 1
7db96d56Sopenharmony_ci                mark = text[i]
7db96d56Sopenharmony_ci                i += 1
7db96d56Sopenharmony_ci            elif text[i] == '\1':
7db96d56Sopenharmony_ci                i += 1
7db96d56Sopenharmony_ci                mark = ''
7db96d56Sopenharmony_ci            else:
7db96d56Sopenharmony_ci                i += 1
7db96d56Sopenharmony_ci                n += 1
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # wrap point is inside text, break it up into separate lines
7db96d56Sopenharmony_ci        line1 = text[:i]
7db96d56Sopenharmony_ci        line2 = text[i:]
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # if wrap point is inside markers, place end marker at end of first
7db96d56Sopenharmony_ci        # line and start marker at beginning of second line because each
7db96d56Sopenharmony_ci        # line will have its own table tag markup around it.
7db96d56Sopenharmony_ci        if mark:
7db96d56Sopenharmony_ci            line1 = line1 + '\1'
7db96d56Sopenharmony_ci            line2 = '\0' + mark + line2
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # tack on first line onto the output list
7db96d56Sopenharmony_ci        data_list.append((line_num,line1))
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # use this routine again to wrap the remaining text
7db96d56Sopenharmony_ci        self._split_line(data_list,'>',line2)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def _line_wrapper(self,diffs):
7db96d56Sopenharmony_ci        """Returns iterator that splits (wraps) mdiff text lines"""
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # pull from/to data and flags from mdiff iterator
7db96d56Sopenharmony_ci        for fromdata,todata,flag in diffs:
7db96d56Sopenharmony_ci            # check for context separators and pass them through
7db96d56Sopenharmony_ci            if flag is None:
7db96d56Sopenharmony_ci                yield fromdata,todata,flag
7db96d56Sopenharmony_ci                continue
7db96d56Sopenharmony_ci            (fromline,fromtext),(toline,totext) = fromdata,todata
7db96d56Sopenharmony_ci            # for each from/to line split it at the wrap column to form
7db96d56Sopenharmony_ci            # list of text lines.
7db96d56Sopenharmony_ci            fromlist,tolist = [],[]
7db96d56Sopenharmony_ci            self._split_line(fromlist,fromline,fromtext)
7db96d56Sopenharmony_ci            self._split_line(tolist,toline,totext)
7db96d56Sopenharmony_ci            # yield from/to line in pairs inserting blank lines as
7db96d56Sopenharmony_ci            # necessary when one side has more wrapped lines
7db96d56Sopenharmony_ci            while fromlist or tolist:
7db96d56Sopenharmony_ci                if fromlist:
7db96d56Sopenharmony_ci                    fromdata = fromlist.pop(0)
7db96d56Sopenharmony_ci                else:
7db96d56Sopenharmony_ci                    fromdata = ('',' ')
7db96d56Sopenharmony_ci                if tolist:
7db96d56Sopenharmony_ci                    todata = tolist.pop(0)
7db96d56Sopenharmony_ci                else:
7db96d56Sopenharmony_ci                    todata = ('',' ')
7db96d56Sopenharmony_ci                yield fromdata,todata,flag
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def _collect_lines(self,diffs):
7db96d56Sopenharmony_ci        """Collects mdiff output into separate lists
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        Before storing the mdiff from/to data into a list, it is converted
7db96d56Sopenharmony_ci        into a single line of text with HTML markup.
7db96d56Sopenharmony_ci        """
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        fromlist,tolist,flaglist = [],[],[]
7db96d56Sopenharmony_ci        # pull from/to data and flags from mdiff style iterator
7db96d56Sopenharmony_ci        for fromdata,todata,flag in diffs:
7db96d56Sopenharmony_ci            try:
7db96d56Sopenharmony_ci                # store HTML markup of the lines into the lists
7db96d56Sopenharmony_ci                fromlist.append(self._format_line(0,flag,*fromdata))
7db96d56Sopenharmony_ci                tolist.append(self._format_line(1,flag,*todata))
7db96d56Sopenharmony_ci            except TypeError:
7db96d56Sopenharmony_ci                # exceptions occur for lines where context separators go
7db96d56Sopenharmony_ci                fromlist.append(None)
7db96d56Sopenharmony_ci                tolist.append(None)
7db96d56Sopenharmony_ci            flaglist.append(flag)
7db96d56Sopenharmony_ci        return fromlist,tolist,flaglist
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def _format_line(self,side,flag,linenum,text):
7db96d56Sopenharmony_ci        """Returns HTML markup of "from" / "to" text lines
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        side -- 0 or 1 indicating "from" or "to" text
7db96d56Sopenharmony_ci        flag -- indicates if difference on line
7db96d56Sopenharmony_ci        linenum -- line number (used for line number column)
7db96d56Sopenharmony_ci        text -- line text to be marked up
7db96d56Sopenharmony_ci        """
7db96d56Sopenharmony_ci        try:
7db96d56Sopenharmony_ci            linenum = '%d' % linenum
7db96d56Sopenharmony_ci            id = ' id="%s%s"' % (self._prefix[side],linenum)
7db96d56Sopenharmony_ci        except TypeError:
7db96d56Sopenharmony_ci            # handle blank lines where linenum is '>' or ''
7db96d56Sopenharmony_ci            id = ''
7db96d56Sopenharmony_ci        # replace those things that would get confused with HTML symbols
7db96d56Sopenharmony_ci        text=text.replace("&","&amp;").replace(">","&gt;").replace("<","&lt;")
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # make space non-breakable so they don't get compressed or line wrapped
7db96d56Sopenharmony_ci        text = text.replace(' ','&nbsp;').rstrip()
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        return '<td class="diff_header"%s>%s</td><td nowrap="nowrap">%s</td>' \
7db96d56Sopenharmony_ci               % (id,linenum,text)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def _make_prefix(self):
7db96d56Sopenharmony_ci        """Create unique anchor prefixes"""
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # Generate a unique anchor prefix so multiple tables
7db96d56Sopenharmony_ci        # can exist on the same HTML page without conflicts.
7db96d56Sopenharmony_ci        fromprefix = "from%d_" % HtmlDiff._default_prefix
7db96d56Sopenharmony_ci        toprefix = "to%d_" % HtmlDiff._default_prefix
7db96d56Sopenharmony_ci        HtmlDiff._default_prefix += 1
7db96d56Sopenharmony_ci        # store prefixes so line format method has access
7db96d56Sopenharmony_ci        self._prefix = [fromprefix,toprefix]
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def _convert_flags(self,fromlist,tolist,flaglist,context,numlines):
7db96d56Sopenharmony_ci        """Makes list of "next" links"""
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # all anchor names will be generated using the unique "to" prefix
7db96d56Sopenharmony_ci        toprefix = self._prefix[1]
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # process change flags, generating middle column of next anchors/links
7db96d56Sopenharmony_ci        next_id = ['']*len(flaglist)
7db96d56Sopenharmony_ci        next_href = ['']*len(flaglist)
7db96d56Sopenharmony_ci        num_chg, in_change = 0, False
7db96d56Sopenharmony_ci        last = 0
7db96d56Sopenharmony_ci        for i,flag in enumerate(flaglist):
7db96d56Sopenharmony_ci            if flag:
7db96d56Sopenharmony_ci                if not in_change:
7db96d56Sopenharmony_ci                    in_change = True
7db96d56Sopenharmony_ci                    last = i
7db96d56Sopenharmony_ci                    # at the beginning of a change, drop an anchor a few lines
7db96d56Sopenharmony_ci                    # (the context lines) before the change for the previous
7db96d56Sopenharmony_ci                    # link
7db96d56Sopenharmony_ci                    i = max([0,i-numlines])
7db96d56Sopenharmony_ci                    next_id[i] = ' id="difflib_chg_%s_%d"' % (toprefix,num_chg)
7db96d56Sopenharmony_ci                    # at the beginning of a change, drop a link to the next
7db96d56Sopenharmony_ci                    # change
7db96d56Sopenharmony_ci                    num_chg += 1
7db96d56Sopenharmony_ci                    next_href[last] = '<a href="#difflib_chg_%s_%d">n</a>' % (
7db96d56Sopenharmony_ci                         toprefix,num_chg)
7db96d56Sopenharmony_ci            else:
7db96d56Sopenharmony_ci                in_change = False
7db96d56Sopenharmony_ci        # check for cases where there is no content to avoid exceptions
7db96d56Sopenharmony_ci        if not flaglist:
7db96d56Sopenharmony_ci            flaglist = [False]
7db96d56Sopenharmony_ci            next_id = ['']
7db96d56Sopenharmony_ci            next_href = ['']
7db96d56Sopenharmony_ci            last = 0
7db96d56Sopenharmony_ci            if context:
7db96d56Sopenharmony_ci                fromlist = ['<td></td><td>&nbsp;No Differences Found&nbsp;</td>']
7db96d56Sopenharmony_ci                tolist = fromlist
7db96d56Sopenharmony_ci            else:
7db96d56Sopenharmony_ci                fromlist = tolist = ['<td></td><td>&nbsp;Empty File&nbsp;</td>']
7db96d56Sopenharmony_ci        # if not a change on first line, drop a link
7db96d56Sopenharmony_ci        if not flaglist[0]:
7db96d56Sopenharmony_ci            next_href[0] = '<a href="#difflib_chg_%s_0">f</a>' % toprefix
7db96d56Sopenharmony_ci        # redo the last link to link to the top
7db96d56Sopenharmony_ci        next_href[last] = '<a href="#difflib_chg_%s_top">t</a>' % (toprefix)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        return fromlist,tolist,flaglist,next_href,next_id
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def make_table(self,fromlines,tolines,fromdesc='',todesc='',context=False,
7db96d56Sopenharmony_ci                   numlines=5):
7db96d56Sopenharmony_ci        """Returns HTML table of side by side comparison with change highlights
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        Arguments:
7db96d56Sopenharmony_ci        fromlines -- list of "from" lines
7db96d56Sopenharmony_ci        tolines -- list of "to" lines
7db96d56Sopenharmony_ci        fromdesc -- "from" file column header string
7db96d56Sopenharmony_ci        todesc -- "to" file column header string
7db96d56Sopenharmony_ci        context -- set to True for contextual differences (defaults to False
7db96d56Sopenharmony_ci            which shows full differences).
7db96d56Sopenharmony_ci        numlines -- number of context lines.  When context is set True,
7db96d56Sopenharmony_ci            controls number of lines displayed before and after the change.
7db96d56Sopenharmony_ci            When context is False, controls the number of lines to place
7db96d56Sopenharmony_ci            the "next" link anchors before the next change (so click of
7db96d56Sopenharmony_ci            "next" link jumps to just before the change).
7db96d56Sopenharmony_ci        """
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # make unique anchor prefixes so that multiple tables may exist
7db96d56Sopenharmony_ci        # on the same page without conflict.
7db96d56Sopenharmony_ci        self._make_prefix()
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # change tabs to spaces before it gets more difficult after we insert
7db96d56Sopenharmony_ci        # markup
7db96d56Sopenharmony_ci        fromlines,tolines = self._tab_newline_replace(fromlines,tolines)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # create diffs iterator which generates side by side from/to data
7db96d56Sopenharmony_ci        if context:
7db96d56Sopenharmony_ci            context_lines = numlines
7db96d56Sopenharmony_ci        else:
7db96d56Sopenharmony_ci            context_lines = None
7db96d56Sopenharmony_ci        diffs = _mdiff(fromlines,tolines,context_lines,linejunk=self._linejunk,
7db96d56Sopenharmony_ci                      charjunk=self._charjunk)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # set up iterator to wrap lines that exceed desired width
7db96d56Sopenharmony_ci        if self._wrapcolumn:
7db96d56Sopenharmony_ci            diffs = self._line_wrapper(diffs)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # collect up from/to lines and flags into lists (also format the lines)
7db96d56Sopenharmony_ci        fromlist,tolist,flaglist = self._collect_lines(diffs)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # process change flags, generating middle column of next anchors/links
7db96d56Sopenharmony_ci        fromlist,tolist,flaglist,next_href,next_id = self._convert_flags(
7db96d56Sopenharmony_ci            fromlist,tolist,flaglist,context,numlines)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        s = []
7db96d56Sopenharmony_ci        fmt = '            <tr><td class="diff_next"%s>%s</td>%s' + \
7db96d56Sopenharmony_ci              '<td class="diff_next">%s</td>%s</tr>\n'
7db96d56Sopenharmony_ci        for i in range(len(flaglist)):
7db96d56Sopenharmony_ci            if flaglist[i] is None:
7db96d56Sopenharmony_ci                # mdiff yields None on separator lines skip the bogus ones
7db96d56Sopenharmony_ci                # generated for the first line
7db96d56Sopenharmony_ci                if i > 0:
7db96d56Sopenharmony_ci                    s.append('        </tbody>        \n        <tbody>\n')
7db96d56Sopenharmony_ci            else:
7db96d56Sopenharmony_ci                s.append( fmt % (next_id[i],next_href[i],fromlist[i],
7db96d56Sopenharmony_ci                                           next_href[i],tolist[i]))
7db96d56Sopenharmony_ci        if fromdesc or todesc:
7db96d56Sopenharmony_ci            header_row = '<thead><tr>%s%s%s%s</tr></thead>' % (
7db96d56Sopenharmony_ci                '<th class="diff_next"><br /></th>',
7db96d56Sopenharmony_ci                '<th colspan="2" class="diff_header">%s</th>' % fromdesc,
7db96d56Sopenharmony_ci                '<th class="diff_next"><br /></th>',
7db96d56Sopenharmony_ci                '<th colspan="2" class="diff_header">%s</th>' % todesc)
7db96d56Sopenharmony_ci        else:
7db96d56Sopenharmony_ci            header_row = ''
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        table = self._table_template % dict(
7db96d56Sopenharmony_ci            data_rows=''.join(s),
7db96d56Sopenharmony_ci            header_row=header_row,
7db96d56Sopenharmony_ci            prefix=self._prefix[1])
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        return table.replace('\0+','<span class="diff_add">'). \
7db96d56Sopenharmony_ci                     replace('\0-','<span class="diff_sub">'). \
7db96d56Sopenharmony_ci                     replace('\0^','<span class="diff_chg">'). \
7db96d56Sopenharmony_ci                     replace('\1','</span>'). \
7db96d56Sopenharmony_ci                     replace('\t','&nbsp;')
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cidel re
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cidef restore(delta, which):
7db96d56Sopenharmony_ci    r"""
7db96d56Sopenharmony_ci    Generate one of the two sequences that generated a delta.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    Given a `delta` produced by `Differ.compare()` or `ndiff()`, extract
7db96d56Sopenharmony_ci    lines originating from file 1 or 2 (parameter `which`), stripping off line
7db96d56Sopenharmony_ci    prefixes.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    Examples:
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    >>> diff = ndiff('one\ntwo\nthree\n'.splitlines(keepends=True),
7db96d56Sopenharmony_ci    ...              'ore\ntree\nemu\n'.splitlines(keepends=True))
7db96d56Sopenharmony_ci    >>> diff = list(diff)
7db96d56Sopenharmony_ci    >>> print(''.join(restore(diff, 1)), end="")
7db96d56Sopenharmony_ci    one
7db96d56Sopenharmony_ci    two
7db96d56Sopenharmony_ci    three
7db96d56Sopenharmony_ci    >>> print(''.join(restore(diff, 2)), end="")
7db96d56Sopenharmony_ci    ore
7db96d56Sopenharmony_ci    tree
7db96d56Sopenharmony_ci    emu
7db96d56Sopenharmony_ci    """
7db96d56Sopenharmony_ci    try:
7db96d56Sopenharmony_ci        tag = {1: "- ", 2: "+ "}[int(which)]
7db96d56Sopenharmony_ci    except KeyError:
7db96d56Sopenharmony_ci        raise ValueError('unknown delta choice (must be 1 or 2): %r'
7db96d56Sopenharmony_ci                           % which) from None
7db96d56Sopenharmony_ci    prefixes = ("  ", tag)
7db96d56Sopenharmony_ci    for line in delta:
7db96d56Sopenharmony_ci        if line[:2] in prefixes:
7db96d56Sopenharmony_ci            yield line[2:]
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cidef _test():
7db96d56Sopenharmony_ci    import doctest, difflib
7db96d56Sopenharmony_ci    return doctest.testmod(difflib)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciif __name__ == "__main__":
7db96d56Sopenharmony_ci    _test()