python/Lib/tokenize.py

7db96d56Sopenharmony_ci"""Tokenization help for Python programs.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_citokenize(readline) is a generator that breaks a stream of bytes into
7db96d56Sopenharmony_ciPython tokens.  It decodes the bytes according to PEP-0263 for
7db96d56Sopenharmony_cidetermining source file encoding.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciIt accepts a readline-like method which is called repeatedly to get the
7db96d56Sopenharmony_cinext line of input (or b"" for EOF).  It generates 5-tuples with these
7db96d56Sopenharmony_cimembers:
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    the token type (see token.py)
7db96d56Sopenharmony_ci    the token (a string)
7db96d56Sopenharmony_ci    the starting (row, column) indices of the token (a 2-tuple of ints)
7db96d56Sopenharmony_ci    the ending (row, column) indices of the token (a 2-tuple of ints)
7db96d56Sopenharmony_ci    the original line (string)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciIt is designed to match the working of the Python tokenizer exactly, except
7db96d56Sopenharmony_cithat it produces COMMENT tokens for comments and gives type OP for all
7db96d56Sopenharmony_cioperators.  Additionally, all token lists start with an ENCODING token
7db96d56Sopenharmony_ciwhich tells you which encoding was used to decode the bytes stream.
7db96d56Sopenharmony_ci"""
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci__author__ = 'Ka-Ping Yee <ping@lfw.org>'
7db96d56Sopenharmony_ci__credits__ = ('GvR, ESR, Tim Peters, Thomas Wouters, Fred Drake, '
7db96d56Sopenharmony_ci               'Skip Montanaro, Raymond Hettinger, Trent Nelson, '
7db96d56Sopenharmony_ci               'Michael Foord')
7db96d56Sopenharmony_cifrom builtins import open as _builtin_open
7db96d56Sopenharmony_cifrom codecs import lookup, BOM_UTF8
7db96d56Sopenharmony_ciimport collections
7db96d56Sopenharmony_ciimport functools
7db96d56Sopenharmony_cifrom io import TextIOWrapper
7db96d56Sopenharmony_ciimport itertools as _itertools
7db96d56Sopenharmony_ciimport re
7db96d56Sopenharmony_ciimport sys
7db96d56Sopenharmony_cifrom token import *
7db96d56Sopenharmony_cifrom token import EXACT_TOKEN_TYPES
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cicookie_re = re.compile(r'^[ \t\f]*#.*?coding[:=][ \t]*([-\w.]+)', re.ASCII)
7db96d56Sopenharmony_ciblank_re = re.compile(br'^[ \t\f]*(?:[#\r\n]|$)', re.ASCII)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciimport token
7db96d56Sopenharmony_ci__all__ = token.__all__ + ["tokenize", "generate_tokens", "detect_encoding",
7db96d56Sopenharmony_ci                           "untokenize", "TokenInfo"]
7db96d56Sopenharmony_cidel token
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciclass TokenInfo(collections.namedtuple('TokenInfo', 'type string start end line')):
7db96d56Sopenharmony_ci    def __repr__(self):
7db96d56Sopenharmony_ci        annotated_type = '%d (%s)' % (self.type, tok_name[self.type])
7db96d56Sopenharmony_ci        return ('TokenInfo(type=%s, string=%r, start=%r, end=%r, line=%r)' %
7db96d56Sopenharmony_ci                self._replace(type=annotated_type))
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    @property
7db96d56Sopenharmony_ci    def exact_type(self):
7db96d56Sopenharmony_ci        if self.type == OP and self.string in EXACT_TOKEN_TYPES:
7db96d56Sopenharmony_ci            return EXACT_TOKEN_TYPES[self.string]
7db96d56Sopenharmony_ci        else:
7db96d56Sopenharmony_ci            return self.type
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cidef group(*choices): return '(' + '|'.join(choices) + ')'
7db96d56Sopenharmony_cidef any(*choices): return group(*choices) + '*'
7db96d56Sopenharmony_cidef maybe(*choices): return group(*choices) + '?'
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci# Note: we use unicode matching for names ("\w") but ascii matching for
7db96d56Sopenharmony_ci# number literals.
7db96d56Sopenharmony_ciWhitespace = r'[ \f\t]*'
7db96d56Sopenharmony_ciComment = r'#[^\r\n]*'
7db96d56Sopenharmony_ciIgnore = Whitespace + any(r'\\\r?\n' + Whitespace) + maybe(Comment)
7db96d56Sopenharmony_ciName = r'\w+'
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciHexnumber = r'0[xX](?:_?[0-9a-fA-F])+'
7db96d56Sopenharmony_ciBinnumber = r'0[bB](?:_?[01])+'
7db96d56Sopenharmony_ciOctnumber = r'0[oO](?:_?[0-7])+'
7db96d56Sopenharmony_ciDecnumber = r'(?:0(?:_?0)*|[1-9](?:_?[0-9])*)'
7db96d56Sopenharmony_ciIntnumber = group(Hexnumber, Binnumber, Octnumber, Decnumber)
7db96d56Sopenharmony_ciExponent = r'[eE][-+]?[0-9](?:_?[0-9])*'
7db96d56Sopenharmony_ciPointfloat = group(r'[0-9](?:_?[0-9])*\.(?:[0-9](?:_?[0-9])*)?',
7db96d56Sopenharmony_ci                   r'\.[0-9](?:_?[0-9])*') + maybe(Exponent)
7db96d56Sopenharmony_ciExpfloat = r'[0-9](?:_?[0-9])*' + Exponent
7db96d56Sopenharmony_ciFloatnumber = group(Pointfloat, Expfloat)
7db96d56Sopenharmony_ciImagnumber = group(r'[0-9](?:_?[0-9])*[jJ]', Floatnumber + r'[jJ]')
7db96d56Sopenharmony_ciNumber = group(Imagnumber, Floatnumber, Intnumber)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci# Return the empty string, plus all of the valid string prefixes.
7db96d56Sopenharmony_cidef _all_string_prefixes():
7db96d56Sopenharmony_ci    # The valid string prefixes. Only contain the lower case versions,
7db96d56Sopenharmony_ci    #  and don't contain any permutations (include 'fr', but not
7db96d56Sopenharmony_ci    #  'rf'). The various permutations will be generated.
7db96d56Sopenharmony_ci    _valid_string_prefixes = ['b', 'r', 'u', 'f', 'br', 'fr']
7db96d56Sopenharmony_ci    # if we add binary f-strings, add: ['fb', 'fbr']
7db96d56Sopenharmony_ci    result = {''}
7db96d56Sopenharmony_ci    for prefix in _valid_string_prefixes:
7db96d56Sopenharmony_ci        for t in _itertools.permutations(prefix):
7db96d56Sopenharmony_ci            # create a list with upper and lower versions of each
7db96d56Sopenharmony_ci            #  character
7db96d56Sopenharmony_ci            for u in _itertools.product(*[(c, c.upper()) for c in t]):
7db96d56Sopenharmony_ci                result.add(''.join(u))
7db96d56Sopenharmony_ci    return result
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci@functools.lru_cache
7db96d56Sopenharmony_cidef _compile(expr):
7db96d56Sopenharmony_ci    return re.compile(expr, re.UNICODE)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci# Note that since _all_string_prefixes includes the empty string,
7db96d56Sopenharmony_ci#  StringPrefix can be the empty string (making it optional).
7db96d56Sopenharmony_ciStringPrefix = group(*_all_string_prefixes())
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci# Tail end of ' string.
7db96d56Sopenharmony_ciSingle = r"[^'\\]*(?:\\.[^'\\]*)*'"
7db96d56Sopenharmony_ci# Tail end of " string.
7db96d56Sopenharmony_ciDouble = r'[^"\\]*(?:\\.[^"\\]*)*"'
7db96d56Sopenharmony_ci# Tail end of ''' string.
7db96d56Sopenharmony_ciSingle3 = r"[^'\\]*(?:(?:\\.|'(?!''))[^'\\]*)*'''"
7db96d56Sopenharmony_ci# Tail end of """ string.
7db96d56Sopenharmony_ciDouble3 = r'[^"\\]*(?:(?:\\.|"(?!""))[^"\\]*)*"""'
7db96d56Sopenharmony_ciTriple = group(StringPrefix + "'''", StringPrefix + '"""')
7db96d56Sopenharmony_ci# Single-line ' or " string.
7db96d56Sopenharmony_ciString = group(StringPrefix + r"'[^\n'\\]*(?:\\.[^\n'\\]*)*'",
7db96d56Sopenharmony_ci               StringPrefix + r'"[^\n"\\]*(?:\\.[^\n"\\]*)*"')
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci# Sorting in reverse order puts the long operators before their prefixes.
7db96d56Sopenharmony_ci# Otherwise if = came before ==, == would get recognized as two instances
7db96d56Sopenharmony_ci# of =.
7db96d56Sopenharmony_ciSpecial = group(*map(re.escape, sorted(EXACT_TOKEN_TYPES, reverse=True)))
7db96d56Sopenharmony_ciFunny = group(r'\r?\n', Special)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciPlainToken = group(Number, Funny, String, Name)
7db96d56Sopenharmony_ciToken = Ignore + PlainToken
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci# First (or only) line of ' or " string.
7db96d56Sopenharmony_ciContStr = group(StringPrefix + r"'[^\n'\\]*(?:\\.[^\n'\\]*)*" +
7db96d56Sopenharmony_ci                group("'", r'\\\r?\n'),
7db96d56Sopenharmony_ci                StringPrefix + r'"[^\n"\\]*(?:\\.[^\n"\\]*)*' +
7db96d56Sopenharmony_ci                group('"', r'\\\r?\n'))
7db96d56Sopenharmony_ciPseudoExtras = group(r'\\\r?\n|\Z', Comment, Triple)
7db96d56Sopenharmony_ciPseudoToken = Whitespace + group(PseudoExtras, Number, Funny, ContStr, Name)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci# For a given string prefix plus quotes, endpats maps it to a regex
7db96d56Sopenharmony_ci#  to match the remainder of that string. _prefix can be empty, for
7db96d56Sopenharmony_ci#  a normal single or triple quoted string (with no prefix).
7db96d56Sopenharmony_ciendpats = {}
7db96d56Sopenharmony_cifor _prefix in _all_string_prefixes():
7db96d56Sopenharmony_ci    endpats[_prefix + "'"] = Single
7db96d56Sopenharmony_ci    endpats[_prefix + '"'] = Double
7db96d56Sopenharmony_ci    endpats[_prefix + "'''"] = Single3
7db96d56Sopenharmony_ci    endpats[_prefix + '"""'] = Double3
7db96d56Sopenharmony_cidel _prefix
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci# A set of all of the single and triple quoted string prefixes,
7db96d56Sopenharmony_ci#  including the opening quotes.
7db96d56Sopenharmony_cisingle_quoted = set()
7db96d56Sopenharmony_citriple_quoted = set()
7db96d56Sopenharmony_cifor t in _all_string_prefixes():
7db96d56Sopenharmony_ci    for u in (t + '"', t + "'"):
7db96d56Sopenharmony_ci        single_quoted.add(u)
7db96d56Sopenharmony_ci    for u in (t + '"""', t + "'''"):
7db96d56Sopenharmony_ci        triple_quoted.add(u)
7db96d56Sopenharmony_cidel t, u
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_citabsize = 8
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciclass TokenError(Exception): pass
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciclass StopTokenizing(Exception): pass
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciclass Untokenizer:
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def __init__(self):
7db96d56Sopenharmony_ci        self.tokens = []
7db96d56Sopenharmony_ci        self.prev_row = 1
7db96d56Sopenharmony_ci        self.prev_col = 0
7db96d56Sopenharmony_ci        self.encoding = None
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def add_whitespace(self, start):
7db96d56Sopenharmony_ci        row, col = start
7db96d56Sopenharmony_ci        if row < self.prev_row or row == self.prev_row and col < self.prev_col:
7db96d56Sopenharmony_ci            raise ValueError("start ({},{}) precedes previous end ({},{})"
7db96d56Sopenharmony_ci                             .format(row, col, self.prev_row, self.prev_col))
7db96d56Sopenharmony_ci        row_offset = row - self.prev_row
7db96d56Sopenharmony_ci        if row_offset:
7db96d56Sopenharmony_ci            self.tokens.append("\\\n" * row_offset)
7db96d56Sopenharmony_ci            self.prev_col = 0
7db96d56Sopenharmony_ci        col_offset = col - self.prev_col
7db96d56Sopenharmony_ci        if col_offset:
7db96d56Sopenharmony_ci            self.tokens.append(" " * col_offset)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def untokenize(self, iterable):
7db96d56Sopenharmony_ci        it = iter(iterable)
7db96d56Sopenharmony_ci        indents = []
7db96d56Sopenharmony_ci        startline = False
7db96d56Sopenharmony_ci        for t in it:
7db96d56Sopenharmony_ci            if len(t) == 2:
7db96d56Sopenharmony_ci                self.compat(t, it)
7db96d56Sopenharmony_ci                break
7db96d56Sopenharmony_ci            tok_type, token, start, end, line = t
7db96d56Sopenharmony_ci            if tok_type == ENCODING:
7db96d56Sopenharmony_ci                self.encoding = token
7db96d56Sopenharmony_ci                continue
7db96d56Sopenharmony_ci            if tok_type == ENDMARKER:
7db96d56Sopenharmony_ci                break
7db96d56Sopenharmony_ci            if tok_type == INDENT:
7db96d56Sopenharmony_ci                indents.append(token)
7db96d56Sopenharmony_ci                continue
7db96d56Sopenharmony_ci            elif tok_type == DEDENT:
7db96d56Sopenharmony_ci                indents.pop()
7db96d56Sopenharmony_ci                self.prev_row, self.prev_col = end
7db96d56Sopenharmony_ci                continue
7db96d56Sopenharmony_ci            elif tok_type in (NEWLINE, NL):
7db96d56Sopenharmony_ci                startline = True
7db96d56Sopenharmony_ci            elif startline and indents:
7db96d56Sopenharmony_ci                indent = indents[-1]
7db96d56Sopenharmony_ci                if start[1] >= len(indent):
7db96d56Sopenharmony_ci                    self.tokens.append(indent)
7db96d56Sopenharmony_ci                    self.prev_col = len(indent)
7db96d56Sopenharmony_ci                startline = False
7db96d56Sopenharmony_ci            self.add_whitespace(start)
7db96d56Sopenharmony_ci            self.tokens.append(token)
7db96d56Sopenharmony_ci            self.prev_row, self.prev_col = end
7db96d56Sopenharmony_ci            if tok_type in (NEWLINE, NL):
7db96d56Sopenharmony_ci                self.prev_row += 1
7db96d56Sopenharmony_ci                self.prev_col = 0
7db96d56Sopenharmony_ci        return "".join(self.tokens)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def compat(self, token, iterable):
7db96d56Sopenharmony_ci        indents = []
7db96d56Sopenharmony_ci        toks_append = self.tokens.append
7db96d56Sopenharmony_ci        startline = token[0] in (NEWLINE, NL)
7db96d56Sopenharmony_ci        prevstring = False
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        for tok in _itertools.chain([token], iterable):
7db96d56Sopenharmony_ci            toknum, tokval = tok[:2]
7db96d56Sopenharmony_ci            if toknum == ENCODING:
7db96d56Sopenharmony_ci                self.encoding = tokval
7db96d56Sopenharmony_ci                continue
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci            if toknum in (NAME, NUMBER):
7db96d56Sopenharmony_ci                tokval += ' '
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci            # Insert a space between two consecutive strings
7db96d56Sopenharmony_ci            if toknum == STRING:
7db96d56Sopenharmony_ci                if prevstring:
7db96d56Sopenharmony_ci                    tokval = ' ' + tokval
7db96d56Sopenharmony_ci                prevstring = True
7db96d56Sopenharmony_ci            else:
7db96d56Sopenharmony_ci                prevstring = False
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci            if toknum == INDENT:
7db96d56Sopenharmony_ci                indents.append(tokval)
7db96d56Sopenharmony_ci                continue
7db96d56Sopenharmony_ci            elif toknum == DEDENT:
7db96d56Sopenharmony_ci                indents.pop()
7db96d56Sopenharmony_ci                continue
7db96d56Sopenharmony_ci            elif toknum in (NEWLINE, NL):
7db96d56Sopenharmony_ci                startline = True
7db96d56Sopenharmony_ci            elif startline and indents:
7db96d56Sopenharmony_ci                toks_append(indents[-1])
7db96d56Sopenharmony_ci                startline = False
7db96d56Sopenharmony_ci            toks_append(tokval)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cidef untokenize(iterable):
7db96d56Sopenharmony_ci    """Transform tokens back into Python source code.
7db96d56Sopenharmony_ci    It returns a bytes object, encoded using the ENCODING
7db96d56Sopenharmony_ci    token, which is the first token sequence output by tokenize.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    Each element returned by the iterable must be a token sequence
7db96d56Sopenharmony_ci    with at least two elements, a token number and token value.  If
7db96d56Sopenharmony_ci    only two tokens are passed, the resulting output is poor.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    Round-trip invariant for full input:
7db96d56Sopenharmony_ci        Untokenized source will match input source exactly
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    Round-trip invariant for limited input:
7db96d56Sopenharmony_ci        # Output bytes will tokenize back to the input
7db96d56Sopenharmony_ci        t1 = [tok[:2] for tok in tokenize(f.readline)]
7db96d56Sopenharmony_ci        newcode = untokenize(t1)
7db96d56Sopenharmony_ci        readline = BytesIO(newcode).readline
7db96d56Sopenharmony_ci        t2 = [tok[:2] for tok in tokenize(readline)]
7db96d56Sopenharmony_ci        assert t1 == t2
7db96d56Sopenharmony_ci    """
7db96d56Sopenharmony_ci    ut = Untokenizer()
7db96d56Sopenharmony_ci    out = ut.untokenize(iterable)
7db96d56Sopenharmony_ci    if ut.encoding is not None:
7db96d56Sopenharmony_ci        out = out.encode(ut.encoding)
7db96d56Sopenharmony_ci    return out
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cidef _get_normal_name(orig_enc):
7db96d56Sopenharmony_ci    """Imitates get_normal_name in tokenizer.c."""
7db96d56Sopenharmony_ci    # Only care about the first 12 characters.
7db96d56Sopenharmony_ci    enc = orig_enc[:12].lower().replace("_", "-")
7db96d56Sopenharmony_ci    if enc == "utf-8" or enc.startswith("utf-8-"):
7db96d56Sopenharmony_ci        return "utf-8"
7db96d56Sopenharmony_ci    if enc in ("latin-1", "iso-8859-1", "iso-latin-1") or \
7db96d56Sopenharmony_ci       enc.startswith(("latin-1-", "iso-8859-1-", "iso-latin-1-")):
7db96d56Sopenharmony_ci        return "iso-8859-1"
7db96d56Sopenharmony_ci    return orig_enc
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cidef detect_encoding(readline):
7db96d56Sopenharmony_ci    """
7db96d56Sopenharmony_ci    The detect_encoding() function is used to detect the encoding that should
7db96d56Sopenharmony_ci    be used to decode a Python source file.  It requires one argument, readline,
7db96d56Sopenharmony_ci    in the same way as the tokenize() generator.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    It will call readline a maximum of twice, and return the encoding used
7db96d56Sopenharmony_ci    (as a string) and a list of any lines (left as bytes) it has read in.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    It detects the encoding from the presence of a utf-8 bom or an encoding
7db96d56Sopenharmony_ci    cookie as specified in pep-0263.  If both a bom and a cookie are present,
7db96d56Sopenharmony_ci    but disagree, a SyntaxError will be raised.  If the encoding cookie is an
7db96d56Sopenharmony_ci    invalid charset, raise a SyntaxError.  Note that if a utf-8 bom is found,
7db96d56Sopenharmony_ci    'utf-8-sig' is returned.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    If no encoding is specified, then the default of 'utf-8' will be returned.
7db96d56Sopenharmony_ci    """
7db96d56Sopenharmony_ci    try:
7db96d56Sopenharmony_ci        filename = readline.__self__.name
7db96d56Sopenharmony_ci    except AttributeError:
7db96d56Sopenharmony_ci        filename = None
7db96d56Sopenharmony_ci    bom_found = False
7db96d56Sopenharmony_ci    encoding = None
7db96d56Sopenharmony_ci    default = 'utf-8'
7db96d56Sopenharmony_ci    def read_or_stop():
7db96d56Sopenharmony_ci        try:
7db96d56Sopenharmony_ci            return readline()
7db96d56Sopenharmony_ci        except StopIteration:
7db96d56Sopenharmony_ci            return b''
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def find_cookie(line):
7db96d56Sopenharmony_ci        try:
7db96d56Sopenharmony_ci            # Decode as UTF-8. Either the line is an encoding declaration,
7db96d56Sopenharmony_ci            # in which case it should be pure ASCII, or it must be UTF-8
7db96d56Sopenharmony_ci            # per default encoding.
7db96d56Sopenharmony_ci            line_string = line.decode('utf-8')
7db96d56Sopenharmony_ci        except UnicodeDecodeError:
7db96d56Sopenharmony_ci            msg = "invalid or missing encoding declaration"
7db96d56Sopenharmony_ci            if filename is not None:
7db96d56Sopenharmony_ci                msg = '{} for {!r}'.format(msg, filename)
7db96d56Sopenharmony_ci            raise SyntaxError(msg)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        match = cookie_re.match(line_string)
7db96d56Sopenharmony_ci        if not match:
7db96d56Sopenharmony_ci            return None
7db96d56Sopenharmony_ci        encoding = _get_normal_name(match.group(1))
7db96d56Sopenharmony_ci        try:
7db96d56Sopenharmony_ci            codec = lookup(encoding)
7db96d56Sopenharmony_ci        except LookupError:
7db96d56Sopenharmony_ci            # This behaviour mimics the Python interpreter
7db96d56Sopenharmony_ci            if filename is None:
7db96d56Sopenharmony_ci                msg = "unknown encoding: " + encoding
7db96d56Sopenharmony_ci            else:
7db96d56Sopenharmony_ci                msg = "unknown encoding for {!r}: {}".format(filename,
7db96d56Sopenharmony_ci                        encoding)
7db96d56Sopenharmony_ci            raise SyntaxError(msg)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        if bom_found:
7db96d56Sopenharmony_ci            if encoding != 'utf-8':
7db96d56Sopenharmony_ci                # This behaviour mimics the Python interpreter
7db96d56Sopenharmony_ci                if filename is None:
7db96d56Sopenharmony_ci                    msg = 'encoding problem: utf-8'
7db96d56Sopenharmony_ci                else:
7db96d56Sopenharmony_ci                    msg = 'encoding problem for {!r}: utf-8'.format(filename)
7db96d56Sopenharmony_ci                raise SyntaxError(msg)
7db96d56Sopenharmony_ci            encoding += '-sig'
7db96d56Sopenharmony_ci        return encoding
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    first = read_or_stop()
7db96d56Sopenharmony_ci    if first.startswith(BOM_UTF8):
7db96d56Sopenharmony_ci        bom_found = True
7db96d56Sopenharmony_ci        first = first[3:]
7db96d56Sopenharmony_ci        default = 'utf-8-sig'
7db96d56Sopenharmony_ci    if not first:
7db96d56Sopenharmony_ci        return default, []
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    encoding = find_cookie(first)
7db96d56Sopenharmony_ci    if encoding:
7db96d56Sopenharmony_ci        return encoding, [first]
7db96d56Sopenharmony_ci    if not blank_re.match(first):
7db96d56Sopenharmony_ci        return default, [first]
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    second = read_or_stop()
7db96d56Sopenharmony_ci    if not second:
7db96d56Sopenharmony_ci        return default, [first]
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    encoding = find_cookie(second)
7db96d56Sopenharmony_ci    if encoding:
7db96d56Sopenharmony_ci        return encoding, [first, second]
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    return default, [first, second]
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cidef open(filename):
7db96d56Sopenharmony_ci    """Open a file in read only mode using the encoding detected by
7db96d56Sopenharmony_ci    detect_encoding().
7db96d56Sopenharmony_ci    """
7db96d56Sopenharmony_ci    buffer = _builtin_open(filename, 'rb')
7db96d56Sopenharmony_ci    try:
7db96d56Sopenharmony_ci        encoding, lines = detect_encoding(buffer.readline)
7db96d56Sopenharmony_ci        buffer.seek(0)
7db96d56Sopenharmony_ci        text = TextIOWrapper(buffer, encoding, line_buffering=True)
7db96d56Sopenharmony_ci        text.mode = 'r'
7db96d56Sopenharmony_ci        return text
7db96d56Sopenharmony_ci    except:
7db96d56Sopenharmony_ci        buffer.close()
7db96d56Sopenharmony_ci        raise
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cidef tokenize(readline):
7db96d56Sopenharmony_ci    """
7db96d56Sopenharmony_ci    The tokenize() generator requires one argument, readline, which
7db96d56Sopenharmony_ci    must be a callable object which provides the same interface as the
7db96d56Sopenharmony_ci    readline() method of built-in file objects.  Each call to the function
7db96d56Sopenharmony_ci    should return one line of input as bytes.  Alternatively, readline
7db96d56Sopenharmony_ci    can be a callable function terminating with StopIteration:
7db96d56Sopenharmony_ci        readline = open(myfile, 'rb').__next__  # Example of alternate readline
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    The generator produces 5-tuples with these members: the token type; the
7db96d56Sopenharmony_ci    token string; a 2-tuple (srow, scol) of ints specifying the row and
7db96d56Sopenharmony_ci    column where the token begins in the source; a 2-tuple (erow, ecol) of
7db96d56Sopenharmony_ci    ints specifying the row and column where the token ends in the source;
7db96d56Sopenharmony_ci    and the line on which the token was found.  The line passed is the
7db96d56Sopenharmony_ci    physical line.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    The first token sequence will always be an ENCODING token
7db96d56Sopenharmony_ci    which tells you which encoding was used to decode the bytes stream.
7db96d56Sopenharmony_ci    """
7db96d56Sopenharmony_ci    encoding, consumed = detect_encoding(readline)
7db96d56Sopenharmony_ci    empty = _itertools.repeat(b"")
7db96d56Sopenharmony_ci    rl_gen = _itertools.chain(consumed, iter(readline, b""), empty)
7db96d56Sopenharmony_ci    return _tokenize(rl_gen.__next__, encoding)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cidef _tokenize(readline, encoding):
7db96d56Sopenharmony_ci    lnum = parenlev = continued = 0
7db96d56Sopenharmony_ci    numchars = '0123456789'
7db96d56Sopenharmony_ci    contstr, needcont = '', 0
7db96d56Sopenharmony_ci    contline = None
7db96d56Sopenharmony_ci    indents = [0]
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    if encoding is not None:
7db96d56Sopenharmony_ci        if encoding == "utf-8-sig":
7db96d56Sopenharmony_ci            # BOM will already have been stripped.
7db96d56Sopenharmony_ci            encoding = "utf-8"
7db96d56Sopenharmony_ci        yield TokenInfo(ENCODING, encoding, (0, 0), (0, 0), '')
7db96d56Sopenharmony_ci    last_line = b''
7db96d56Sopenharmony_ci    line = b''
7db96d56Sopenharmony_ci    while True:                                # loop over lines in stream
7db96d56Sopenharmony_ci        try:
7db96d56Sopenharmony_ci            # We capture the value of the line variable here because
7db96d56Sopenharmony_ci            # readline uses the empty string '' to signal end of input,
7db96d56Sopenharmony_ci            # hence `line` itself will always be overwritten at the end
7db96d56Sopenharmony_ci            # of this loop.
7db96d56Sopenharmony_ci            last_line = line
7db96d56Sopenharmony_ci            line = readline()
7db96d56Sopenharmony_ci        except StopIteration:
7db96d56Sopenharmony_ci            line = b''
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        if encoding is not None:
7db96d56Sopenharmony_ci            line = line.decode(encoding)
7db96d56Sopenharmony_ci        lnum += 1
7db96d56Sopenharmony_ci        pos, max = 0, len(line)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        if contstr:                            # continued string
7db96d56Sopenharmony_ci            if not line:
7db96d56Sopenharmony_ci                raise TokenError("EOF in multi-line string", strstart)
7db96d56Sopenharmony_ci            endmatch = endprog.match(line)
7db96d56Sopenharmony_ci            if endmatch:
7db96d56Sopenharmony_ci                pos = end = endmatch.end(0)
7db96d56Sopenharmony_ci                yield TokenInfo(STRING, contstr + line[:end],
7db96d56Sopenharmony_ci                       strstart, (lnum, end), contline + line)
7db96d56Sopenharmony_ci                contstr, needcont = '', 0
7db96d56Sopenharmony_ci                contline = None
7db96d56Sopenharmony_ci            elif needcont and line[-2:] != '\\\n' and line[-3:] != '\\\r\n':
7db96d56Sopenharmony_ci                yield TokenInfo(ERRORTOKEN, contstr + line,
7db96d56Sopenharmony_ci                           strstart, (lnum, len(line)), contline)
7db96d56Sopenharmony_ci                contstr = ''
7db96d56Sopenharmony_ci                contline = None
7db96d56Sopenharmony_ci                continue
7db96d56Sopenharmony_ci            else:
7db96d56Sopenharmony_ci                contstr = contstr + line
7db96d56Sopenharmony_ci                contline = contline + line
7db96d56Sopenharmony_ci                continue
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        elif parenlev == 0 and not continued:  # new statement
7db96d56Sopenharmony_ci            if not line: break
7db96d56Sopenharmony_ci            column = 0
7db96d56Sopenharmony_ci            while pos < max:                   # measure leading whitespace
7db96d56Sopenharmony_ci                if line[pos] == ' ':
7db96d56Sopenharmony_ci                    column += 1
7db96d56Sopenharmony_ci                elif line[pos] == '\t':
7db96d56Sopenharmony_ci                    column = (column//tabsize + 1)*tabsize
7db96d56Sopenharmony_ci                elif line[pos] == '\f':
7db96d56Sopenharmony_ci                    column = 0
7db96d56Sopenharmony_ci                else:
7db96d56Sopenharmony_ci                    break
7db96d56Sopenharmony_ci                pos += 1
7db96d56Sopenharmony_ci            if pos == max:
7db96d56Sopenharmony_ci                break
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci            if line[pos] in '#\r\n':           # skip comments or blank lines
7db96d56Sopenharmony_ci                if line[pos] == '#':
7db96d56Sopenharmony_ci                    comment_token = line[pos:].rstrip('\r\n')
7db96d56Sopenharmony_ci                    yield TokenInfo(COMMENT, comment_token,
7db96d56Sopenharmony_ci                           (lnum, pos), (lnum, pos + len(comment_token)), line)
7db96d56Sopenharmony_ci                    pos += len(comment_token)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci                yield TokenInfo(NL, line[pos:],
7db96d56Sopenharmony_ci                           (lnum, pos), (lnum, len(line)), line)
7db96d56Sopenharmony_ci                continue
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci            if column > indents[-1]:           # count indents or dedents
7db96d56Sopenharmony_ci                indents.append(column)
7db96d56Sopenharmony_ci                yield TokenInfo(INDENT, line[:pos], (lnum, 0), (lnum, pos), line)
7db96d56Sopenharmony_ci            while column < indents[-1]:
7db96d56Sopenharmony_ci                if column not in indents:
7db96d56Sopenharmony_ci                    raise IndentationError(
7db96d56Sopenharmony_ci                        "unindent does not match any outer indentation level",
7db96d56Sopenharmony_ci                        ("<tokenize>", lnum, pos, line))
7db96d56Sopenharmony_ci                indents = indents[:-1]
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci                yield TokenInfo(DEDENT, '', (lnum, pos), (lnum, pos), line)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        else:                                  # continued statement
7db96d56Sopenharmony_ci            if not line:
7db96d56Sopenharmony_ci                raise TokenError("EOF in multi-line statement", (lnum, 0))
7db96d56Sopenharmony_ci            continued = 0
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        while pos < max:
7db96d56Sopenharmony_ci            pseudomatch = _compile(PseudoToken).match(line, pos)
7db96d56Sopenharmony_ci            if pseudomatch:                                # scan for tokens
7db96d56Sopenharmony_ci                start, end = pseudomatch.span(1)
7db96d56Sopenharmony_ci                spos, epos, pos = (lnum, start), (lnum, end), end
7db96d56Sopenharmony_ci                if start == end:
7db96d56Sopenharmony_ci                    continue
7db96d56Sopenharmony_ci                token, initial = line[start:end], line[start]
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci                if (initial in numchars or                 # ordinary number
7db96d56Sopenharmony_ci                    (initial == '.' and token != '.' and token != '...')):
7db96d56Sopenharmony_ci                    yield TokenInfo(NUMBER, token, spos, epos, line)
7db96d56Sopenharmony_ci                elif initial in '\r\n':
7db96d56Sopenharmony_ci                    if parenlev > 0:
7db96d56Sopenharmony_ci                        yield TokenInfo(NL, token, spos, epos, line)
7db96d56Sopenharmony_ci                    else:
7db96d56Sopenharmony_ci                        yield TokenInfo(NEWLINE, token, spos, epos, line)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci                elif initial == '#':
7db96d56Sopenharmony_ci                    assert not token.endswith("\n")
7db96d56Sopenharmony_ci                    yield TokenInfo(COMMENT, token, spos, epos, line)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci                elif token in triple_quoted:
7db96d56Sopenharmony_ci                    endprog = _compile(endpats[token])
7db96d56Sopenharmony_ci                    endmatch = endprog.match(line, pos)
7db96d56Sopenharmony_ci                    if endmatch:                           # all on one line
7db96d56Sopenharmony_ci                        pos = endmatch.end(0)
7db96d56Sopenharmony_ci                        token = line[start:pos]
7db96d56Sopenharmony_ci                        yield TokenInfo(STRING, token, spos, (lnum, pos), line)
7db96d56Sopenharmony_ci                    else:
7db96d56Sopenharmony_ci                        strstart = (lnum, start)           # multiple lines
7db96d56Sopenharmony_ci                        contstr = line[start:]
7db96d56Sopenharmony_ci                        contline = line
7db96d56Sopenharmony_ci                        break
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci                # Check up to the first 3 chars of the token to see if
7db96d56Sopenharmony_ci                #  they're in the single_quoted set. If so, they start
7db96d56Sopenharmony_ci                #  a string.
7db96d56Sopenharmony_ci                # We're using the first 3, because we're looking for
7db96d56Sopenharmony_ci                #  "rb'" (for example) at the start of the token. If
7db96d56Sopenharmony_ci                #  we switch to longer prefixes, this needs to be
7db96d56Sopenharmony_ci                #  adjusted.
7db96d56Sopenharmony_ci                # Note that initial == token[:1].
7db96d56Sopenharmony_ci                # Also note that single quote checking must come after
7db96d56Sopenharmony_ci                #  triple quote checking (above).
7db96d56Sopenharmony_ci                elif (initial in single_quoted or
7db96d56Sopenharmony_ci                      token[:2] in single_quoted or
7db96d56Sopenharmony_ci                      token[:3] in single_quoted):
7db96d56Sopenharmony_ci                    if token[-1] == '\n':                  # continued string
7db96d56Sopenharmony_ci                        strstart = (lnum, start)
7db96d56Sopenharmony_ci                        # Again, using the first 3 chars of the
7db96d56Sopenharmony_ci                        #  token. This is looking for the matching end
7db96d56Sopenharmony_ci                        #  regex for the correct type of quote
7db96d56Sopenharmony_ci                        #  character. So it's really looking for
7db96d56Sopenharmony_ci                        #  endpats["'"] or endpats['"'], by trying to
7db96d56Sopenharmony_ci                        #  skip string prefix characters, if any.
7db96d56Sopenharmony_ci                        endprog = _compile(endpats.get(initial) or
7db96d56Sopenharmony_ci                                           endpats.get(token[1]) or
7db96d56Sopenharmony_ci                                           endpats.get(token[2]))
7db96d56Sopenharmony_ci                        contstr, needcont = line[start:], 1
7db96d56Sopenharmony_ci                        contline = line
7db96d56Sopenharmony_ci                        break
7db96d56Sopenharmony_ci                    else:                                  # ordinary string
7db96d56Sopenharmony_ci                        yield TokenInfo(STRING, token, spos, epos, line)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci                elif initial.isidentifier():               # ordinary name
7db96d56Sopenharmony_ci                    yield TokenInfo(NAME, token, spos, epos, line)
7db96d56Sopenharmony_ci                elif initial == '\\':                      # continued stmt
7db96d56Sopenharmony_ci                    continued = 1
7db96d56Sopenharmony_ci                else:
7db96d56Sopenharmony_ci                    if initial in '([{':
7db96d56Sopenharmony_ci                        parenlev += 1
7db96d56Sopenharmony_ci                    elif initial in ')]}':
7db96d56Sopenharmony_ci                        parenlev -= 1
7db96d56Sopenharmony_ci                    yield TokenInfo(OP, token, spos, epos, line)
7db96d56Sopenharmony_ci            else:
7db96d56Sopenharmony_ci                yield TokenInfo(ERRORTOKEN, line[pos],
7db96d56Sopenharmony_ci                           (lnum, pos), (lnum, pos+1), line)
7db96d56Sopenharmony_ci                pos += 1
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    # Add an implicit NEWLINE if the input doesn't end in one
7db96d56Sopenharmony_ci    if last_line and last_line[-1] not in '\r\n' and not last_line.strip().startswith("#"):
7db96d56Sopenharmony_ci        yield TokenInfo(NEWLINE, '', (lnum - 1, len(last_line)), (lnum - 1, len(last_line) + 1), '')
7db96d56Sopenharmony_ci    for indent in indents[1:]:                 # pop remaining indent levels
7db96d56Sopenharmony_ci        yield TokenInfo(DEDENT, '', (lnum, 0), (lnum, 0), '')
7db96d56Sopenharmony_ci    yield TokenInfo(ENDMARKER, '', (lnum, 0), (lnum, 0), '')
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cidef generate_tokens(readline):
7db96d56Sopenharmony_ci    """Tokenize a source reading Python code as unicode strings.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    This has the same API as tokenize(), except that it expects the *readline*
7db96d56Sopenharmony_ci    callable to return str objects instead of bytes.
7db96d56Sopenharmony_ci    """
7db96d56Sopenharmony_ci    return _tokenize(readline, None)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cidef main():
7db96d56Sopenharmony_ci    import argparse
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    # Helper error handling routines
7db96d56Sopenharmony_ci    def perror(message):
7db96d56Sopenharmony_ci        sys.stderr.write(message)
7db96d56Sopenharmony_ci        sys.stderr.write('\n')
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def error(message, filename=None, location=None):
7db96d56Sopenharmony_ci        if location:
7db96d56Sopenharmony_ci            args = (filename,) + location + (message,)
7db96d56Sopenharmony_ci            perror("%s:%d:%d: error: %s" % args)
7db96d56Sopenharmony_ci        elif filename:
7db96d56Sopenharmony_ci            perror("%s: error: %s" % (filename, message))
7db96d56Sopenharmony_ci        else:
7db96d56Sopenharmony_ci            perror("error: %s" % message)
7db96d56Sopenharmony_ci        sys.exit(1)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    # Parse the arguments and options
7db96d56Sopenharmony_ci    parser = argparse.ArgumentParser(prog='python -m tokenize')
7db96d56Sopenharmony_ci    parser.add_argument(dest='filename', nargs='?',
7db96d56Sopenharmony_ci                        metavar='filename.py',
7db96d56Sopenharmony_ci                        help='the file to tokenize; defaults to stdin')
7db96d56Sopenharmony_ci    parser.add_argument('-e', '--exact', dest='exact', action='store_true',
7db96d56Sopenharmony_ci                        help='display token names using the exact type')
7db96d56Sopenharmony_ci    args = parser.parse_args()
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    try:
7db96d56Sopenharmony_ci        # Tokenize the input
7db96d56Sopenharmony_ci        if args.filename:
7db96d56Sopenharmony_ci            filename = args.filename
7db96d56Sopenharmony_ci            with _builtin_open(filename, 'rb') as f:
7db96d56Sopenharmony_ci                tokens = list(tokenize(f.readline))
7db96d56Sopenharmony_ci        else:
7db96d56Sopenharmony_ci            filename = "<stdin>"
7db96d56Sopenharmony_ci            tokens = _tokenize(sys.stdin.readline, None)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # Output the tokenization
7db96d56Sopenharmony_ci        for token in tokens:
7db96d56Sopenharmony_ci            token_type = token.type
7db96d56Sopenharmony_ci            if args.exact:
7db96d56Sopenharmony_ci                token_type = token.exact_type
7db96d56Sopenharmony_ci            token_range = "%d,%d-%d,%d:" % (token.start + token.end)
7db96d56Sopenharmony_ci            print("%-20s%-15s%-15r" %
7db96d56Sopenharmony_ci                  (token_range, tok_name[token_type], token.string))
7db96d56Sopenharmony_ci    except IndentationError as err:
7db96d56Sopenharmony_ci        line, column = err.args[1][1:3]
7db96d56Sopenharmony_ci        error(err.args[0], filename, (line, column))
7db96d56Sopenharmony_ci    except TokenError as err:
7db96d56Sopenharmony_ci        line, column = err.args[1]
7db96d56Sopenharmony_ci        error(err.args[0], filename, (line, column))
7db96d56Sopenharmony_ci    except SyntaxError as err:
7db96d56Sopenharmony_ci        error(err, filename)
7db96d56Sopenharmony_ci    except OSError as err:
7db96d56Sopenharmony_ci        error(err)
7db96d56Sopenharmony_ci    except KeyboardInterrupt:
7db96d56Sopenharmony_ci        print("interrupted\n")
7db96d56Sopenharmony_ci    except Exception as err:
7db96d56Sopenharmony_ci        perror("unexpected error: %s" % err)
7db96d56Sopenharmony_ci        raise
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cidef _generate_tokens_from_c_tokenizer(source):
7db96d56Sopenharmony_ci    """Tokenize a source reading Python code as unicode strings using the internal C tokenizer"""
7db96d56Sopenharmony_ci    import _tokenize as c_tokenizer
7db96d56Sopenharmony_ci    for info in c_tokenizer.TokenizerIter(source):
7db96d56Sopenharmony_ci        tok, type, lineno, end_lineno, col_off, end_col_off, line = info
7db96d56Sopenharmony_ci        yield TokenInfo(type, tok, (lineno, col_off), (end_lineno, end_col_off), line)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciif __name__ == "__main__":
7db96d56Sopenharmony_ci    main()