lib2to3/pgen2/tokenize.py

7db96d56Sopenharmony_ci# Copyright (c) 2001, 2002, 2003, 2004, 2005, 2006 Python Software Foundation.
7db96d56Sopenharmony_ci# All rights reserved.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci"""Tokenization help for Python programs.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cigenerate_tokens(readline) is a generator that breaks a stream of
7db96d56Sopenharmony_citext into Python tokens.  It accepts a readline-like method which is called
7db96d56Sopenharmony_cirepeatedly to get the next line of input (or "" for EOF).  It generates
7db96d56Sopenharmony_ci5-tuples with these members:
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    the token type (see token.py)
7db96d56Sopenharmony_ci    the token (a string)
7db96d56Sopenharmony_ci    the starting (row, column) indices of the token (a 2-tuple of ints)
7db96d56Sopenharmony_ci    the ending (row, column) indices of the token (a 2-tuple of ints)
7db96d56Sopenharmony_ci    the original line (string)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciIt is designed to match the working of the Python tokenizer exactly, except
7db96d56Sopenharmony_cithat it produces COMMENT tokens for comments and gives type OP for all
7db96d56Sopenharmony_cioperators
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciOlder entry points
7db96d56Sopenharmony_ci    tokenize_loop(readline, tokeneater)
7db96d56Sopenharmony_ci    tokenize(readline, tokeneater=printtoken)
7db96d56Sopenharmony_ciare the same, except instead of generating tokens, tokeneater is a callback
7db96d56Sopenharmony_cifunction to which the 5 fields described above are passed as 5 arguments,
7db96d56Sopenharmony_cieach time a new token is found."""
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci__author__ = 'Ka-Ping Yee <ping@lfw.org>'
7db96d56Sopenharmony_ci__credits__ = \
7db96d56Sopenharmony_ci    'GvR, ESR, Tim Peters, Thomas Wouters, Fred Drake, Skip Montanaro'
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciimport string, re
7db96d56Sopenharmony_cifrom codecs import BOM_UTF8, lookup
7db96d56Sopenharmony_cifrom lib2to3.pgen2.token import *
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cifrom . import token
7db96d56Sopenharmony_ci__all__ = [x for x in dir(token) if x[0] != '_'] + ["tokenize",
7db96d56Sopenharmony_ci           "generate_tokens", "untokenize"]
7db96d56Sopenharmony_cidel token
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_citry:
7db96d56Sopenharmony_ci    bytes
7db96d56Sopenharmony_ciexcept NameError:
7db96d56Sopenharmony_ci    # Support bytes type in Python <= 2.5, so 2to3 turns itself into
7db96d56Sopenharmony_ci    # valid Python 3 code.
7db96d56Sopenharmony_ci    bytes = str
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cidef group(*choices): return '(' + '|'.join(choices) + ')'
7db96d56Sopenharmony_cidef any(*choices): return group(*choices) + '*'
7db96d56Sopenharmony_cidef maybe(*choices): return group(*choices) + '?'
7db96d56Sopenharmony_cidef _combinations(*l):
7db96d56Sopenharmony_ci    return set(
7db96d56Sopenharmony_ci        x + y for x in l for y in l + ("",) if x.casefold() != y.casefold()
7db96d56Sopenharmony_ci    )
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciWhitespace = r'[ \f\t]*'
7db96d56Sopenharmony_ciComment = r'#[^\r\n]*'
7db96d56Sopenharmony_ciIgnore = Whitespace + any(r'\\\r?\n' + Whitespace) + maybe(Comment)
7db96d56Sopenharmony_ciName = r'\w+'
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciBinnumber = r'0[bB]_?[01]+(?:_[01]+)*'
7db96d56Sopenharmony_ciHexnumber = r'0[xX]_?[\da-fA-F]+(?:_[\da-fA-F]+)*[lL]?'
7db96d56Sopenharmony_ciOctnumber = r'0[oO]?_?[0-7]+(?:_[0-7]+)*[lL]?'
7db96d56Sopenharmony_ciDecnumber = group(r'[1-9]\d*(?:_\d+)*[lL]?', '0[lL]?')
7db96d56Sopenharmony_ciIntnumber = group(Binnumber, Hexnumber, Octnumber, Decnumber)
7db96d56Sopenharmony_ciExponent = r'[eE][-+]?\d+(?:_\d+)*'
7db96d56Sopenharmony_ciPointfloat = group(r'\d+(?:_\d+)*\.(?:\d+(?:_\d+)*)?', r'\.\d+(?:_\d+)*') + maybe(Exponent)
7db96d56Sopenharmony_ciExpfloat = r'\d+(?:_\d+)*' + Exponent
7db96d56Sopenharmony_ciFloatnumber = group(Pointfloat, Expfloat)
7db96d56Sopenharmony_ciImagnumber = group(r'\d+(?:_\d+)*[jJ]', Floatnumber + r'[jJ]')
7db96d56Sopenharmony_ciNumber = group(Imagnumber, Floatnumber, Intnumber)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci# Tail end of ' string.
7db96d56Sopenharmony_ciSingle = r"[^'\\]*(?:\\.[^'\\]*)*'"
7db96d56Sopenharmony_ci# Tail end of " string.
7db96d56Sopenharmony_ciDouble = r'[^"\\]*(?:\\.[^"\\]*)*"'
7db96d56Sopenharmony_ci# Tail end of ''' string.
7db96d56Sopenharmony_ciSingle3 = r"[^'\\]*(?:(?:\\.|'(?!''))[^'\\]*)*'''"
7db96d56Sopenharmony_ci# Tail end of """ string.
7db96d56Sopenharmony_ciDouble3 = r'[^"\\]*(?:(?:\\.|"(?!""))[^"\\]*)*"""'
7db96d56Sopenharmony_ci_litprefix = r"(?:[uUrRbBfF]|[rR][fFbB]|[fFbBuU][rR])?"
7db96d56Sopenharmony_ciTriple = group(_litprefix + "'''", _litprefix + '"""')
7db96d56Sopenharmony_ci# Single-line ' or " string.
7db96d56Sopenharmony_ciString = group(_litprefix + r"'[^\n'\\]*(?:\\.[^\n'\\]*)*'",
7db96d56Sopenharmony_ci               _litprefix + r'"[^\n"\\]*(?:\\.[^\n"\\]*)*"')
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci# Because of leftmost-then-longest match semantics, be sure to put the
7db96d56Sopenharmony_ci# longest operators first (e.g., if = came before ==, == would get
7db96d56Sopenharmony_ci# recognized as two instances of =).
7db96d56Sopenharmony_ciOperator = group(r"\*\*=?", r">>=?", r"<<=?", r"<>", r"!=",
7db96d56Sopenharmony_ci                 r"//=?", r"->",
7db96d56Sopenharmony_ci                 r"[+\-*/%&@|^=<>]=?",
7db96d56Sopenharmony_ci                 r"~")
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciBracket = '[][(){}]'
7db96d56Sopenharmony_ciSpecial = group(r'\r?\n', r':=', r'[:;.,`@]')
7db96d56Sopenharmony_ciFunny = group(Operator, Bracket, Special)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciPlainToken = group(Number, Funny, String, Name)
7db96d56Sopenharmony_ciToken = Ignore + PlainToken
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci# First (or only) line of ' or " string.
7db96d56Sopenharmony_ciContStr = group(_litprefix + r"'[^\n'\\]*(?:\\.[^\n'\\]*)*" +
7db96d56Sopenharmony_ci                group("'", r'\\\r?\n'),
7db96d56Sopenharmony_ci                _litprefix + r'"[^\n"\\]*(?:\\.[^\n"\\]*)*' +
7db96d56Sopenharmony_ci                group('"', r'\\\r?\n'))
7db96d56Sopenharmony_ciPseudoExtras = group(r'\\\r?\n', Comment, Triple)
7db96d56Sopenharmony_ciPseudoToken = Whitespace + group(PseudoExtras, Number, Funny, ContStr, Name)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_citokenprog, pseudoprog, single3prog, double3prog = map(
7db96d56Sopenharmony_ci    re.compile, (Token, PseudoToken, Single3, Double3))
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci_strprefixes = (
7db96d56Sopenharmony_ci    _combinations('r', 'R', 'f', 'F') |
7db96d56Sopenharmony_ci    _combinations('r', 'R', 'b', 'B') |
7db96d56Sopenharmony_ci    {'u', 'U', 'ur', 'uR', 'Ur', 'UR'}
7db96d56Sopenharmony_ci)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciendprogs = {"'": re.compile(Single), '"': re.compile(Double),
7db96d56Sopenharmony_ci            "'''": single3prog, '"""': double3prog,
7db96d56Sopenharmony_ci            **{f"{prefix}'''": single3prog for prefix in _strprefixes},
7db96d56Sopenharmony_ci            **{f'{prefix}"""': double3prog for prefix in _strprefixes},
7db96d56Sopenharmony_ci            **{prefix: None for prefix in _strprefixes}}
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_citriple_quoted = (
7db96d56Sopenharmony_ci    {"'''", '"""'} |
7db96d56Sopenharmony_ci    {f"{prefix}'''" for prefix in _strprefixes} |
7db96d56Sopenharmony_ci    {f'{prefix}"""' for prefix in _strprefixes}
7db96d56Sopenharmony_ci)
7db96d56Sopenharmony_cisingle_quoted = (
7db96d56Sopenharmony_ci    {"'", '"'} |
7db96d56Sopenharmony_ci    {f"{prefix}'" for prefix in _strprefixes} |
7db96d56Sopenharmony_ci    {f'{prefix}"' for prefix in _strprefixes}
7db96d56Sopenharmony_ci)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_citabsize = 8
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciclass TokenError(Exception): pass
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciclass StopTokenizing(Exception): pass
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cidef printtoken(type, token, xxx_todo_changeme, xxx_todo_changeme1, line): # for testing
7db96d56Sopenharmony_ci    (srow, scol) = xxx_todo_changeme
7db96d56Sopenharmony_ci    (erow, ecol) = xxx_todo_changeme1
7db96d56Sopenharmony_ci    print("%d,%d-%d,%d:\t%s\t%s" % \
7db96d56Sopenharmony_ci        (srow, scol, erow, ecol, tok_name[type], repr(token)))
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cidef tokenize(readline, tokeneater=printtoken):
7db96d56Sopenharmony_ci    """
7db96d56Sopenharmony_ci    The tokenize() function accepts two parameters: one representing the
7db96d56Sopenharmony_ci    input stream, and one providing an output mechanism for tokenize().
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    The first parameter, readline, must be a callable object which provides
7db96d56Sopenharmony_ci    the same interface as the readline() method of built-in file objects.
7db96d56Sopenharmony_ci    Each call to the function should return one line of input as a string.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    The second parameter, tokeneater, must also be a callable object. It is
7db96d56Sopenharmony_ci    called once for each token, with five arguments, corresponding to the
7db96d56Sopenharmony_ci    tuples generated by generate_tokens().
7db96d56Sopenharmony_ci    """
7db96d56Sopenharmony_ci    try:
7db96d56Sopenharmony_ci        tokenize_loop(readline, tokeneater)
7db96d56Sopenharmony_ci    except StopTokenizing:
7db96d56Sopenharmony_ci        pass
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci# backwards compatible interface
7db96d56Sopenharmony_cidef tokenize_loop(readline, tokeneater):
7db96d56Sopenharmony_ci    for token_info in generate_tokens(readline):
7db96d56Sopenharmony_ci        tokeneater(*token_info)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciclass Untokenizer:
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def __init__(self):
7db96d56Sopenharmony_ci        self.tokens = []
7db96d56Sopenharmony_ci        self.prev_row = 1
7db96d56Sopenharmony_ci        self.prev_col = 0
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def add_whitespace(self, start):
7db96d56Sopenharmony_ci        row, col = start
7db96d56Sopenharmony_ci        assert row <= self.prev_row
7db96d56Sopenharmony_ci        col_offset = col - self.prev_col
7db96d56Sopenharmony_ci        if col_offset:
7db96d56Sopenharmony_ci            self.tokens.append(" " * col_offset)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def untokenize(self, iterable):
7db96d56Sopenharmony_ci        for t in iterable:
7db96d56Sopenharmony_ci            if len(t) == 2:
7db96d56Sopenharmony_ci                self.compat(t, iterable)
7db96d56Sopenharmony_ci                break
7db96d56Sopenharmony_ci            tok_type, token, start, end, line = t
7db96d56Sopenharmony_ci            self.add_whitespace(start)
7db96d56Sopenharmony_ci            self.tokens.append(token)
7db96d56Sopenharmony_ci            self.prev_row, self.prev_col = end
7db96d56Sopenharmony_ci            if tok_type in (NEWLINE, NL):
7db96d56Sopenharmony_ci                self.prev_row += 1
7db96d56Sopenharmony_ci                self.prev_col = 0
7db96d56Sopenharmony_ci        return "".join(self.tokens)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def compat(self, token, iterable):
7db96d56Sopenharmony_ci        startline = False
7db96d56Sopenharmony_ci        indents = []
7db96d56Sopenharmony_ci        toks_append = self.tokens.append
7db96d56Sopenharmony_ci        toknum, tokval = token
7db96d56Sopenharmony_ci        if toknum in (NAME, NUMBER):
7db96d56Sopenharmony_ci            tokval += ' '
7db96d56Sopenharmony_ci        if toknum in (NEWLINE, NL):
7db96d56Sopenharmony_ci            startline = True
7db96d56Sopenharmony_ci        for tok in iterable:
7db96d56Sopenharmony_ci            toknum, tokval = tok[:2]
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci            if toknum in (NAME, NUMBER, ASYNC, AWAIT):
7db96d56Sopenharmony_ci                tokval += ' '
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci            if toknum == INDENT:
7db96d56Sopenharmony_ci                indents.append(tokval)
7db96d56Sopenharmony_ci                continue
7db96d56Sopenharmony_ci            elif toknum == DEDENT:
7db96d56Sopenharmony_ci                indents.pop()
7db96d56Sopenharmony_ci                continue
7db96d56Sopenharmony_ci            elif toknum in (NEWLINE, NL):
7db96d56Sopenharmony_ci                startline = True
7db96d56Sopenharmony_ci            elif startline and indents:
7db96d56Sopenharmony_ci                toks_append(indents[-1])
7db96d56Sopenharmony_ci                startline = False
7db96d56Sopenharmony_ci            toks_append(tokval)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cicookie_re = re.compile(r'^[ \t\f]*#.*?coding[:=][ \t]*([-\w.]+)', re.ASCII)
7db96d56Sopenharmony_ciblank_re = re.compile(br'^[ \t\f]*(?:[#\r\n]|$)', re.ASCII)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cidef _get_normal_name(orig_enc):
7db96d56Sopenharmony_ci    """Imitates get_normal_name in tokenizer.c."""
7db96d56Sopenharmony_ci    # Only care about the first 12 characters.
7db96d56Sopenharmony_ci    enc = orig_enc[:12].lower().replace("_", "-")
7db96d56Sopenharmony_ci    if enc == "utf-8" or enc.startswith("utf-8-"):
7db96d56Sopenharmony_ci        return "utf-8"
7db96d56Sopenharmony_ci    if enc in ("latin-1", "iso-8859-1", "iso-latin-1") or \
7db96d56Sopenharmony_ci       enc.startswith(("latin-1-", "iso-8859-1-", "iso-latin-1-")):
7db96d56Sopenharmony_ci        return "iso-8859-1"
7db96d56Sopenharmony_ci    return orig_enc
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cidef detect_encoding(readline):
7db96d56Sopenharmony_ci    """
7db96d56Sopenharmony_ci    The detect_encoding() function is used to detect the encoding that should
7db96d56Sopenharmony_ci    be used to decode a Python source file. It requires one argument, readline,
7db96d56Sopenharmony_ci    in the same way as the tokenize() generator.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    It will call readline a maximum of twice, and return the encoding used
7db96d56Sopenharmony_ci    (as a string) and a list of any lines (left as bytes) it has read
7db96d56Sopenharmony_ci    in.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    It detects the encoding from the presence of a utf-8 bom or an encoding
7db96d56Sopenharmony_ci    cookie as specified in pep-0263. If both a bom and a cookie are present, but
7db96d56Sopenharmony_ci    disagree, a SyntaxError will be raised. If the encoding cookie is an invalid
7db96d56Sopenharmony_ci    charset, raise a SyntaxError.  Note that if a utf-8 bom is found,
7db96d56Sopenharmony_ci    'utf-8-sig' is returned.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    If no encoding is specified, then the default of 'utf-8' will be returned.
7db96d56Sopenharmony_ci    """
7db96d56Sopenharmony_ci    bom_found = False
7db96d56Sopenharmony_ci    encoding = None
7db96d56Sopenharmony_ci    default = 'utf-8'
7db96d56Sopenharmony_ci    def read_or_stop():
7db96d56Sopenharmony_ci        try:
7db96d56Sopenharmony_ci            return readline()
7db96d56Sopenharmony_ci        except StopIteration:
7db96d56Sopenharmony_ci            return bytes()
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def find_cookie(line):
7db96d56Sopenharmony_ci        try:
7db96d56Sopenharmony_ci            line_string = line.decode('ascii')
7db96d56Sopenharmony_ci        except UnicodeDecodeError:
7db96d56Sopenharmony_ci            return None
7db96d56Sopenharmony_ci        match = cookie_re.match(line_string)
7db96d56Sopenharmony_ci        if not match:
7db96d56Sopenharmony_ci            return None
7db96d56Sopenharmony_ci        encoding = _get_normal_name(match.group(1))
7db96d56Sopenharmony_ci        try:
7db96d56Sopenharmony_ci            codec = lookup(encoding)
7db96d56Sopenharmony_ci        except LookupError:
7db96d56Sopenharmony_ci            # This behaviour mimics the Python interpreter
7db96d56Sopenharmony_ci            raise SyntaxError("unknown encoding: " + encoding)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        if bom_found:
7db96d56Sopenharmony_ci            if codec.name != 'utf-8':
7db96d56Sopenharmony_ci                # This behaviour mimics the Python interpreter
7db96d56Sopenharmony_ci                raise SyntaxError('encoding problem: utf-8')
7db96d56Sopenharmony_ci            encoding += '-sig'
7db96d56Sopenharmony_ci        return encoding
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    first = read_or_stop()
7db96d56Sopenharmony_ci    if first.startswith(BOM_UTF8):
7db96d56Sopenharmony_ci        bom_found = True
7db96d56Sopenharmony_ci        first = first[3:]
7db96d56Sopenharmony_ci        default = 'utf-8-sig'
7db96d56Sopenharmony_ci    if not first:
7db96d56Sopenharmony_ci        return default, []
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    encoding = find_cookie(first)
7db96d56Sopenharmony_ci    if encoding:
7db96d56Sopenharmony_ci        return encoding, [first]
7db96d56Sopenharmony_ci    if not blank_re.match(first):
7db96d56Sopenharmony_ci        return default, [first]
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    second = read_or_stop()
7db96d56Sopenharmony_ci    if not second:
7db96d56Sopenharmony_ci        return default, [first]
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    encoding = find_cookie(second)
7db96d56Sopenharmony_ci    if encoding:
7db96d56Sopenharmony_ci        return encoding, [first, second]
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    return default, [first, second]
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cidef untokenize(iterable):
7db96d56Sopenharmony_ci    """Transform tokens back into Python source code.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    Each element returned by the iterable must be a token sequence
7db96d56Sopenharmony_ci    with at least two elements, a token number and token value.  If
7db96d56Sopenharmony_ci    only two tokens are passed, the resulting output is poor.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    Round-trip invariant for full input:
7db96d56Sopenharmony_ci        Untokenized source will match input source exactly
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    Round-trip invariant for limited input:
7db96d56Sopenharmony_ci        # Output text will tokenize the back to the input
7db96d56Sopenharmony_ci        t1 = [tok[:2] for tok in generate_tokens(f.readline)]
7db96d56Sopenharmony_ci        newcode = untokenize(t1)
7db96d56Sopenharmony_ci        readline = iter(newcode.splitlines(1)).next
7db96d56Sopenharmony_ci        t2 = [tok[:2] for tokin generate_tokens(readline)]
7db96d56Sopenharmony_ci        assert t1 == t2
7db96d56Sopenharmony_ci    """
7db96d56Sopenharmony_ci    ut = Untokenizer()
7db96d56Sopenharmony_ci    return ut.untokenize(iterable)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cidef generate_tokens(readline):
7db96d56Sopenharmony_ci    """
7db96d56Sopenharmony_ci    The generate_tokens() generator requires one argument, readline, which
7db96d56Sopenharmony_ci    must be a callable object which provides the same interface as the
7db96d56Sopenharmony_ci    readline() method of built-in file objects. Each call to the function
7db96d56Sopenharmony_ci    should return one line of input as a string.  Alternately, readline
7db96d56Sopenharmony_ci    can be a callable function terminating with StopIteration:
7db96d56Sopenharmony_ci        readline = open(myfile).next    # Example of alternate readline
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    The generator produces 5-tuples with these members: the token type; the
7db96d56Sopenharmony_ci    token string; a 2-tuple (srow, scol) of ints specifying the row and
7db96d56Sopenharmony_ci    column where the token begins in the source; a 2-tuple (erow, ecol) of
7db96d56Sopenharmony_ci    ints specifying the row and column where the token ends in the source;
7db96d56Sopenharmony_ci    and the line on which the token was found. The line passed is the
7db96d56Sopenharmony_ci    physical line.
7db96d56Sopenharmony_ci    """
7db96d56Sopenharmony_ci    lnum = parenlev = continued = 0
7db96d56Sopenharmony_ci    contstr, needcont = '', 0
7db96d56Sopenharmony_ci    contline = None
7db96d56Sopenharmony_ci    indents = [0]
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    # 'stashed' and 'async_*' are used for async/await parsing
7db96d56Sopenharmony_ci    stashed = None
7db96d56Sopenharmony_ci    async_def = False
7db96d56Sopenharmony_ci    async_def_indent = 0
7db96d56Sopenharmony_ci    async_def_nl = False
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    while 1:                                   # loop over lines in stream
7db96d56Sopenharmony_ci        try:
7db96d56Sopenharmony_ci            line = readline()
7db96d56Sopenharmony_ci        except StopIteration:
7db96d56Sopenharmony_ci            line = ''
7db96d56Sopenharmony_ci        lnum = lnum + 1
7db96d56Sopenharmony_ci        pos, max = 0, len(line)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        if contstr:                            # continued string
7db96d56Sopenharmony_ci            if not line:
7db96d56Sopenharmony_ci                raise TokenError("EOF in multi-line string", strstart)
7db96d56Sopenharmony_ci            endmatch = endprog.match(line)
7db96d56Sopenharmony_ci            if endmatch:
7db96d56Sopenharmony_ci                pos = end = endmatch.end(0)
7db96d56Sopenharmony_ci                yield (STRING, contstr + line[:end],
7db96d56Sopenharmony_ci                       strstart, (lnum, end), contline + line)
7db96d56Sopenharmony_ci                contstr, needcont = '', 0
7db96d56Sopenharmony_ci                contline = None
7db96d56Sopenharmony_ci            elif needcont and line[-2:] != '\\\n' and line[-3:] != '\\\r\n':
7db96d56Sopenharmony_ci                yield (ERRORTOKEN, contstr + line,
7db96d56Sopenharmony_ci                           strstart, (lnum, len(line)), contline)
7db96d56Sopenharmony_ci                contstr = ''
7db96d56Sopenharmony_ci                contline = None
7db96d56Sopenharmony_ci                continue
7db96d56Sopenharmony_ci            else:
7db96d56Sopenharmony_ci                contstr = contstr + line
7db96d56Sopenharmony_ci                contline = contline + line
7db96d56Sopenharmony_ci                continue
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        elif parenlev == 0 and not continued:  # new statement
7db96d56Sopenharmony_ci            if not line: break
7db96d56Sopenharmony_ci            column = 0
7db96d56Sopenharmony_ci            while pos < max:                   # measure leading whitespace
7db96d56Sopenharmony_ci                if line[pos] == ' ': column = column + 1
7db96d56Sopenharmony_ci                elif line[pos] == '\t': column = (column//tabsize + 1)*tabsize
7db96d56Sopenharmony_ci                elif line[pos] == '\f': column = 0
7db96d56Sopenharmony_ci                else: break
7db96d56Sopenharmony_ci                pos = pos + 1
7db96d56Sopenharmony_ci            if pos == max: break
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci            if stashed:
7db96d56Sopenharmony_ci                yield stashed
7db96d56Sopenharmony_ci                stashed = None
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci            if line[pos] in '#\r\n':           # skip comments or blank lines
7db96d56Sopenharmony_ci                if line[pos] == '#':
7db96d56Sopenharmony_ci                    comment_token = line[pos:].rstrip('\r\n')
7db96d56Sopenharmony_ci                    nl_pos = pos + len(comment_token)
7db96d56Sopenharmony_ci                    yield (COMMENT, comment_token,
7db96d56Sopenharmony_ci                           (lnum, pos), (lnum, pos + len(comment_token)), line)
7db96d56Sopenharmony_ci                    yield (NL, line[nl_pos:],
7db96d56Sopenharmony_ci                           (lnum, nl_pos), (lnum, len(line)), line)
7db96d56Sopenharmony_ci                else:
7db96d56Sopenharmony_ci                    yield ((NL, COMMENT)[line[pos] == '#'], line[pos:],
7db96d56Sopenharmony_ci                           (lnum, pos), (lnum, len(line)), line)
7db96d56Sopenharmony_ci                continue
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci            if column > indents[-1]:           # count indents or dedents
7db96d56Sopenharmony_ci                indents.append(column)
7db96d56Sopenharmony_ci                yield (INDENT, line[:pos], (lnum, 0), (lnum, pos), line)
7db96d56Sopenharmony_ci            while column < indents[-1]:
7db96d56Sopenharmony_ci                if column not in indents:
7db96d56Sopenharmony_ci                    raise IndentationError(
7db96d56Sopenharmony_ci                        "unindent does not match any outer indentation level",
7db96d56Sopenharmony_ci                        ("<tokenize>", lnum, pos, line))
7db96d56Sopenharmony_ci                indents = indents[:-1]
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci                if async_def and async_def_indent >= indents[-1]:
7db96d56Sopenharmony_ci                    async_def = False
7db96d56Sopenharmony_ci                    async_def_nl = False
7db96d56Sopenharmony_ci                    async_def_indent = 0
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci                yield (DEDENT, '', (lnum, pos), (lnum, pos), line)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci            if async_def and async_def_nl and async_def_indent >= indents[-1]:
7db96d56Sopenharmony_ci                async_def = False
7db96d56Sopenharmony_ci                async_def_nl = False
7db96d56Sopenharmony_ci                async_def_indent = 0
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        else:                                  # continued statement
7db96d56Sopenharmony_ci            if not line:
7db96d56Sopenharmony_ci                raise TokenError("EOF in multi-line statement", (lnum, 0))
7db96d56Sopenharmony_ci            continued = 0
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        while pos < max:
7db96d56Sopenharmony_ci            pseudomatch = pseudoprog.match(line, pos)
7db96d56Sopenharmony_ci            if pseudomatch:                                # scan for tokens
7db96d56Sopenharmony_ci                start, end = pseudomatch.span(1)
7db96d56Sopenharmony_ci                spos, epos, pos = (lnum, start), (lnum, end), end
7db96d56Sopenharmony_ci                token, initial = line[start:end], line[start]
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci                if initial in string.digits or \
7db96d56Sopenharmony_ci                   (initial == '.' and token != '.'):      # ordinary number
7db96d56Sopenharmony_ci                    yield (NUMBER, token, spos, epos, line)
7db96d56Sopenharmony_ci                elif initial in '\r\n':
7db96d56Sopenharmony_ci                    newline = NEWLINE
7db96d56Sopenharmony_ci                    if parenlev > 0:
7db96d56Sopenharmony_ci                        newline = NL
7db96d56Sopenharmony_ci                    elif async_def:
7db96d56Sopenharmony_ci                        async_def_nl = True
7db96d56Sopenharmony_ci                    if stashed:
7db96d56Sopenharmony_ci                        yield stashed
7db96d56Sopenharmony_ci                        stashed = None
7db96d56Sopenharmony_ci                    yield (newline, token, spos, epos, line)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci                elif initial == '#':
7db96d56Sopenharmony_ci                    assert not token.endswith("\n")
7db96d56Sopenharmony_ci                    if stashed:
7db96d56Sopenharmony_ci                        yield stashed
7db96d56Sopenharmony_ci                        stashed = None
7db96d56Sopenharmony_ci                    yield (COMMENT, token, spos, epos, line)
7db96d56Sopenharmony_ci                elif token in triple_quoted:
7db96d56Sopenharmony_ci                    endprog = endprogs[token]
7db96d56Sopenharmony_ci                    endmatch = endprog.match(line, pos)
7db96d56Sopenharmony_ci                    if endmatch:                           # all on one line
7db96d56Sopenharmony_ci                        pos = endmatch.end(0)
7db96d56Sopenharmony_ci                        token = line[start:pos]
7db96d56Sopenharmony_ci                        if stashed:
7db96d56Sopenharmony_ci                            yield stashed
7db96d56Sopenharmony_ci                            stashed = None
7db96d56Sopenharmony_ci                        yield (STRING, token, spos, (lnum, pos), line)
7db96d56Sopenharmony_ci                    else:
7db96d56Sopenharmony_ci                        strstart = (lnum, start)           # multiple lines
7db96d56Sopenharmony_ci                        contstr = line[start:]
7db96d56Sopenharmony_ci                        contline = line
7db96d56Sopenharmony_ci                        break
7db96d56Sopenharmony_ci                elif initial in single_quoted or \
7db96d56Sopenharmony_ci                    token[:2] in single_quoted or \
7db96d56Sopenharmony_ci                    token[:3] in single_quoted:
7db96d56Sopenharmony_ci                    if token[-1] == '\n':                  # continued string
7db96d56Sopenharmony_ci                        strstart = (lnum, start)
7db96d56Sopenharmony_ci                        endprog = (endprogs[initial] or endprogs[token[1]] or
7db96d56Sopenharmony_ci                                   endprogs[token[2]])
7db96d56Sopenharmony_ci                        contstr, needcont = line[start:], 1
7db96d56Sopenharmony_ci                        contline = line
7db96d56Sopenharmony_ci                        break
7db96d56Sopenharmony_ci                    else:                                  # ordinary string
7db96d56Sopenharmony_ci                        if stashed:
7db96d56Sopenharmony_ci                            yield stashed
7db96d56Sopenharmony_ci                            stashed = None
7db96d56Sopenharmony_ci                        yield (STRING, token, spos, epos, line)
7db96d56Sopenharmony_ci                elif initial.isidentifier():               # ordinary name
7db96d56Sopenharmony_ci                    if token in ('async', 'await'):
7db96d56Sopenharmony_ci                        if async_def:
7db96d56Sopenharmony_ci                            yield (ASYNC if token == 'async' else AWAIT,
7db96d56Sopenharmony_ci                                   token, spos, epos, line)
7db96d56Sopenharmony_ci                            continue
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci                    tok = (NAME, token, spos, epos, line)
7db96d56Sopenharmony_ci                    if token == 'async' and not stashed:
7db96d56Sopenharmony_ci                        stashed = tok
7db96d56Sopenharmony_ci                        continue
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci                    if token in ('def', 'for'):
7db96d56Sopenharmony_ci                        if (stashed
7db96d56Sopenharmony_ci                                and stashed[0] == NAME
7db96d56Sopenharmony_ci                                and stashed[1] == 'async'):
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci                            if token == 'def':
7db96d56Sopenharmony_ci                                async_def = True
7db96d56Sopenharmony_ci                                async_def_indent = indents[-1]
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci                            yield (ASYNC, stashed[1],
7db96d56Sopenharmony_ci                                   stashed[2], stashed[3],
7db96d56Sopenharmony_ci                                   stashed[4])
7db96d56Sopenharmony_ci                            stashed = None
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci                    if stashed:
7db96d56Sopenharmony_ci                        yield stashed
7db96d56Sopenharmony_ci                        stashed = None
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci                    yield tok
7db96d56Sopenharmony_ci                elif initial == '\\':                      # continued stmt
7db96d56Sopenharmony_ci                    # This yield is new; needed for better idempotency:
7db96d56Sopenharmony_ci                    if stashed:
7db96d56Sopenharmony_ci                        yield stashed
7db96d56Sopenharmony_ci                        stashed = None
7db96d56Sopenharmony_ci                    yield (NL, token, spos, (lnum, pos), line)
7db96d56Sopenharmony_ci                    continued = 1
7db96d56Sopenharmony_ci                else:
7db96d56Sopenharmony_ci                    if initial in '([{': parenlev = parenlev + 1
7db96d56Sopenharmony_ci                    elif initial in ')]}': parenlev = parenlev - 1
7db96d56Sopenharmony_ci                    if stashed:
7db96d56Sopenharmony_ci                        yield stashed
7db96d56Sopenharmony_ci                        stashed = None
7db96d56Sopenharmony_ci                    yield (OP, token, spos, epos, line)
7db96d56Sopenharmony_ci            else:
7db96d56Sopenharmony_ci                yield (ERRORTOKEN, line[pos],
7db96d56Sopenharmony_ci                           (lnum, pos), (lnum, pos+1), line)
7db96d56Sopenharmony_ci                pos = pos + 1
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    if stashed:
7db96d56Sopenharmony_ci        yield stashed
7db96d56Sopenharmony_ci        stashed = None
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    for indent in indents[1:]:                 # pop remaining indent levels
7db96d56Sopenharmony_ci        yield (DEDENT, '', (lnum, 0), (lnum, 0), '')
7db96d56Sopenharmony_ci    yield (ENDMARKER, '', (lnum, 0), (lnum, 0), '')
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciif __name__ == '__main__':                     # testing
7db96d56Sopenharmony_ci    import sys
7db96d56Sopenharmony_ci    if len(sys.argv) > 1: tokenize(open(sys.argv[1]).readline)
7db96d56Sopenharmony_ci    else: tokenize(sys.stdin.readline)