Tools/unicode/makeunicodedata.py

7db96d56Sopenharmony_ci#
7db96d56Sopenharmony_ci# (re)generate unicode property and type databases
7db96d56Sopenharmony_ci#
7db96d56Sopenharmony_ci# This script converts Unicode database files to Modules/unicodedata_db.h,
7db96d56Sopenharmony_ci# Modules/unicodename_db.h, and Objects/unicodetype_db.h
7db96d56Sopenharmony_ci#
7db96d56Sopenharmony_ci# history:
7db96d56Sopenharmony_ci# 2000-09-24 fl   created (based on bits and pieces from unidb)
7db96d56Sopenharmony_ci# 2000-09-25 fl   merged tim's splitbin fixes, separate decomposition table
7db96d56Sopenharmony_ci# 2000-09-25 fl   added character type table
7db96d56Sopenharmony_ci# 2000-09-26 fl   added LINEBREAK, DECIMAL, and DIGIT flags/fields (2.0)
7db96d56Sopenharmony_ci# 2000-11-03 fl   expand first/last ranges
7db96d56Sopenharmony_ci# 2001-01-19 fl   added character name tables (2.1)
7db96d56Sopenharmony_ci# 2001-01-21 fl   added decomp compression; dynamic phrasebook threshold
7db96d56Sopenharmony_ci# 2002-09-11 wd   use string methods
7db96d56Sopenharmony_ci# 2002-10-18 mvl  update to Unicode 3.2
7db96d56Sopenharmony_ci# 2002-10-22 mvl  generate NFC tables
7db96d56Sopenharmony_ci# 2002-11-24 mvl  expand all ranges, sort names version-independently
7db96d56Sopenharmony_ci# 2002-11-25 mvl  add UNIDATA_VERSION
7db96d56Sopenharmony_ci# 2004-05-29 perky add east asian width information
7db96d56Sopenharmony_ci# 2006-03-10 mvl  update to Unicode 4.1; add UCD 3.2 delta
7db96d56Sopenharmony_ci# 2008-06-11 gb   add PRINTABLE_MASK for Atsuo Ishimoto's ascii() patch
7db96d56Sopenharmony_ci# 2011-10-21 ezio add support for name aliases and named sequences
7db96d56Sopenharmony_ci# 2012-01    benjamin add full case mappings
7db96d56Sopenharmony_ci#
7db96d56Sopenharmony_ci# written by Fredrik Lundh (fredrik@pythonware.com)
7db96d56Sopenharmony_ci#
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciimport dataclasses
7db96d56Sopenharmony_ciimport os
7db96d56Sopenharmony_ciimport sys
7db96d56Sopenharmony_ciimport zipfile
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cifrom functools import partial
7db96d56Sopenharmony_cifrom textwrap import dedent
7db96d56Sopenharmony_cifrom typing import Iterator, List, Optional, Set, Tuple
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciSCRIPT = sys.argv[0]
7db96d56Sopenharmony_ciVERSION = "3.3"
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci# The Unicode Database
7db96d56Sopenharmony_ci# --------------------
7db96d56Sopenharmony_ci# When changing UCD version please update
7db96d56Sopenharmony_ci#   * Doc/library/stdtypes.rst, and
7db96d56Sopenharmony_ci#   * Doc/library/unicodedata.rst
7db96d56Sopenharmony_ci#   * Doc/reference/lexical_analysis.rst (two occurrences)
7db96d56Sopenharmony_ciUNIDATA_VERSION = "14.0.0"
7db96d56Sopenharmony_ciUNICODE_DATA = "UnicodeData%s.txt"
7db96d56Sopenharmony_ciCOMPOSITION_EXCLUSIONS = "CompositionExclusions%s.txt"
7db96d56Sopenharmony_ciEASTASIAN_WIDTH = "EastAsianWidth%s.txt"
7db96d56Sopenharmony_ciUNIHAN = "Unihan%s.zip"
7db96d56Sopenharmony_ciDERIVED_CORE_PROPERTIES = "DerivedCoreProperties%s.txt"
7db96d56Sopenharmony_ciDERIVEDNORMALIZATION_PROPS = "DerivedNormalizationProps%s.txt"
7db96d56Sopenharmony_ciLINE_BREAK = "LineBreak%s.txt"
7db96d56Sopenharmony_ciNAME_ALIASES = "NameAliases%s.txt"
7db96d56Sopenharmony_ciNAMED_SEQUENCES = "NamedSequences%s.txt"
7db96d56Sopenharmony_ciSPECIAL_CASING = "SpecialCasing%s.txt"
7db96d56Sopenharmony_ciCASE_FOLDING = "CaseFolding%s.txt"
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci# Private Use Areas -- in planes 1, 15, 16
7db96d56Sopenharmony_ciPUA_1 = range(0xE000, 0xF900)
7db96d56Sopenharmony_ciPUA_15 = range(0xF0000, 0xFFFFE)
7db96d56Sopenharmony_ciPUA_16 = range(0x100000, 0x10FFFE)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci# we use this ranges of PUA_15 to store name aliases and named sequences
7db96d56Sopenharmony_ciNAME_ALIASES_START = 0xF0000
7db96d56Sopenharmony_ciNAMED_SEQUENCES_START = 0xF0200
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciold_versions = ["3.2.0"]
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciCATEGORY_NAMES = [ "Cn", "Lu", "Ll", "Lt", "Mn", "Mc", "Me", "Nd",
7db96d56Sopenharmony_ci    "Nl", "No", "Zs", "Zl", "Zp", "Cc", "Cf", "Cs", "Co", "Cn", "Lm",
7db96d56Sopenharmony_ci    "Lo", "Pc", "Pd", "Ps", "Pe", "Pi", "Pf", "Po", "Sm", "Sc", "Sk",
7db96d56Sopenharmony_ci    "So" ]
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciBIDIRECTIONAL_NAMES = [ "", "L", "LRE", "LRO", "R", "AL", "RLE", "RLO",
7db96d56Sopenharmony_ci    "PDF", "EN", "ES", "ET", "AN", "CS", "NSM", "BN", "B", "S", "WS",
7db96d56Sopenharmony_ci    "ON", "LRI", "RLI", "FSI", "PDI" ]
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciEASTASIANWIDTH_NAMES = [ "F", "H", "W", "Na", "A", "N" ]
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciMANDATORY_LINE_BREAKS = [ "BK", "CR", "LF", "NL" ]
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci# note: should match definitions in Objects/unicodectype.c
7db96d56Sopenharmony_ciALPHA_MASK = 0x01
7db96d56Sopenharmony_ciDECIMAL_MASK = 0x02
7db96d56Sopenharmony_ciDIGIT_MASK = 0x04
7db96d56Sopenharmony_ciLOWER_MASK = 0x08
7db96d56Sopenharmony_ciLINEBREAK_MASK = 0x10
7db96d56Sopenharmony_ciSPACE_MASK = 0x20
7db96d56Sopenharmony_ciTITLE_MASK = 0x40
7db96d56Sopenharmony_ciUPPER_MASK = 0x80
7db96d56Sopenharmony_ciXID_START_MASK = 0x100
7db96d56Sopenharmony_ciXID_CONTINUE_MASK = 0x200
7db96d56Sopenharmony_ciPRINTABLE_MASK = 0x400
7db96d56Sopenharmony_ciNUMERIC_MASK = 0x800
7db96d56Sopenharmony_ciCASE_IGNORABLE_MASK = 0x1000
7db96d56Sopenharmony_ciCASED_MASK = 0x2000
7db96d56Sopenharmony_ciEXTENDED_CASE_MASK = 0x4000
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci# these ranges need to match unicodedata.c:is_unified_ideograph
7db96d56Sopenharmony_cicjk_ranges = [
7db96d56Sopenharmony_ci    ('3400', '4DBF'),
7db96d56Sopenharmony_ci    ('4E00', '9FFF'),
7db96d56Sopenharmony_ci    ('20000', '2A6DF'),
7db96d56Sopenharmony_ci    ('2A700', '2B738'),
7db96d56Sopenharmony_ci    ('2B740', '2B81D'),
7db96d56Sopenharmony_ci    ('2B820', '2CEA1'),
7db96d56Sopenharmony_ci    ('2CEB0', '2EBE0'),
7db96d56Sopenharmony_ci    ('30000', '3134A'),
7db96d56Sopenharmony_ci]
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cidef maketables(trace=0):
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    print("--- Reading", UNICODE_DATA % "", "...")
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    unicode = UnicodeData(UNIDATA_VERSION)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    print(len(list(filter(None, unicode.table))), "characters")
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    for version in old_versions:
7db96d56Sopenharmony_ci        print("--- Reading", UNICODE_DATA % ("-"+version), "...")
7db96d56Sopenharmony_ci        old_unicode = UnicodeData(version, cjk_check=False)
7db96d56Sopenharmony_ci        print(len(list(filter(None, old_unicode.table))), "characters")
7db96d56Sopenharmony_ci        merge_old_version(version, unicode, old_unicode)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    makeunicodename(unicode, trace)
7db96d56Sopenharmony_ci    makeunicodedata(unicode, trace)
7db96d56Sopenharmony_ci    makeunicodetype(unicode, trace)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci# --------------------------------------------------------------------
7db96d56Sopenharmony_ci# unicode character properties
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cidef makeunicodedata(unicode, trace):
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    dummy = (0, 0, 0, 0, 0, 0)
7db96d56Sopenharmony_ci    table = [dummy]
7db96d56Sopenharmony_ci    cache = {0: dummy}
7db96d56Sopenharmony_ci    index = [0] * len(unicode.chars)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    FILE = "Modules/unicodedata_db.h"
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    print("--- Preparing", FILE, "...")
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    # 1) database properties
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    for char in unicode.chars:
7db96d56Sopenharmony_ci        record = unicode.table[char]
7db96d56Sopenharmony_ci        if record:
7db96d56Sopenharmony_ci            # extract database properties
7db96d56Sopenharmony_ci            category = CATEGORY_NAMES.index(record.general_category)
7db96d56Sopenharmony_ci            combining = int(record.canonical_combining_class)
7db96d56Sopenharmony_ci            bidirectional = BIDIRECTIONAL_NAMES.index(record.bidi_class)
7db96d56Sopenharmony_ci            mirrored = record.bidi_mirrored == "Y"
7db96d56Sopenharmony_ci            eastasianwidth = EASTASIANWIDTH_NAMES.index(record.east_asian_width)
7db96d56Sopenharmony_ci            normalizationquickcheck = record.quick_check
7db96d56Sopenharmony_ci            item = (
7db96d56Sopenharmony_ci                category, combining, bidirectional, mirrored, eastasianwidth,
7db96d56Sopenharmony_ci                normalizationquickcheck
7db96d56Sopenharmony_ci                )
7db96d56Sopenharmony_ci            # add entry to index and item tables
7db96d56Sopenharmony_ci            i = cache.get(item)
7db96d56Sopenharmony_ci            if i is None:
7db96d56Sopenharmony_ci                cache[item] = i = len(table)
7db96d56Sopenharmony_ci                table.append(item)
7db96d56Sopenharmony_ci            index[char] = i
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    # 2) decomposition data
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    decomp_data = [0]
7db96d56Sopenharmony_ci    decomp_prefix = [""]
7db96d56Sopenharmony_ci    decomp_index = [0] * len(unicode.chars)
7db96d56Sopenharmony_ci    decomp_size = 0
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    comp_pairs = []
7db96d56Sopenharmony_ci    comp_first = [None] * len(unicode.chars)
7db96d56Sopenharmony_ci    comp_last = [None] * len(unicode.chars)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    for char in unicode.chars:
7db96d56Sopenharmony_ci        record = unicode.table[char]
7db96d56Sopenharmony_ci        if record:
7db96d56Sopenharmony_ci            if record.decomposition_type:
7db96d56Sopenharmony_ci                decomp = record.decomposition_type.split()
7db96d56Sopenharmony_ci                if len(decomp) > 19:
7db96d56Sopenharmony_ci                    raise Exception("character %x has a decomposition too large for nfd_nfkd" % char)
7db96d56Sopenharmony_ci                # prefix
7db96d56Sopenharmony_ci                if decomp[0][0] == "<":
7db96d56Sopenharmony_ci                    prefix = decomp.pop(0)
7db96d56Sopenharmony_ci                else:
7db96d56Sopenharmony_ci                    prefix = ""
7db96d56Sopenharmony_ci                try:
7db96d56Sopenharmony_ci                    i = decomp_prefix.index(prefix)
7db96d56Sopenharmony_ci                except ValueError:
7db96d56Sopenharmony_ci                    i = len(decomp_prefix)
7db96d56Sopenharmony_ci                    decomp_prefix.append(prefix)
7db96d56Sopenharmony_ci                prefix = i
7db96d56Sopenharmony_ci                assert prefix < 256
7db96d56Sopenharmony_ci                # content
7db96d56Sopenharmony_ci                decomp = [prefix + (len(decomp)<<8)] + [int(s, 16) for s in decomp]
7db96d56Sopenharmony_ci                # Collect NFC pairs
7db96d56Sopenharmony_ci                if not prefix and len(decomp) == 3 and \
7db96d56Sopenharmony_ci                   char not in unicode.exclusions and \
7db96d56Sopenharmony_ci                   unicode.table[decomp[1]].canonical_combining_class == "0":
7db96d56Sopenharmony_ci                    p, l, r = decomp
7db96d56Sopenharmony_ci                    comp_first[l] = 1
7db96d56Sopenharmony_ci                    comp_last[r] = 1
7db96d56Sopenharmony_ci                    comp_pairs.append((l,r,char))
7db96d56Sopenharmony_ci                try:
7db96d56Sopenharmony_ci                    i = decomp_data.index(decomp)
7db96d56Sopenharmony_ci                except ValueError:
7db96d56Sopenharmony_ci                    i = len(decomp_data)
7db96d56Sopenharmony_ci                    decomp_data.extend(decomp)
7db96d56Sopenharmony_ci                    decomp_size = decomp_size + len(decomp) * 2
7db96d56Sopenharmony_ci            else:
7db96d56Sopenharmony_ci                i = 0
7db96d56Sopenharmony_ci            decomp_index[char] = i
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    f = l = 0
7db96d56Sopenharmony_ci    comp_first_ranges = []
7db96d56Sopenharmony_ci    comp_last_ranges = []
7db96d56Sopenharmony_ci    prev_f = prev_l = None
7db96d56Sopenharmony_ci    for i in unicode.chars:
7db96d56Sopenharmony_ci        if comp_first[i] is not None:
7db96d56Sopenharmony_ci            comp_first[i] = f
7db96d56Sopenharmony_ci            f += 1
7db96d56Sopenharmony_ci            if prev_f is None:
7db96d56Sopenharmony_ci                prev_f = (i,i)
7db96d56Sopenharmony_ci            elif prev_f[1]+1 == i:
7db96d56Sopenharmony_ci                prev_f = prev_f[0],i
7db96d56Sopenharmony_ci            else:
7db96d56Sopenharmony_ci                comp_first_ranges.append(prev_f)
7db96d56Sopenharmony_ci                prev_f = (i,i)
7db96d56Sopenharmony_ci        if comp_last[i] is not None:
7db96d56Sopenharmony_ci            comp_last[i] = l
7db96d56Sopenharmony_ci            l += 1
7db96d56Sopenharmony_ci            if prev_l is None:
7db96d56Sopenharmony_ci                prev_l = (i,i)
7db96d56Sopenharmony_ci            elif prev_l[1]+1 == i:
7db96d56Sopenharmony_ci                prev_l = prev_l[0],i
7db96d56Sopenharmony_ci            else:
7db96d56Sopenharmony_ci                comp_last_ranges.append(prev_l)
7db96d56Sopenharmony_ci                prev_l = (i,i)
7db96d56Sopenharmony_ci    comp_first_ranges.append(prev_f)
7db96d56Sopenharmony_ci    comp_last_ranges.append(prev_l)
7db96d56Sopenharmony_ci    total_first = f
7db96d56Sopenharmony_ci    total_last = l
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    comp_data = [0]*(total_first*total_last)
7db96d56Sopenharmony_ci    for f,l,char in comp_pairs:
7db96d56Sopenharmony_ci        f = comp_first[f]
7db96d56Sopenharmony_ci        l = comp_last[l]
7db96d56Sopenharmony_ci        comp_data[f*total_last+l] = char
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    print(len(table), "unique properties")
7db96d56Sopenharmony_ci    print(len(decomp_prefix), "unique decomposition prefixes")
7db96d56Sopenharmony_ci    print(len(decomp_data), "unique decomposition entries:", end=' ')
7db96d56Sopenharmony_ci    print(decomp_size, "bytes")
7db96d56Sopenharmony_ci    print(total_first, "first characters in NFC")
7db96d56Sopenharmony_ci    print(total_last, "last characters in NFC")
7db96d56Sopenharmony_ci    print(len(comp_pairs), "NFC pairs")
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    print("--- Writing", FILE, "...")
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    with open(FILE, "w") as fp:
7db96d56Sopenharmony_ci        fprint = partial(print, file=fp)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        fprint("/* this file was generated by %s %s */" % (SCRIPT, VERSION))
7db96d56Sopenharmony_ci        fprint()
7db96d56Sopenharmony_ci        fprint('#define UNIDATA_VERSION "%s"' % UNIDATA_VERSION)
7db96d56Sopenharmony_ci        fprint("/* a list of unique database records */")
7db96d56Sopenharmony_ci        fprint("const _PyUnicode_DatabaseRecord _PyUnicode_Database_Records[] = {")
7db96d56Sopenharmony_ci        for item in table:
7db96d56Sopenharmony_ci            fprint("    {%d, %d, %d, %d, %d, %d}," % item)
7db96d56Sopenharmony_ci        fprint("};")
7db96d56Sopenharmony_ci        fprint()
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        fprint("/* Reindexing of NFC first characters. */")
7db96d56Sopenharmony_ci        fprint("#define TOTAL_FIRST",total_first)
7db96d56Sopenharmony_ci        fprint("#define TOTAL_LAST",total_last)
7db96d56Sopenharmony_ci        fprint("struct reindex{int start;short count,index;};")
7db96d56Sopenharmony_ci        fprint("static struct reindex nfc_first[] = {")
7db96d56Sopenharmony_ci        for start,end in comp_first_ranges:
7db96d56Sopenharmony_ci            fprint("    { %d, %d, %d}," % (start,end-start,comp_first[start]))
7db96d56Sopenharmony_ci        fprint("    {0,0,0}")
7db96d56Sopenharmony_ci        fprint("};\n")
7db96d56Sopenharmony_ci        fprint("static struct reindex nfc_last[] = {")
7db96d56Sopenharmony_ci        for start,end in comp_last_ranges:
7db96d56Sopenharmony_ci            fprint("  { %d, %d, %d}," % (start,end-start,comp_last[start]))
7db96d56Sopenharmony_ci        fprint("  {0,0,0}")
7db96d56Sopenharmony_ci        fprint("};\n")
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # FIXME: <fl> the following tables could be made static, and
7db96d56Sopenharmony_ci        # the support code moved into unicodedatabase.c
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        fprint("/* string literals */")
7db96d56Sopenharmony_ci        fprint("const char *_PyUnicode_CategoryNames[] = {")
7db96d56Sopenharmony_ci        for name in CATEGORY_NAMES:
7db96d56Sopenharmony_ci            fprint("    \"%s\"," % name)
7db96d56Sopenharmony_ci        fprint("    NULL")
7db96d56Sopenharmony_ci        fprint("};")
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        fprint("const char *_PyUnicode_BidirectionalNames[] = {")
7db96d56Sopenharmony_ci        for name in BIDIRECTIONAL_NAMES:
7db96d56Sopenharmony_ci            fprint("    \"%s\"," % name)
7db96d56Sopenharmony_ci        fprint("    NULL")
7db96d56Sopenharmony_ci        fprint("};")
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        fprint("const char *_PyUnicode_EastAsianWidthNames[] = {")
7db96d56Sopenharmony_ci        for name in EASTASIANWIDTH_NAMES:
7db96d56Sopenharmony_ci            fprint("    \"%s\"," % name)
7db96d56Sopenharmony_ci        fprint("    NULL")
7db96d56Sopenharmony_ci        fprint("};")
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        fprint("static const char *decomp_prefix[] = {")
7db96d56Sopenharmony_ci        for name in decomp_prefix:
7db96d56Sopenharmony_ci            fprint("    \"%s\"," % name)
7db96d56Sopenharmony_ci        fprint("    NULL")
7db96d56Sopenharmony_ci        fprint("};")
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # split record index table
7db96d56Sopenharmony_ci        index1, index2, shift = splitbins(index, trace)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        fprint("/* index tables for the database records */")
7db96d56Sopenharmony_ci        fprint("#define SHIFT", shift)
7db96d56Sopenharmony_ci        Array("index1", index1).dump(fp, trace)
7db96d56Sopenharmony_ci        Array("index2", index2).dump(fp, trace)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # split decomposition index table
7db96d56Sopenharmony_ci        index1, index2, shift = splitbins(decomp_index, trace)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        fprint("/* decomposition data */")
7db96d56Sopenharmony_ci        Array("decomp_data", decomp_data).dump(fp, trace)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        fprint("/* index tables for the decomposition data */")
7db96d56Sopenharmony_ci        fprint("#define DECOMP_SHIFT", shift)
7db96d56Sopenharmony_ci        Array("decomp_index1", index1).dump(fp, trace)
7db96d56Sopenharmony_ci        Array("decomp_index2", index2).dump(fp, trace)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        index, index2, shift = splitbins(comp_data, trace)
7db96d56Sopenharmony_ci        fprint("/* NFC pairs */")
7db96d56Sopenharmony_ci        fprint("#define COMP_SHIFT", shift)
7db96d56Sopenharmony_ci        Array("comp_index", index).dump(fp, trace)
7db96d56Sopenharmony_ci        Array("comp_data", index2).dump(fp, trace)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # Generate delta tables for old versions
7db96d56Sopenharmony_ci        for version, table, normalization in unicode.changed:
7db96d56Sopenharmony_ci            cversion = version.replace(".","_")
7db96d56Sopenharmony_ci            records = [table[0]]
7db96d56Sopenharmony_ci            cache = {table[0]:0}
7db96d56Sopenharmony_ci            index = [0] * len(table)
7db96d56Sopenharmony_ci            for i, record in enumerate(table):
7db96d56Sopenharmony_ci                try:
7db96d56Sopenharmony_ci                    index[i] = cache[record]
7db96d56Sopenharmony_ci                except KeyError:
7db96d56Sopenharmony_ci                    index[i] = cache[record] = len(records)
7db96d56Sopenharmony_ci                    records.append(record)
7db96d56Sopenharmony_ci            index1, index2, shift = splitbins(index, trace)
7db96d56Sopenharmony_ci            fprint("static const change_record change_records_%s[] = {" % cversion)
7db96d56Sopenharmony_ci            for record in records:
7db96d56Sopenharmony_ci                fprint("    { %s }," % ", ".join(map(str,record)))
7db96d56Sopenharmony_ci            fprint("};")
7db96d56Sopenharmony_ci            Array("changes_%s_index" % cversion, index1).dump(fp, trace)
7db96d56Sopenharmony_ci            Array("changes_%s_data" % cversion, index2).dump(fp, trace)
7db96d56Sopenharmony_ci            fprint("static const change_record* get_change_%s(Py_UCS4 n)" % cversion)
7db96d56Sopenharmony_ci            fprint("{")
7db96d56Sopenharmony_ci            fprint("    int index;")
7db96d56Sopenharmony_ci            fprint("    if (n >= 0x110000) index = 0;")
7db96d56Sopenharmony_ci            fprint("    else {")
7db96d56Sopenharmony_ci            fprint("        index = changes_%s_index[n>>%d];" % (cversion, shift))
7db96d56Sopenharmony_ci            fprint("        index = changes_%s_data[(index<<%d)+(n & %d)];" % \
7db96d56Sopenharmony_ci                   (cversion, shift, ((1<<shift)-1)))
7db96d56Sopenharmony_ci            fprint("    }")
7db96d56Sopenharmony_ci            fprint("    return change_records_%s+index;" % cversion)
7db96d56Sopenharmony_ci            fprint("}\n")
7db96d56Sopenharmony_ci            fprint("static Py_UCS4 normalization_%s(Py_UCS4 n)" % cversion)
7db96d56Sopenharmony_ci            fprint("{")
7db96d56Sopenharmony_ci            fprint("    switch(n) {")
7db96d56Sopenharmony_ci            for k, v in normalization:
7db96d56Sopenharmony_ci                fprint("    case %s: return 0x%s;" % (hex(k), v))
7db96d56Sopenharmony_ci            fprint("    default: return 0;")
7db96d56Sopenharmony_ci            fprint("    }\n}\n")
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci# --------------------------------------------------------------------
7db96d56Sopenharmony_ci# unicode character type tables
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cidef makeunicodetype(unicode, trace):
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    FILE = "Objects/unicodetype_db.h"
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    print("--- Preparing", FILE, "...")
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    # extract unicode types
7db96d56Sopenharmony_ci    dummy = (0, 0, 0, 0, 0, 0)
7db96d56Sopenharmony_ci    table = [dummy]
7db96d56Sopenharmony_ci    cache = {0: dummy}
7db96d56Sopenharmony_ci    index = [0] * len(unicode.chars)
7db96d56Sopenharmony_ci    numeric = {}
7db96d56Sopenharmony_ci    spaces = []
7db96d56Sopenharmony_ci    linebreaks = []
7db96d56Sopenharmony_ci    extra_casing = []
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    for char in unicode.chars:
7db96d56Sopenharmony_ci        record = unicode.table[char]
7db96d56Sopenharmony_ci        if record:
7db96d56Sopenharmony_ci            # extract database properties
7db96d56Sopenharmony_ci            category = record.general_category
7db96d56Sopenharmony_ci            bidirectional = record.bidi_class
7db96d56Sopenharmony_ci            properties = record.binary_properties
7db96d56Sopenharmony_ci            flags = 0
7db96d56Sopenharmony_ci            if category in ["Lm", "Lt", "Lu", "Ll", "Lo"]:
7db96d56Sopenharmony_ci                flags |= ALPHA_MASK
7db96d56Sopenharmony_ci            if "Lowercase" in properties:
7db96d56Sopenharmony_ci                flags |= LOWER_MASK
7db96d56Sopenharmony_ci            if 'Line_Break' in properties or bidirectional == "B":
7db96d56Sopenharmony_ci                flags |= LINEBREAK_MASK
7db96d56Sopenharmony_ci                linebreaks.append(char)
7db96d56Sopenharmony_ci            if category == "Zs" or bidirectional in ("WS", "B", "S"):
7db96d56Sopenharmony_ci                flags |= SPACE_MASK
7db96d56Sopenharmony_ci                spaces.append(char)
7db96d56Sopenharmony_ci            if category == "Lt":
7db96d56Sopenharmony_ci                flags |= TITLE_MASK
7db96d56Sopenharmony_ci            if "Uppercase" in properties:
7db96d56Sopenharmony_ci                flags |= UPPER_MASK
7db96d56Sopenharmony_ci            if char == ord(" ") or category[0] not in ("C", "Z"):
7db96d56Sopenharmony_ci                flags |= PRINTABLE_MASK
7db96d56Sopenharmony_ci            if "XID_Start" in properties:
7db96d56Sopenharmony_ci                flags |= XID_START_MASK
7db96d56Sopenharmony_ci            if "XID_Continue" in properties:
7db96d56Sopenharmony_ci                flags |= XID_CONTINUE_MASK
7db96d56Sopenharmony_ci            if "Cased" in properties:
7db96d56Sopenharmony_ci                flags |= CASED_MASK
7db96d56Sopenharmony_ci            if "Case_Ignorable" in properties:
7db96d56Sopenharmony_ci                flags |= CASE_IGNORABLE_MASK
7db96d56Sopenharmony_ci            sc = unicode.special_casing.get(char)
7db96d56Sopenharmony_ci            cf = unicode.case_folding.get(char, [char])
7db96d56Sopenharmony_ci            if record.simple_uppercase_mapping:
7db96d56Sopenharmony_ci                upper = int(record.simple_uppercase_mapping, 16)
7db96d56Sopenharmony_ci            else:
7db96d56Sopenharmony_ci                upper = char
7db96d56Sopenharmony_ci            if record.simple_lowercase_mapping:
7db96d56Sopenharmony_ci                lower = int(record.simple_lowercase_mapping, 16)
7db96d56Sopenharmony_ci            else:
7db96d56Sopenharmony_ci                lower = char
7db96d56Sopenharmony_ci            if record.simple_titlecase_mapping:
7db96d56Sopenharmony_ci                title = int(record.simple_titlecase_mapping, 16)
7db96d56Sopenharmony_ci            else:
7db96d56Sopenharmony_ci                title = upper
7db96d56Sopenharmony_ci            if sc is None and cf != [lower]:
7db96d56Sopenharmony_ci                sc = ([lower], [title], [upper])
7db96d56Sopenharmony_ci            if sc is None:
7db96d56Sopenharmony_ci                if upper == lower == title:
7db96d56Sopenharmony_ci                    upper = lower = title = 0
7db96d56Sopenharmony_ci                else:
7db96d56Sopenharmony_ci                    upper = upper - char
7db96d56Sopenharmony_ci                    lower = lower - char
7db96d56Sopenharmony_ci                    title = title - char
7db96d56Sopenharmony_ci                    assert (abs(upper) <= 2147483647 and
7db96d56Sopenharmony_ci                            abs(lower) <= 2147483647 and
7db96d56Sopenharmony_ci                            abs(title) <= 2147483647)
7db96d56Sopenharmony_ci            else:
7db96d56Sopenharmony_ci                # This happens either when some character maps to more than one
7db96d56Sopenharmony_ci                # character in uppercase, lowercase, or titlecase or the
7db96d56Sopenharmony_ci                # casefolded version of the character is different from the
7db96d56Sopenharmony_ci                # lowercase. The extra characters are stored in a different
7db96d56Sopenharmony_ci                # array.
7db96d56Sopenharmony_ci                flags |= EXTENDED_CASE_MASK
7db96d56Sopenharmony_ci                lower = len(extra_casing) | (len(sc[0]) << 24)
7db96d56Sopenharmony_ci                extra_casing.extend(sc[0])
7db96d56Sopenharmony_ci                if cf != sc[0]:
7db96d56Sopenharmony_ci                    lower |= len(cf) << 20
7db96d56Sopenharmony_ci                    extra_casing.extend(cf)
7db96d56Sopenharmony_ci                upper = len(extra_casing) | (len(sc[2]) << 24)
7db96d56Sopenharmony_ci                extra_casing.extend(sc[2])
7db96d56Sopenharmony_ci                # Title is probably equal to upper.
7db96d56Sopenharmony_ci                if sc[1] == sc[2]:
7db96d56Sopenharmony_ci                    title = upper
7db96d56Sopenharmony_ci                else:
7db96d56Sopenharmony_ci                    title = len(extra_casing) | (len(sc[1]) << 24)
7db96d56Sopenharmony_ci                    extra_casing.extend(sc[1])
7db96d56Sopenharmony_ci            # decimal digit, integer digit
7db96d56Sopenharmony_ci            decimal = 0
7db96d56Sopenharmony_ci            if record.decomposition_mapping:
7db96d56Sopenharmony_ci                flags |= DECIMAL_MASK
7db96d56Sopenharmony_ci                decimal = int(record.decomposition_mapping)
7db96d56Sopenharmony_ci            digit = 0
7db96d56Sopenharmony_ci            if record.numeric_type:
7db96d56Sopenharmony_ci                flags |= DIGIT_MASK
7db96d56Sopenharmony_ci                digit = int(record.numeric_type)
7db96d56Sopenharmony_ci            if record.numeric_value:
7db96d56Sopenharmony_ci                flags |= NUMERIC_MASK
7db96d56Sopenharmony_ci                numeric.setdefault(record.numeric_value, []).append(char)
7db96d56Sopenharmony_ci            item = (
7db96d56Sopenharmony_ci                upper, lower, title, decimal, digit, flags
7db96d56Sopenharmony_ci                )
7db96d56Sopenharmony_ci            # add entry to index and item tables
7db96d56Sopenharmony_ci            i = cache.get(item)
7db96d56Sopenharmony_ci            if i is None:
7db96d56Sopenharmony_ci                cache[item] = i = len(table)
7db96d56Sopenharmony_ci                table.append(item)
7db96d56Sopenharmony_ci            index[char] = i
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    print(len(table), "unique character type entries")
7db96d56Sopenharmony_ci    print(sum(map(len, numeric.values())), "numeric code points")
7db96d56Sopenharmony_ci    print(len(spaces), "whitespace code points")
7db96d56Sopenharmony_ci    print(len(linebreaks), "linebreak code points")
7db96d56Sopenharmony_ci    print(len(extra_casing), "extended case array")
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    print("--- Writing", FILE, "...")
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    with open(FILE, "w") as fp:
7db96d56Sopenharmony_ci        fprint = partial(print, file=fp)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        fprint("/* this file was generated by %s %s */" % (SCRIPT, VERSION))
7db96d56Sopenharmony_ci        fprint()
7db96d56Sopenharmony_ci        fprint("/* a list of unique character type descriptors */")
7db96d56Sopenharmony_ci        fprint("const _PyUnicode_TypeRecord _PyUnicode_TypeRecords[] = {")
7db96d56Sopenharmony_ci        for item in table:
7db96d56Sopenharmony_ci            fprint("    {%d, %d, %d, %d, %d, %d}," % item)
7db96d56Sopenharmony_ci        fprint("};")
7db96d56Sopenharmony_ci        fprint()
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        fprint("/* extended case mappings */")
7db96d56Sopenharmony_ci        fprint()
7db96d56Sopenharmony_ci        fprint("const Py_UCS4 _PyUnicode_ExtendedCase[] = {")
7db96d56Sopenharmony_ci        for c in extra_casing:
7db96d56Sopenharmony_ci            fprint("    %d," % c)
7db96d56Sopenharmony_ci        fprint("};")
7db96d56Sopenharmony_ci        fprint()
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # split decomposition index table
7db96d56Sopenharmony_ci        index1, index2, shift = splitbins(index, trace)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        fprint("/* type indexes */")
7db96d56Sopenharmony_ci        fprint("#define SHIFT", shift)
7db96d56Sopenharmony_ci        Array("index1", index1).dump(fp, trace)
7db96d56Sopenharmony_ci        Array("index2", index2).dump(fp, trace)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # Generate code for _PyUnicode_ToNumeric()
7db96d56Sopenharmony_ci        numeric_items = sorted(numeric.items())
7db96d56Sopenharmony_ci        fprint('/* Returns the numeric value as double for Unicode characters')
7db96d56Sopenharmony_ci        fprint(' * having this property, -1.0 otherwise.')
7db96d56Sopenharmony_ci        fprint(' */')
7db96d56Sopenharmony_ci        fprint('double _PyUnicode_ToNumeric(Py_UCS4 ch)')
7db96d56Sopenharmony_ci        fprint('{')
7db96d56Sopenharmony_ci        fprint('    switch (ch) {')
7db96d56Sopenharmony_ci        for value, codepoints in numeric_items:
7db96d56Sopenharmony_ci            # Turn text into float literals
7db96d56Sopenharmony_ci            parts = value.split('/')
7db96d56Sopenharmony_ci            parts = [repr(float(part)) for part in parts]
7db96d56Sopenharmony_ci            value = '/'.join(parts)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci            codepoints.sort()
7db96d56Sopenharmony_ci            for codepoint in codepoints:
7db96d56Sopenharmony_ci                fprint('    case 0x%04X:' % (codepoint,))
7db96d56Sopenharmony_ci            fprint('        return (double) %s;' % (value,))
7db96d56Sopenharmony_ci        fprint('    }')
7db96d56Sopenharmony_ci        fprint('    return -1.0;')
7db96d56Sopenharmony_ci        fprint('}')
7db96d56Sopenharmony_ci        fprint()
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # Generate code for _PyUnicode_IsWhitespace()
7db96d56Sopenharmony_ci        fprint("/* Returns 1 for Unicode characters having the bidirectional")
7db96d56Sopenharmony_ci        fprint(" * type 'WS', 'B' or 'S' or the category 'Zs', 0 otherwise.")
7db96d56Sopenharmony_ci        fprint(" */")
7db96d56Sopenharmony_ci        fprint('int _PyUnicode_IsWhitespace(const Py_UCS4 ch)')
7db96d56Sopenharmony_ci        fprint('{')
7db96d56Sopenharmony_ci        fprint('    switch (ch) {')
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        for codepoint in sorted(spaces):
7db96d56Sopenharmony_ci            fprint('    case 0x%04X:' % (codepoint,))
7db96d56Sopenharmony_ci        fprint('        return 1;')
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        fprint('    }')
7db96d56Sopenharmony_ci        fprint('    return 0;')
7db96d56Sopenharmony_ci        fprint('}')
7db96d56Sopenharmony_ci        fprint()
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # Generate code for _PyUnicode_IsLinebreak()
7db96d56Sopenharmony_ci        fprint("/* Returns 1 for Unicode characters having the line break")
7db96d56Sopenharmony_ci        fprint(" * property 'BK', 'CR', 'LF' or 'NL' or having bidirectional")
7db96d56Sopenharmony_ci        fprint(" * type 'B', 0 otherwise.")
7db96d56Sopenharmony_ci        fprint(" */")
7db96d56Sopenharmony_ci        fprint('int _PyUnicode_IsLinebreak(const Py_UCS4 ch)')
7db96d56Sopenharmony_ci        fprint('{')
7db96d56Sopenharmony_ci        fprint('    switch (ch) {')
7db96d56Sopenharmony_ci        for codepoint in sorted(linebreaks):
7db96d56Sopenharmony_ci            fprint('    case 0x%04X:' % (codepoint,))
7db96d56Sopenharmony_ci        fprint('        return 1;')
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        fprint('    }')
7db96d56Sopenharmony_ci        fprint('    return 0;')
7db96d56Sopenharmony_ci        fprint('}')
7db96d56Sopenharmony_ci        fprint()
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci# --------------------------------------------------------------------
7db96d56Sopenharmony_ci# unicode name database
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cidef makeunicodename(unicode, trace):
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    FILE = "Modules/unicodename_db.h"
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    print("--- Preparing", FILE, "...")
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    # collect names
7db96d56Sopenharmony_ci    names = [None] * len(unicode.chars)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    for char in unicode.chars:
7db96d56Sopenharmony_ci        record = unicode.table[char]
7db96d56Sopenharmony_ci        if record:
7db96d56Sopenharmony_ci            name = record.name.strip()
7db96d56Sopenharmony_ci            if name and name[0] != "<":
7db96d56Sopenharmony_ci                names[char] = name + chr(0)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    print(len([n for n in names if n is not None]), "distinct names")
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    # collect unique words from names (note that we differ between
7db96d56Sopenharmony_ci    # words inside a sentence, and words ending a sentence.  the
7db96d56Sopenharmony_ci    # latter includes the trailing null byte.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    words = {}
7db96d56Sopenharmony_ci    n = b = 0
7db96d56Sopenharmony_ci    for char in unicode.chars:
7db96d56Sopenharmony_ci        name = names[char]
7db96d56Sopenharmony_ci        if name:
7db96d56Sopenharmony_ci            w = name.split()
7db96d56Sopenharmony_ci            b = b + len(name)
7db96d56Sopenharmony_ci            n = n + len(w)
7db96d56Sopenharmony_ci            for w in w:
7db96d56Sopenharmony_ci                l = words.get(w)
7db96d56Sopenharmony_ci                if l:
7db96d56Sopenharmony_ci                    l.append(None)
7db96d56Sopenharmony_ci                else:
7db96d56Sopenharmony_ci                    words[w] = [len(words)]
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    print(n, "words in text;", b, "bytes")
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    wordlist = list(words.items())
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    # sort on falling frequency, then by name
7db96d56Sopenharmony_ci    def word_key(a):
7db96d56Sopenharmony_ci        aword, alist = a
7db96d56Sopenharmony_ci        return -len(alist), aword
7db96d56Sopenharmony_ci    wordlist.sort(key=word_key)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    # figure out how many phrasebook escapes we need
7db96d56Sopenharmony_ci    escapes = 0
7db96d56Sopenharmony_ci    while escapes * 256 < len(wordlist):
7db96d56Sopenharmony_ci        escapes = escapes + 1
7db96d56Sopenharmony_ci    print(escapes, "escapes")
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    short = 256 - escapes
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    assert short > 0
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    print(short, "short indexes in lexicon")
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    # statistics
7db96d56Sopenharmony_ci    n = 0
7db96d56Sopenharmony_ci    for i in range(short):
7db96d56Sopenharmony_ci        n = n + len(wordlist[i][1])
7db96d56Sopenharmony_ci    print(n, "short indexes in phrasebook")
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    # pick the most commonly used words, and sort the rest on falling
7db96d56Sopenharmony_ci    # length (to maximize overlap)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    wordlist, wordtail = wordlist[:short], wordlist[short:]
7db96d56Sopenharmony_ci    wordtail.sort(key=lambda a: a[0], reverse=True)
7db96d56Sopenharmony_ci    wordlist.extend(wordtail)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    # generate lexicon from words
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    lexicon_offset = [0]
7db96d56Sopenharmony_ci    lexicon = ""
7db96d56Sopenharmony_ci    words = {}
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    # build a lexicon string
7db96d56Sopenharmony_ci    offset = 0
7db96d56Sopenharmony_ci    for w, x in wordlist:
7db96d56Sopenharmony_ci        # encoding: bit 7 indicates last character in word (chr(128)
7db96d56Sopenharmony_ci        # indicates the last character in an entire string)
7db96d56Sopenharmony_ci        ww = w[:-1] + chr(ord(w[-1])+128)
7db96d56Sopenharmony_ci        # reuse string tails, when possible
7db96d56Sopenharmony_ci        o = lexicon.find(ww)
7db96d56Sopenharmony_ci        if o < 0:
7db96d56Sopenharmony_ci            o = offset
7db96d56Sopenharmony_ci            lexicon = lexicon + ww
7db96d56Sopenharmony_ci            offset = offset + len(w)
7db96d56Sopenharmony_ci        words[w] = len(lexicon_offset)
7db96d56Sopenharmony_ci        lexicon_offset.append(o)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    lexicon = list(map(ord, lexicon))
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    # generate phrasebook from names and lexicon
7db96d56Sopenharmony_ci    phrasebook = [0]
7db96d56Sopenharmony_ci    phrasebook_offset = [0] * len(unicode.chars)
7db96d56Sopenharmony_ci    for char in unicode.chars:
7db96d56Sopenharmony_ci        name = names[char]
7db96d56Sopenharmony_ci        if name:
7db96d56Sopenharmony_ci            w = name.split()
7db96d56Sopenharmony_ci            phrasebook_offset[char] = len(phrasebook)
7db96d56Sopenharmony_ci            for w in w:
7db96d56Sopenharmony_ci                i = words[w]
7db96d56Sopenharmony_ci                if i < short:
7db96d56Sopenharmony_ci                    phrasebook.append(i)
7db96d56Sopenharmony_ci                else:
7db96d56Sopenharmony_ci                    # store as two bytes
7db96d56Sopenharmony_ci                    phrasebook.append((i>>8) + short)
7db96d56Sopenharmony_ci                    phrasebook.append(i&255)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    assert getsize(phrasebook) == 1
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    #
7db96d56Sopenharmony_ci    # unicode name hash table
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    # extract names
7db96d56Sopenharmony_ci    data = []
7db96d56Sopenharmony_ci    for char in unicode.chars:
7db96d56Sopenharmony_ci        record = unicode.table[char]
7db96d56Sopenharmony_ci        if record:
7db96d56Sopenharmony_ci            name = record.name.strip()
7db96d56Sopenharmony_ci            if name and name[0] != "<":
7db96d56Sopenharmony_ci                data.append((name, char))
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    # the magic number 47 was chosen to minimize the number of
7db96d56Sopenharmony_ci    # collisions on the current data set.  if you like, change it
7db96d56Sopenharmony_ci    # and see what happens...
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    codehash = Hash("code", data, 47)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    print("--- Writing", FILE, "...")
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    with open(FILE, "w") as fp:
7db96d56Sopenharmony_ci        fprint = partial(print, file=fp)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        fprint("/* this file was generated by %s %s */" % (SCRIPT, VERSION))
7db96d56Sopenharmony_ci        fprint()
7db96d56Sopenharmony_ci        fprint("#define NAME_MAXLEN", 256)
7db96d56Sopenharmony_ci        fprint()
7db96d56Sopenharmony_ci        fprint("/* lexicon */")
7db96d56Sopenharmony_ci        Array("lexicon", lexicon).dump(fp, trace)
7db96d56Sopenharmony_ci        Array("lexicon_offset", lexicon_offset).dump(fp, trace)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # split decomposition index table
7db96d56Sopenharmony_ci        offset1, offset2, shift = splitbins(phrasebook_offset, trace)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        fprint("/* code->name phrasebook */")
7db96d56Sopenharmony_ci        fprint("#define phrasebook_shift", shift)
7db96d56Sopenharmony_ci        fprint("#define phrasebook_short", short)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        Array("phrasebook", phrasebook).dump(fp, trace)
7db96d56Sopenharmony_ci        Array("phrasebook_offset1", offset1).dump(fp, trace)
7db96d56Sopenharmony_ci        Array("phrasebook_offset2", offset2).dump(fp, trace)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        fprint("/* name->code dictionary */")
7db96d56Sopenharmony_ci        codehash.dump(fp, trace)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        fprint()
7db96d56Sopenharmony_ci        fprint('static const unsigned int aliases_start = %#x;' %
7db96d56Sopenharmony_ci               NAME_ALIASES_START)
7db96d56Sopenharmony_ci        fprint('static const unsigned int aliases_end = %#x;' %
7db96d56Sopenharmony_ci               (NAME_ALIASES_START + len(unicode.aliases)))
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        fprint('static const unsigned int name_aliases[] = {')
7db96d56Sopenharmony_ci        for name, codepoint in unicode.aliases:
7db96d56Sopenharmony_ci            fprint('    0x%04X,' % codepoint)
7db96d56Sopenharmony_ci        fprint('};')
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # In Unicode 6.0.0, the sequences contain at most 4 BMP chars,
7db96d56Sopenharmony_ci        # so we are using Py_UCS2 seq[4].  This needs to be updated if longer
7db96d56Sopenharmony_ci        # sequences or sequences with non-BMP chars are added.
7db96d56Sopenharmony_ci        # unicodedata_lookup should be adapted too.
7db96d56Sopenharmony_ci        fprint(dedent("""
7db96d56Sopenharmony_ci            typedef struct NamedSequence {
7db96d56Sopenharmony_ci                int seqlen;
7db96d56Sopenharmony_ci                Py_UCS2 seq[4];
7db96d56Sopenharmony_ci            } named_sequence;
7db96d56Sopenharmony_ci            """))
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        fprint('static const unsigned int named_sequences_start = %#x;' %
7db96d56Sopenharmony_ci               NAMED_SEQUENCES_START)
7db96d56Sopenharmony_ci        fprint('static const unsigned int named_sequences_end = %#x;' %
7db96d56Sopenharmony_ci               (NAMED_SEQUENCES_START + len(unicode.named_sequences)))
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        fprint('static const named_sequence named_sequences[] = {')
7db96d56Sopenharmony_ci        for name, sequence in unicode.named_sequences:
7db96d56Sopenharmony_ci            seq_str = ', '.join('0x%04X' % cp for cp in sequence)
7db96d56Sopenharmony_ci            fprint('    {%d, {%s}},' % (len(sequence), seq_str))
7db96d56Sopenharmony_ci        fprint('};')
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cidef merge_old_version(version, new, old):
7db96d56Sopenharmony_ci    # Changes to exclusion file not implemented yet
7db96d56Sopenharmony_ci    if old.exclusions != new.exclusions:
7db96d56Sopenharmony_ci        raise NotImplementedError("exclusions differ")
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    # In these change records, 0xFF means "no change"
7db96d56Sopenharmony_ci    bidir_changes = [0xFF]*0x110000
7db96d56Sopenharmony_ci    category_changes = [0xFF]*0x110000
7db96d56Sopenharmony_ci    decimal_changes = [0xFF]*0x110000
7db96d56Sopenharmony_ci    mirrored_changes = [0xFF]*0x110000
7db96d56Sopenharmony_ci    east_asian_width_changes = [0xFF]*0x110000
7db96d56Sopenharmony_ci    # In numeric data, 0 means "no change",
7db96d56Sopenharmony_ci    # -1 means "did not have a numeric value
7db96d56Sopenharmony_ci    numeric_changes = [0] * 0x110000
7db96d56Sopenharmony_ci    # normalization_changes is a list of key-value pairs
7db96d56Sopenharmony_ci    normalization_changes = []
7db96d56Sopenharmony_ci    for i in range(0x110000):
7db96d56Sopenharmony_ci        if new.table[i] is None:
7db96d56Sopenharmony_ci            # Characters unassigned in the new version ought to
7db96d56Sopenharmony_ci            # be unassigned in the old one
7db96d56Sopenharmony_ci            assert old.table[i] is None
7db96d56Sopenharmony_ci            continue
7db96d56Sopenharmony_ci        # check characters unassigned in the old version
7db96d56Sopenharmony_ci        if old.table[i] is None:
7db96d56Sopenharmony_ci            # category 0 is "unassigned"
7db96d56Sopenharmony_ci            category_changes[i] = 0
7db96d56Sopenharmony_ci            continue
7db96d56Sopenharmony_ci        # check characters that differ
7db96d56Sopenharmony_ci        if old.table[i] != new.table[i]:
7db96d56Sopenharmony_ci            for k, field in enumerate(dataclasses.fields(UcdRecord)):
7db96d56Sopenharmony_ci                value = getattr(old.table[i], field.name)
7db96d56Sopenharmony_ci                new_value = getattr(new.table[i], field.name)
7db96d56Sopenharmony_ci                if value != new_value:
7db96d56Sopenharmony_ci                    if k == 1 and i in PUA_15:
7db96d56Sopenharmony_ci                        # the name is not set in the old.table, but in the
7db96d56Sopenharmony_ci                        # new.table we are using it for aliases and named seq
7db96d56Sopenharmony_ci                        assert value == ''
7db96d56Sopenharmony_ci                    elif k == 2:
7db96d56Sopenharmony_ci                        category_changes[i] = CATEGORY_NAMES.index(value)
7db96d56Sopenharmony_ci                    elif k == 4:
7db96d56Sopenharmony_ci                        bidir_changes[i] = BIDIRECTIONAL_NAMES.index(value)
7db96d56Sopenharmony_ci                    elif k == 5:
7db96d56Sopenharmony_ci                        # We assume that all normalization changes are in 1:1 mappings
7db96d56Sopenharmony_ci                        assert " " not in value
7db96d56Sopenharmony_ci                        normalization_changes.append((i, value))
7db96d56Sopenharmony_ci                    elif k == 6:
7db96d56Sopenharmony_ci                        # we only support changes where the old value is a single digit
7db96d56Sopenharmony_ci                        assert value in "0123456789"
7db96d56Sopenharmony_ci                        decimal_changes[i] = int(value)
7db96d56Sopenharmony_ci                    elif k == 8:
7db96d56Sopenharmony_ci                        # Since 0 encodes "no change", the old value is better not 0
7db96d56Sopenharmony_ci                        if not value:
7db96d56Sopenharmony_ci                            numeric_changes[i] = -1
7db96d56Sopenharmony_ci                        else:
7db96d56Sopenharmony_ci                            numeric_changes[i] = float(value)
7db96d56Sopenharmony_ci                            assert numeric_changes[i] not in (0, -1)
7db96d56Sopenharmony_ci                    elif k == 9:
7db96d56Sopenharmony_ci                        if value == 'Y':
7db96d56Sopenharmony_ci                            mirrored_changes[i] = '1'
7db96d56Sopenharmony_ci                        else:
7db96d56Sopenharmony_ci                            mirrored_changes[i] = '0'
7db96d56Sopenharmony_ci                    elif k == 11:
7db96d56Sopenharmony_ci                        # change to ISO comment, ignore
7db96d56Sopenharmony_ci                        pass
7db96d56Sopenharmony_ci                    elif k == 12:
7db96d56Sopenharmony_ci                        # change to simple uppercase mapping; ignore
7db96d56Sopenharmony_ci                        pass
7db96d56Sopenharmony_ci                    elif k == 13:
7db96d56Sopenharmony_ci                        # change to simple lowercase mapping; ignore
7db96d56Sopenharmony_ci                        pass
7db96d56Sopenharmony_ci                    elif k == 14:
7db96d56Sopenharmony_ci                        # change to simple titlecase mapping; ignore
7db96d56Sopenharmony_ci                        pass
7db96d56Sopenharmony_ci                    elif k == 15:
7db96d56Sopenharmony_ci                        # change to east asian width
7db96d56Sopenharmony_ci                        east_asian_width_changes[i] = EASTASIANWIDTH_NAMES.index(value)
7db96d56Sopenharmony_ci                    elif k == 16:
7db96d56Sopenharmony_ci                        # derived property changes; not yet
7db96d56Sopenharmony_ci                        pass
7db96d56Sopenharmony_ci                    elif k == 17:
7db96d56Sopenharmony_ci                        # normalization quickchecks are not performed
7db96d56Sopenharmony_ci                        # for older versions
7db96d56Sopenharmony_ci                        pass
7db96d56Sopenharmony_ci                    else:
7db96d56Sopenharmony_ci                        class Difference(Exception):pass
7db96d56Sopenharmony_ci                        raise Difference(hex(i), k, old.table[i], new.table[i])
7db96d56Sopenharmony_ci    new.changed.append((version, list(zip(bidir_changes, category_changes,
7db96d56Sopenharmony_ci                                          decimal_changes, mirrored_changes,
7db96d56Sopenharmony_ci                                          east_asian_width_changes,
7db96d56Sopenharmony_ci                                          numeric_changes)),
7db96d56Sopenharmony_ci                        normalization_changes))
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciDATA_DIR = os.path.join('Tools', 'unicode', 'data')
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cidef open_data(template, version):
7db96d56Sopenharmony_ci    local = os.path.join(DATA_DIR, template % ('-'+version,))
7db96d56Sopenharmony_ci    if not os.path.exists(local):
7db96d56Sopenharmony_ci        import urllib.request
7db96d56Sopenharmony_ci        if version == '3.2.0':
7db96d56Sopenharmony_ci            # irregular url structure
7db96d56Sopenharmony_ci            url = ('https://www.unicode.org/Public/3.2-Update/'+template) % ('-'+version,)
7db96d56Sopenharmony_ci        else:
7db96d56Sopenharmony_ci            url = ('https://www.unicode.org/Public/%s/ucd/'+template) % (version, '')
7db96d56Sopenharmony_ci        os.makedirs(DATA_DIR, exist_ok=True)
7db96d56Sopenharmony_ci        urllib.request.urlretrieve(url, filename=local)
7db96d56Sopenharmony_ci    if local.endswith('.txt'):
7db96d56Sopenharmony_ci        return open(local, encoding='utf-8')
7db96d56Sopenharmony_ci    else:
7db96d56Sopenharmony_ci        # Unihan.zip
7db96d56Sopenharmony_ci        return open(local, 'rb')
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cidef expand_range(char_range: str) -> Iterator[int]:
7db96d56Sopenharmony_ci    '''
7db96d56Sopenharmony_ci    Parses ranges of code points, as described in UAX #44:
7db96d56Sopenharmony_ci      https://www.unicode.org/reports/tr44/#Code_Point_Ranges
7db96d56Sopenharmony_ci    '''
7db96d56Sopenharmony_ci    if '..' in char_range:
7db96d56Sopenharmony_ci        first, last = [int(c, 16) for c in char_range.split('..')]
7db96d56Sopenharmony_ci    else:
7db96d56Sopenharmony_ci        first = last = int(char_range, 16)
7db96d56Sopenharmony_ci    for char in range(first, last+1):
7db96d56Sopenharmony_ci        yield char
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciclass UcdFile:
7db96d56Sopenharmony_ci    '''
7db96d56Sopenharmony_ci    A file in the standard format of the UCD.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    See: https://www.unicode.org/reports/tr44/#Format_Conventions
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    Note that, as described there, the Unihan data files have their
7db96d56Sopenharmony_ci    own separate format.
7db96d56Sopenharmony_ci    '''
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def __init__(self, template: str, version: str) -> None:
7db96d56Sopenharmony_ci        self.template = template
7db96d56Sopenharmony_ci        self.version = version
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def records(self) -> Iterator[List[str]]:
7db96d56Sopenharmony_ci        with open_data(self.template, self.version) as file:
7db96d56Sopenharmony_ci            for line in file:
7db96d56Sopenharmony_ci                line = line.split('#', 1)[0].strip()
7db96d56Sopenharmony_ci                if not line:
7db96d56Sopenharmony_ci                    continue
7db96d56Sopenharmony_ci                yield [field.strip() for field in line.split(';')]
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def __iter__(self) -> Iterator[List[str]]:
7db96d56Sopenharmony_ci        return self.records()
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def expanded(self) -> Iterator[Tuple[int, List[str]]]:
7db96d56Sopenharmony_ci        for record in self.records():
7db96d56Sopenharmony_ci            char_range, rest = record[0], record[1:]
7db96d56Sopenharmony_ci            for char in expand_range(char_range):
7db96d56Sopenharmony_ci                yield char, rest
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci@dataclasses.dataclass
7db96d56Sopenharmony_ciclass UcdRecord:
7db96d56Sopenharmony_ci    # 15 fields from UnicodeData.txt .  See:
7db96d56Sopenharmony_ci    #   https://www.unicode.org/reports/tr44/#UnicodeData.txt
7db96d56Sopenharmony_ci    codepoint: str
7db96d56Sopenharmony_ci    name: str
7db96d56Sopenharmony_ci    general_category: str
7db96d56Sopenharmony_ci    canonical_combining_class: str
7db96d56Sopenharmony_ci    bidi_class: str
7db96d56Sopenharmony_ci    decomposition_type: str
7db96d56Sopenharmony_ci    decomposition_mapping: str
7db96d56Sopenharmony_ci    numeric_type: str
7db96d56Sopenharmony_ci    numeric_value: str
7db96d56Sopenharmony_ci    bidi_mirrored: str
7db96d56Sopenharmony_ci    unicode_1_name: str  # obsolete
7db96d56Sopenharmony_ci    iso_comment: str  # obsolete
7db96d56Sopenharmony_ci    simple_uppercase_mapping: str
7db96d56Sopenharmony_ci    simple_lowercase_mapping: str
7db96d56Sopenharmony_ci    simple_titlecase_mapping: str
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    # https://www.unicode.org/reports/tr44/#EastAsianWidth.txt
7db96d56Sopenharmony_ci    east_asian_width: Optional[str]
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    # Binary properties, as a set of those that are true.
7db96d56Sopenharmony_ci    # Taken from multiple files:
7db96d56Sopenharmony_ci    #   https://www.unicode.org/reports/tr44/#DerivedCoreProperties.txt
7db96d56Sopenharmony_ci    #   https://www.unicode.org/reports/tr44/#LineBreak.txt
7db96d56Sopenharmony_ci    binary_properties: Set[str]
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    # The Quick_Check properties related to normalization:
7db96d56Sopenharmony_ci    #   https://www.unicode.org/reports/tr44/#Decompositions_and_Normalization
7db96d56Sopenharmony_ci    # We store them as a bitmask.
7db96d56Sopenharmony_ci    quick_check: int
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cidef from_row(row: List[str]) -> UcdRecord:
7db96d56Sopenharmony_ci    return UcdRecord(*row, None, set(), 0)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci# --------------------------------------------------------------------
7db96d56Sopenharmony_ci# the following support code is taken from the unidb utilities
7db96d56Sopenharmony_ci# Copyright (c) 1999-2000 by Secret Labs AB
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci# load a unicode-data file from disk
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciclass UnicodeData:
7db96d56Sopenharmony_ci    # table: List[Optional[UcdRecord]]  # index is codepoint; None means unassigned
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def __init__(self, version, cjk_check=True):
7db96d56Sopenharmony_ci        self.changed = []
7db96d56Sopenharmony_ci        table = [None] * 0x110000
7db96d56Sopenharmony_ci        for s in UcdFile(UNICODE_DATA, version):
7db96d56Sopenharmony_ci            char = int(s[0], 16)
7db96d56Sopenharmony_ci            table[char] = from_row(s)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        cjk_ranges_found = []
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # expand first-last ranges
7db96d56Sopenharmony_ci        field = None
7db96d56Sopenharmony_ci        for i in range(0, 0x110000):
7db96d56Sopenharmony_ci            # The file UnicodeData.txt has its own distinct way of
7db96d56Sopenharmony_ci            # expressing ranges.  See:
7db96d56Sopenharmony_ci            #   https://www.unicode.org/reports/tr44/#Code_Point_Ranges
7db96d56Sopenharmony_ci            s = table[i]
7db96d56Sopenharmony_ci            if s:
7db96d56Sopenharmony_ci                if s.name[-6:] == "First>":
7db96d56Sopenharmony_ci                    s.name = ""
7db96d56Sopenharmony_ci                    field = dataclasses.astuple(s)[:15]
7db96d56Sopenharmony_ci                elif s.name[-5:] == "Last>":
7db96d56Sopenharmony_ci                    if s.name.startswith("<CJK Ideograph"):
7db96d56Sopenharmony_ci                        cjk_ranges_found.append((field[0],
7db96d56Sopenharmony_ci                                                 s.codepoint))
7db96d56Sopenharmony_ci                    s.name = ""
7db96d56Sopenharmony_ci                    field = None
7db96d56Sopenharmony_ci            elif field:
7db96d56Sopenharmony_ci                table[i] = from_row(('%X' % i,) + field[1:])
7db96d56Sopenharmony_ci        if cjk_check and cjk_ranges != cjk_ranges_found:
7db96d56Sopenharmony_ci            raise ValueError("CJK ranges deviate: have %r" % cjk_ranges_found)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # public attributes
7db96d56Sopenharmony_ci        self.filename = UNICODE_DATA % ''
7db96d56Sopenharmony_ci        self.table = table
7db96d56Sopenharmony_ci        self.chars = list(range(0x110000)) # unicode 3.2
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # check for name aliases and named sequences, see #12753
7db96d56Sopenharmony_ci        # aliases and named sequences are not in 3.2.0
7db96d56Sopenharmony_ci        if version != '3.2.0':
7db96d56Sopenharmony_ci            self.aliases = []
7db96d56Sopenharmony_ci            # store aliases in the Private Use Area 15, in range U+F0000..U+F00FF,
7db96d56Sopenharmony_ci            # in order to take advantage of the compression and lookup
7db96d56Sopenharmony_ci            # algorithms used for the other characters
7db96d56Sopenharmony_ci            pua_index = NAME_ALIASES_START
7db96d56Sopenharmony_ci            for char, name, abbrev in UcdFile(NAME_ALIASES, version):
7db96d56Sopenharmony_ci                char = int(char, 16)
7db96d56Sopenharmony_ci                self.aliases.append((name, char))
7db96d56Sopenharmony_ci                # also store the name in the PUA 1
7db96d56Sopenharmony_ci                self.table[pua_index].name = name
7db96d56Sopenharmony_ci                pua_index += 1
7db96d56Sopenharmony_ci            assert pua_index - NAME_ALIASES_START == len(self.aliases)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci            self.named_sequences = []
7db96d56Sopenharmony_ci            # store named sequences in the PUA 1, in range U+F0100..,
7db96d56Sopenharmony_ci            # in order to take advantage of the compression and lookup
7db96d56Sopenharmony_ci            # algorithms used for the other characters.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci            assert pua_index < NAMED_SEQUENCES_START
7db96d56Sopenharmony_ci            pua_index = NAMED_SEQUENCES_START
7db96d56Sopenharmony_ci            for name, chars in UcdFile(NAMED_SEQUENCES, version):
7db96d56Sopenharmony_ci                chars = tuple(int(char, 16) for char in chars.split())
7db96d56Sopenharmony_ci                # check that the structure defined in makeunicodename is OK
7db96d56Sopenharmony_ci                assert 2 <= len(chars) <= 4, "change the Py_UCS2 array size"
7db96d56Sopenharmony_ci                assert all(c <= 0xFFFF for c in chars), ("use Py_UCS4 in "
7db96d56Sopenharmony_ci                    "the NamedSequence struct and in unicodedata_lookup")
7db96d56Sopenharmony_ci                self.named_sequences.append((name, chars))
7db96d56Sopenharmony_ci                # also store these in the PUA 1
7db96d56Sopenharmony_ci                self.table[pua_index].name = name
7db96d56Sopenharmony_ci                pua_index += 1
7db96d56Sopenharmony_ci            assert pua_index - NAMED_SEQUENCES_START == len(self.named_sequences)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        self.exclusions = {}
7db96d56Sopenharmony_ci        for char, in UcdFile(COMPOSITION_EXCLUSIONS, version):
7db96d56Sopenharmony_ci            char = int(char, 16)
7db96d56Sopenharmony_ci            self.exclusions[char] = 1
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        widths = [None] * 0x110000
7db96d56Sopenharmony_ci        for char, (width,) in UcdFile(EASTASIAN_WIDTH, version).expanded():
7db96d56Sopenharmony_ci            widths[char] = width
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        for i in range(0, 0x110000):
7db96d56Sopenharmony_ci            if table[i] is not None:
7db96d56Sopenharmony_ci                table[i].east_asian_width = widths[i]
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        for char, (p,) in UcdFile(DERIVED_CORE_PROPERTIES, version).expanded():
7db96d56Sopenharmony_ci            if table[char]:
7db96d56Sopenharmony_ci                # Some properties (e.g. Default_Ignorable_Code_Point)
7db96d56Sopenharmony_ci                # apply to unassigned code points; ignore them
7db96d56Sopenharmony_ci                table[char].binary_properties.add(p)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        for char_range, value in UcdFile(LINE_BREAK, version):
7db96d56Sopenharmony_ci            if value not in MANDATORY_LINE_BREAKS:
7db96d56Sopenharmony_ci                continue
7db96d56Sopenharmony_ci            for char in expand_range(char_range):
7db96d56Sopenharmony_ci                table[char].binary_properties.add('Line_Break')
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # We only want the quickcheck properties
7db96d56Sopenharmony_ci        # Format: NF?_QC; Y(es)/N(o)/M(aybe)
7db96d56Sopenharmony_ci        # Yes is the default, hence only N and M occur
7db96d56Sopenharmony_ci        # In 3.2.0, the format was different (NF?_NO)
7db96d56Sopenharmony_ci        # The parsing will incorrectly determine these as
7db96d56Sopenharmony_ci        # "yes", however, unicodedata.c will not perform quickchecks
7db96d56Sopenharmony_ci        # for older versions, and no delta records will be created.
7db96d56Sopenharmony_ci        quickchecks = [0] * 0x110000
7db96d56Sopenharmony_ci        qc_order = 'NFD_QC NFKD_QC NFC_QC NFKC_QC'.split()
7db96d56Sopenharmony_ci        for s in UcdFile(DERIVEDNORMALIZATION_PROPS, version):
7db96d56Sopenharmony_ci            if len(s) < 2 or s[1] not in qc_order:
7db96d56Sopenharmony_ci                continue
7db96d56Sopenharmony_ci            quickcheck = 'MN'.index(s[2]) + 1 # Maybe or No
7db96d56Sopenharmony_ci            quickcheck_shift = qc_order.index(s[1])*2
7db96d56Sopenharmony_ci            quickcheck <<= quickcheck_shift
7db96d56Sopenharmony_ci            for char in expand_range(s[0]):
7db96d56Sopenharmony_ci                assert not (quickchecks[char]>>quickcheck_shift)&3
7db96d56Sopenharmony_ci                quickchecks[char] |= quickcheck
7db96d56Sopenharmony_ci        for i in range(0, 0x110000):
7db96d56Sopenharmony_ci            if table[i] is not None:
7db96d56Sopenharmony_ci                table[i].quick_check = quickchecks[i]
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        with open_data(UNIHAN, version) as file:
7db96d56Sopenharmony_ci            zip = zipfile.ZipFile(file)
7db96d56Sopenharmony_ci            if version == '3.2.0':
7db96d56Sopenharmony_ci                data = zip.open('Unihan-3.2.0.txt').read()
7db96d56Sopenharmony_ci            else:
7db96d56Sopenharmony_ci                data = zip.open('Unihan_NumericValues.txt').read()
7db96d56Sopenharmony_ci        for line in data.decode("utf-8").splitlines():
7db96d56Sopenharmony_ci            if not line.startswith('U+'):
7db96d56Sopenharmony_ci                continue
7db96d56Sopenharmony_ci            code, tag, value = line.split(None, 3)[:3]
7db96d56Sopenharmony_ci            if tag not in ('kAccountingNumeric', 'kPrimaryNumeric',
7db96d56Sopenharmony_ci                           'kOtherNumeric'):
7db96d56Sopenharmony_ci                continue
7db96d56Sopenharmony_ci            value = value.strip().replace(',', '')
7db96d56Sopenharmony_ci            i = int(code[2:], 16)
7db96d56Sopenharmony_ci            # Patch the numeric field
7db96d56Sopenharmony_ci            if table[i] is not None:
7db96d56Sopenharmony_ci                table[i].numeric_value = value
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        sc = self.special_casing = {}
7db96d56Sopenharmony_ci        for data in UcdFile(SPECIAL_CASING, version):
7db96d56Sopenharmony_ci            if data[4]:
7db96d56Sopenharmony_ci                # We ignore all conditionals (since they depend on
7db96d56Sopenharmony_ci                # languages) except for one, which is hardcoded. See
7db96d56Sopenharmony_ci                # handle_capital_sigma in unicodeobject.c.
7db96d56Sopenharmony_ci                continue
7db96d56Sopenharmony_ci            c = int(data[0], 16)
7db96d56Sopenharmony_ci            lower = [int(char, 16) for char in data[1].split()]
7db96d56Sopenharmony_ci            title = [int(char, 16) for char in data[2].split()]
7db96d56Sopenharmony_ci            upper = [int(char, 16) for char in data[3].split()]
7db96d56Sopenharmony_ci            sc[c] = (lower, title, upper)
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        cf = self.case_folding = {}
7db96d56Sopenharmony_ci        if version != '3.2.0':
7db96d56Sopenharmony_ci            for data in UcdFile(CASE_FOLDING, version):
7db96d56Sopenharmony_ci                if data[1] in "CF":
7db96d56Sopenharmony_ci                    c = int(data[0], 16)
7db96d56Sopenharmony_ci                    cf[c] = [int(char, 16) for char in data[2].split()]
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def uselatin1(self):
7db96d56Sopenharmony_ci        # restrict character range to ISO Latin 1
7db96d56Sopenharmony_ci        self.chars = list(range(256))
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci# hash table tools
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci# this is a straight-forward reimplementation of Python's built-in
7db96d56Sopenharmony_ci# dictionary type, using a static data structure, and a custom string
7db96d56Sopenharmony_ci# hash algorithm.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cidef myhash(s, magic):
7db96d56Sopenharmony_ci    h = 0
7db96d56Sopenharmony_ci    for c in map(ord, s.upper()):
7db96d56Sopenharmony_ci        h = (h * magic) + c
7db96d56Sopenharmony_ci        ix = h & 0xff000000
7db96d56Sopenharmony_ci        if ix:
7db96d56Sopenharmony_ci            h = (h ^ ((ix>>24) & 0xff)) & 0x00ffffff
7db96d56Sopenharmony_ci    return h
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciSIZES = [
7db96d56Sopenharmony_ci    (4,3), (8,3), (16,3), (32,5), (64,3), (128,3), (256,29), (512,17),
7db96d56Sopenharmony_ci    (1024,9), (2048,5), (4096,83), (8192,27), (16384,43), (32768,3),
7db96d56Sopenharmony_ci    (65536,45), (131072,9), (262144,39), (524288,39), (1048576,9),
7db96d56Sopenharmony_ci    (2097152,5), (4194304,3), (8388608,33), (16777216,27)
7db96d56Sopenharmony_ci]
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciclass Hash:
7db96d56Sopenharmony_ci    def __init__(self, name, data, magic):
7db96d56Sopenharmony_ci        # turn a (key, value) list into a static hash table structure
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # determine table size
7db96d56Sopenharmony_ci        for size, poly in SIZES:
7db96d56Sopenharmony_ci            if size > len(data):
7db96d56Sopenharmony_ci                poly = size + poly
7db96d56Sopenharmony_ci                break
7db96d56Sopenharmony_ci        else:
7db96d56Sopenharmony_ci            raise AssertionError("ran out of polynomials")
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        print(size, "slots in hash table")
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        table = [None] * size
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        mask = size-1
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        n = 0
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        hash = myhash
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        # initialize hash table
7db96d56Sopenharmony_ci        for key, value in data:
7db96d56Sopenharmony_ci            h = hash(key, magic)
7db96d56Sopenharmony_ci            i = (~h) & mask
7db96d56Sopenharmony_ci            v = table[i]
7db96d56Sopenharmony_ci            if v is None:
7db96d56Sopenharmony_ci                table[i] = value
7db96d56Sopenharmony_ci                continue
7db96d56Sopenharmony_ci            incr = (h ^ (h >> 3)) & mask
7db96d56Sopenharmony_ci            if not incr:
7db96d56Sopenharmony_ci                incr = mask
7db96d56Sopenharmony_ci            while 1:
7db96d56Sopenharmony_ci                n = n + 1
7db96d56Sopenharmony_ci                i = (i + incr) & mask
7db96d56Sopenharmony_ci                v = table[i]
7db96d56Sopenharmony_ci                if v is None:
7db96d56Sopenharmony_ci                    table[i] = value
7db96d56Sopenharmony_ci                    break
7db96d56Sopenharmony_ci                incr = incr << 1
7db96d56Sopenharmony_ci                if incr > mask:
7db96d56Sopenharmony_ci                    incr = incr ^ poly
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        print(n, "collisions")
7db96d56Sopenharmony_ci        self.collisions = n
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        for i in range(len(table)):
7db96d56Sopenharmony_ci            if table[i] is None:
7db96d56Sopenharmony_ci                table[i] = 0
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci        self.data = Array(name + "_hash", table)
7db96d56Sopenharmony_ci        self.magic = magic
7db96d56Sopenharmony_ci        self.name = name
7db96d56Sopenharmony_ci        self.size = size
7db96d56Sopenharmony_ci        self.poly = poly
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def dump(self, file, trace):
7db96d56Sopenharmony_ci        # write data to file, as a C array
7db96d56Sopenharmony_ci        self.data.dump(file, trace)
7db96d56Sopenharmony_ci        file.write("#define %s_magic %d\n" % (self.name, self.magic))
7db96d56Sopenharmony_ci        file.write("#define %s_size %d\n" % (self.name, self.size))
7db96d56Sopenharmony_ci        file.write("#define %s_poly %d\n" % (self.name, self.poly))
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci# stuff to deal with arrays of unsigned integers
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciclass Array:
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def __init__(self, name, data):
7db96d56Sopenharmony_ci        self.name = name
7db96d56Sopenharmony_ci        self.data = data
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    def dump(self, file, trace=0):
7db96d56Sopenharmony_ci        # write data to file, as a C array
7db96d56Sopenharmony_ci        size = getsize(self.data)
7db96d56Sopenharmony_ci        if trace:
7db96d56Sopenharmony_ci            print(self.name+":", size*len(self.data), "bytes", file=sys.stderr)
7db96d56Sopenharmony_ci        file.write("static const ")
7db96d56Sopenharmony_ci        if size == 1:
7db96d56Sopenharmony_ci            file.write("unsigned char")
7db96d56Sopenharmony_ci        elif size == 2:
7db96d56Sopenharmony_ci            file.write("unsigned short")
7db96d56Sopenharmony_ci        else:
7db96d56Sopenharmony_ci            file.write("unsigned int")
7db96d56Sopenharmony_ci        file.write(" " + self.name + "[] = {\n")
7db96d56Sopenharmony_ci        if self.data:
7db96d56Sopenharmony_ci            s = "    "
7db96d56Sopenharmony_ci            for item in self.data:
7db96d56Sopenharmony_ci                i = str(item) + ", "
7db96d56Sopenharmony_ci                if len(s) + len(i) > 78:
7db96d56Sopenharmony_ci                    file.write(s.rstrip() + "\n")
7db96d56Sopenharmony_ci                    s = "    " + i
7db96d56Sopenharmony_ci                else:
7db96d56Sopenharmony_ci                    s = s + i
7db96d56Sopenharmony_ci            if s.strip():
7db96d56Sopenharmony_ci                file.write(s.rstrip() + "\n")
7db96d56Sopenharmony_ci        file.write("};\n\n")
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cidef getsize(data):
7db96d56Sopenharmony_ci    # return smallest possible integer size for the given array
7db96d56Sopenharmony_ci    maxdata = max(data)
7db96d56Sopenharmony_ci    if maxdata < 256:
7db96d56Sopenharmony_ci        return 1
7db96d56Sopenharmony_ci    elif maxdata < 65536:
7db96d56Sopenharmony_ci        return 2
7db96d56Sopenharmony_ci    else:
7db96d56Sopenharmony_ci        return 4
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_cidef splitbins(t, trace=0):
7db96d56Sopenharmony_ci    """t, trace=0 -> (t1, t2, shift).  Split a table to save space.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    t is a sequence of ints.  This function can be useful to save space if
7db96d56Sopenharmony_ci    many of the ints are the same.  t1 and t2 are lists of ints, and shift
7db96d56Sopenharmony_ci    is an int, chosen to minimize the combined size of t1 and t2 (in C
7db96d56Sopenharmony_ci    code), and where for each i in range(len(t)),
7db96d56Sopenharmony_ci        t[i] == t2[(t1[i >> shift] << shift) + (i & mask)]
7db96d56Sopenharmony_ci    where mask is a bitmask isolating the last "shift" bits.
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    If optional arg trace is non-zero (default zero), progress info
7db96d56Sopenharmony_ci    is printed to sys.stderr.  The higher the value, the more info
7db96d56Sopenharmony_ci    you'll get.
7db96d56Sopenharmony_ci    """
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci    if trace:
7db96d56Sopenharmony_ci        def dump(t1, t2, shift, bytes):
7db96d56Sopenharmony_ci            print("%d+%d bins at shift %d; %d bytes" % (
7db96d56Sopenharmony_ci                len(t1), len(t2), shift, bytes), file=sys.stderr)
7db96d56Sopenharmony_ci        print("Size of original table:", len(t)*getsize(t), "bytes",
7db96d56Sopenharmony_ci              file=sys.stderr)
7db96d56Sopenharmony_ci    n = len(t)-1    # last valid index
7db96d56Sopenharmony_ci    maxshift = 0    # the most we can shift n and still have something left
7db96d56Sopenharmony_ci    if n > 0:
7db96d56Sopenharmony_ci        while n >> 1:
7db96d56Sopenharmony_ci            n >>= 1
7db96d56Sopenharmony_ci            maxshift += 1
7db96d56Sopenharmony_ci    del n
7db96d56Sopenharmony_ci    bytes = sys.maxsize  # smallest total size so far
7db96d56Sopenharmony_ci    t = tuple(t)    # so slices can be dict keys
7db96d56Sopenharmony_ci    for shift in range(maxshift + 1):
7db96d56Sopenharmony_ci        t1 = []
7db96d56Sopenharmony_ci        t2 = []
7db96d56Sopenharmony_ci        size = 2**shift
7db96d56Sopenharmony_ci        bincache = {}
7db96d56Sopenharmony_ci        for i in range(0, len(t), size):
7db96d56Sopenharmony_ci            bin = t[i:i+size]
7db96d56Sopenharmony_ci            index = bincache.get(bin)
7db96d56Sopenharmony_ci            if index is None:
7db96d56Sopenharmony_ci                index = len(t2)
7db96d56Sopenharmony_ci                bincache[bin] = index
7db96d56Sopenharmony_ci                t2.extend(bin)
7db96d56Sopenharmony_ci            t1.append(index >> shift)
7db96d56Sopenharmony_ci        # determine memory size
7db96d56Sopenharmony_ci        b = len(t1)*getsize(t1) + len(t2)*getsize(t2)
7db96d56Sopenharmony_ci        if trace > 1:
7db96d56Sopenharmony_ci            dump(t1, t2, shift, b)
7db96d56Sopenharmony_ci        if b < bytes:
7db96d56Sopenharmony_ci            best = t1, t2, shift
7db96d56Sopenharmony_ci            bytes = b
7db96d56Sopenharmony_ci    t1, t2, shift = best
7db96d56Sopenharmony_ci    if trace:
7db96d56Sopenharmony_ci        print("Best:", end=' ', file=sys.stderr)
7db96d56Sopenharmony_ci        dump(t1, t2, shift, bytes)
7db96d56Sopenharmony_ci    if __debug__:
7db96d56Sopenharmony_ci        # exhaustively verify that the decomposition is correct
7db96d56Sopenharmony_ci        mask = ~((~0) << shift) # i.e., low-bit mask of shift bits
7db96d56Sopenharmony_ci        for i in range(len(t)):
7db96d56Sopenharmony_ci            assert t[i] == t2[(t1[i >> shift] << shift) + (i & mask)]
7db96d56Sopenharmony_ci    return best
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ci
7db96d56Sopenharmony_ciif __name__ == "__main__":
7db96d56Sopenharmony_ci    maketables(1)