make-byte-frequency-table (revision fb6c1f39) - OpenGrok cross reference for /third_party/rust/crates/memchr/scripts/make-byte-frequency-table

fb6c1f39Sopenharmony_ci#!/usr/bin/env python
fb6c1f39Sopenharmony_ci
fb6c1f39Sopenharmony_ci# This does simple normalized frequency analysis on UTF-8 encoded text. The
fb6c1f39Sopenharmony_ci# result of the analysis is translated to a ranked list, where every byte is
fb6c1f39Sopenharmony_ci# assigned a rank. This list is written to src/freqs.rs.
fb6c1f39Sopenharmony_ci#
fb6c1f39Sopenharmony_ci# Currently, the frequencies are generated from the following corpuses:
fb6c1f39Sopenharmony_ci#
fb6c1f39Sopenharmony_ci#   * The CIA world fact book
fb6c1f39Sopenharmony_ci#   * The source code of rustc
fb6c1f39Sopenharmony_ci#   * Septuaginta
fb6c1f39Sopenharmony_ci
fb6c1f39Sopenharmony_cifrom __future__ import absolute_import, division, print_function
fb6c1f39Sopenharmony_ci
fb6c1f39Sopenharmony_ciimport argparse
fb6c1f39Sopenharmony_cifrom collections import Counter
fb6c1f39Sopenharmony_ciimport sys
fb6c1f39Sopenharmony_ci
fb6c1f39Sopenharmony_cipreamble = '''
fb6c1f39Sopenharmony_ci// NOTE: The following code was generated by "scripts/frequencies.py", do not
fb6c1f39Sopenharmony_ci// edit directly
fb6c1f39Sopenharmony_ci'''.lstrip()
fb6c1f39Sopenharmony_ci
fb6c1f39Sopenharmony_ci
fb6c1f39Sopenharmony_cidef eprint(*args, **kwargs):
fb6c1f39Sopenharmony_ci    kwargs['file'] = sys.stderr
fb6c1f39Sopenharmony_ci    print(*args, **kwargs)
fb6c1f39Sopenharmony_ci
fb6c1f39Sopenharmony_ci
fb6c1f39Sopenharmony_cidef main():
fb6c1f39Sopenharmony_ci    p = argparse.ArgumentParser()
fb6c1f39Sopenharmony_ci    p.add_argument('corpus', metavar='FILE', nargs='+')
fb6c1f39Sopenharmony_ci    args = p.parse_args()
fb6c1f39Sopenharmony_ci
fb6c1f39Sopenharmony_ci    # Get frequency counts of each byte.
fb6c1f39Sopenharmony_ci    freqs = Counter()
fb6c1f39Sopenharmony_ci    for i in range(0, 256):
fb6c1f39Sopenharmony_ci        freqs[i] = 0
fb6c1f39Sopenharmony_ci
fb6c1f39Sopenharmony_ci    eprint('reading entire corpus into memory')
fb6c1f39Sopenharmony_ci    corpus = []
fb6c1f39Sopenharmony_ci    for fpath in args.corpus:
fb6c1f39Sopenharmony_ci        corpus.append(open(fpath, 'rb').read())
fb6c1f39Sopenharmony_ci
fb6c1f39Sopenharmony_ci    eprint('computing byte frequencies')
fb6c1f39Sopenharmony_ci    for c in corpus:
fb6c1f39Sopenharmony_ci        for byte in c:
fb6c1f39Sopenharmony_ci            freqs[byte] += 1.0 / float(len(c))
fb6c1f39Sopenharmony_ci
fb6c1f39Sopenharmony_ci    eprint('writing Rust code')
fb6c1f39Sopenharmony_ci    # Get the rank of each byte. A lower rank => lower relative frequency.
fb6c1f39Sopenharmony_ci    rank = [0] * 256
fb6c1f39Sopenharmony_ci    for i, (byte, _) in enumerate(freqs.most_common()):
fb6c1f39Sopenharmony_ci        # print(byte)
fb6c1f39Sopenharmony_ci        rank[byte] = 255 - i
fb6c1f39Sopenharmony_ci
fb6c1f39Sopenharmony_ci    # Forcefully set the highest rank possible for bytes that start multi-byte
fb6c1f39Sopenharmony_ci    # UTF-8 sequences. The idea here is that a continuation byte will be more
fb6c1f39Sopenharmony_ci    # discerning in a homogenous haystack.
fb6c1f39Sopenharmony_ci    for byte in range(0xC0, 0xFF + 1):
fb6c1f39Sopenharmony_ci        rank[byte] = 255
fb6c1f39Sopenharmony_ci
fb6c1f39Sopenharmony_ci    # Now write Rust.
fb6c1f39Sopenharmony_ci    olines = ['pub const BYTE_FREQUENCIES: [u8; 256] = [']
fb6c1f39Sopenharmony_ci    for byte in range(256):
fb6c1f39Sopenharmony_ci        olines.append('    %3d, // %r' % (rank[byte], chr(byte)))
fb6c1f39Sopenharmony_ci    olines.append('];')
fb6c1f39Sopenharmony_ci
fb6c1f39Sopenharmony_ci    print(preamble)
fb6c1f39Sopenharmony_ci    print('\n'.join(olines))
fb6c1f39Sopenharmony_ci
fb6c1f39Sopenharmony_ci
fb6c1f39Sopenharmony_ciif __name__ == '__main__':
fb6c1f39Sopenharmony_ci    main()