skia/tools/parse_llvm_coverage.py

cb93a386Sopenharmony_ci#!/usr/bin/env python
cb93a386Sopenharmony_ci# Copyright (c) 2015 The Chromium Authors. All rights reserved.
cb93a386Sopenharmony_ci# Use of this source code is governed by a BSD-style license that can be
cb93a386Sopenharmony_ci# found in the LICENSE file.
cb93a386Sopenharmony_ci
cb93a386Sopenharmony_ci
cb93a386Sopenharmony_ci"""Parse an LLVM coverage report to generate useable results."""
cb93a386Sopenharmony_ci
cb93a386Sopenharmony_ci
cb93a386Sopenharmony_ciimport argparse
cb93a386Sopenharmony_ciimport json
cb93a386Sopenharmony_ciimport os
cb93a386Sopenharmony_ciimport re
cb93a386Sopenharmony_ciimport subprocess
cb93a386Sopenharmony_ciimport sys
cb93a386Sopenharmony_ci
cb93a386Sopenharmony_ci
cb93a386Sopenharmony_cidef _fix_filename(filename):
cb93a386Sopenharmony_ci  """Return a filename which we can use to identify the file.
cb93a386Sopenharmony_ci
cb93a386Sopenharmony_ci  The file paths printed by llvm-cov take the form:
cb93a386Sopenharmony_ci
cb93a386Sopenharmony_ci      /path/to/repo/out/dir/../../src/filename.cpp
cb93a386Sopenharmony_ci
cb93a386Sopenharmony_ci  And then they're truncated to 22 characters with leading ellipses:
cb93a386Sopenharmony_ci
cb93a386Sopenharmony_ci      ...../../src/filename.cpp
cb93a386Sopenharmony_ci
cb93a386Sopenharmony_ci  This makes it really tough to determine whether the file actually belongs in
cb93a386Sopenharmony_ci  the Skia repo.  This function strips out the leading junk so that, if the file
cb93a386Sopenharmony_ci  exists in the repo, the returned string matches the end of some relative path
cb93a386Sopenharmony_ci  in the repo. This doesn't guarantee correctness, but it's about as close as
cb93a386Sopenharmony_ci  we can get.
cb93a386Sopenharmony_ci  """
cb93a386Sopenharmony_ci  return filename.split('..')[-1].lstrip('./')
cb93a386Sopenharmony_ci
cb93a386Sopenharmony_ci
cb93a386Sopenharmony_cidef _file_in_repo(filename, all_files):
cb93a386Sopenharmony_ci  """Return the name of the checked-in file matching the given filename.
cb93a386Sopenharmony_ci
cb93a386Sopenharmony_ci  Use suffix matching to determine which checked-in files the given filename
cb93a386Sopenharmony_ci  matches. If there are no matches or multiple matches, return None.
cb93a386Sopenharmony_ci  """
cb93a386Sopenharmony_ci  new_file = _fix_filename(filename)
cb93a386Sopenharmony_ci  matched = []
cb93a386Sopenharmony_ci  for f in all_files:
cb93a386Sopenharmony_ci    if f.endswith(new_file):
cb93a386Sopenharmony_ci      matched.append(f)
cb93a386Sopenharmony_ci  if len(matched) == 1:
cb93a386Sopenharmony_ci    return matched[0]
cb93a386Sopenharmony_ci  elif len(matched) > 1:
cb93a386Sopenharmony_ci    print >> sys.stderr, ('WARNING: multiple matches for %s; skipping:\n\t%s'
cb93a386Sopenharmony_ci                          % (new_file, '\n\t'.join(matched)))
cb93a386Sopenharmony_ci  return None
cb93a386Sopenharmony_ci
cb93a386Sopenharmony_ci
cb93a386Sopenharmony_cidef _get_per_file_per_line_coverage(report):
cb93a386Sopenharmony_ci  """Return a dict whose keys are file names and values are coverage data.
cb93a386Sopenharmony_ci
cb93a386Sopenharmony_ci  Values are lists which take the form (lineno, coverage, code).
cb93a386Sopenharmony_ci  """
cb93a386Sopenharmony_ci  all_files = []
cb93a386Sopenharmony_ci  for root, dirs, files in os.walk(os.getcwd()):
cb93a386Sopenharmony_ci    if 'third_party/externals' in root:
cb93a386Sopenharmony_ci      continue
cb93a386Sopenharmony_ci    files = [f for f in files if not (f[0] == '.' or f.endswith('.pyc'))]
cb93a386Sopenharmony_ci    dirs[:] = [d for d in dirs if not d[0] == '.']
cb93a386Sopenharmony_ci    for name in files:
cb93a386Sopenharmony_ci      all_files.append(os.path.join(root[(len(os.getcwd()) + 1):], name))
cb93a386Sopenharmony_ci  all_files.sort()
cb93a386Sopenharmony_ci
cb93a386Sopenharmony_ci  lines = report.splitlines()
cb93a386Sopenharmony_ci  current_file = None
cb93a386Sopenharmony_ci  file_lines = []
cb93a386Sopenharmony_ci  files = {}
cb93a386Sopenharmony_ci  not_checked_in = '%' # Use this as the file name for not-checked-in files.
cb93a386Sopenharmony_ci  for line in lines:
cb93a386Sopenharmony_ci    m = re.match('([a-zA-Z0-9\./_-]+):', line)
cb93a386Sopenharmony_ci    if m:
cb93a386Sopenharmony_ci      if current_file and current_file != not_checked_in:
cb93a386Sopenharmony_ci        files[current_file] = file_lines
cb93a386Sopenharmony_ci      match_filename = _file_in_repo(m.groups()[0], all_files)
cb93a386Sopenharmony_ci      current_file = match_filename or not_checked_in
cb93a386Sopenharmony_ci      file_lines = []
cb93a386Sopenharmony_ci    else:
cb93a386Sopenharmony_ci      if current_file != not_checked_in:
cb93a386Sopenharmony_ci        skip = re.match('^\s{2}-+$|^\s{2}\|.+$', line)
cb93a386Sopenharmony_ci        if line and not skip:
cb93a386Sopenharmony_ci          cov, linenum, code = line.split('|', 2)
cb93a386Sopenharmony_ci          cov = cov.strip()
cb93a386Sopenharmony_ci          if cov:
cb93a386Sopenharmony_ci            cov = int(cov)
cb93a386Sopenharmony_ci          else:
cb93a386Sopenharmony_ci            cov = None # We don't care about coverage for this line.
cb93a386Sopenharmony_ci          linenum = int(linenum.strip())
cb93a386Sopenharmony_ci          assert linenum == len(file_lines) + 1
cb93a386Sopenharmony_ci          file_lines.append((linenum, cov, code.decode('utf-8', 'replace')))
cb93a386Sopenharmony_ci  return files
cb93a386Sopenharmony_ci
cb93a386Sopenharmony_ci
cb93a386Sopenharmony_ci
cb93a386Sopenharmony_cidef _testname(filename):
cb93a386Sopenharmony_ci  """Transform the file name into an ingestible test name."""
cb93a386Sopenharmony_ci  return re.sub(r'[^a-zA-Z0-9]', '_', filename)
cb93a386Sopenharmony_ci
cb93a386Sopenharmony_ci
cb93a386Sopenharmony_cidef _nanobench_json(results, properties, key):
cb93a386Sopenharmony_ci  """Return the results in JSON format like that produced by nanobench."""
cb93a386Sopenharmony_ci  rv = {}
cb93a386Sopenharmony_ci  # Copy over the properties first, then set the 'key' and 'results' keys,
cb93a386Sopenharmony_ci  # in order to avoid bad formatting in case the user passes in a properties
cb93a386Sopenharmony_ci  # dict containing those keys.
cb93a386Sopenharmony_ci  rv.update(properties)
cb93a386Sopenharmony_ci  rv['key'] = key
cb93a386Sopenharmony_ci  rv['results'] = {
cb93a386Sopenharmony_ci    _testname(f): {
cb93a386Sopenharmony_ci      'coverage': {
cb93a386Sopenharmony_ci        'percent': percent,
cb93a386Sopenharmony_ci        'lines_not_covered': not_covered_lines,
cb93a386Sopenharmony_ci        'options': {
cb93a386Sopenharmony_ci          'fullname': f,
cb93a386Sopenharmony_ci          'dir': os.path.dirname(f),
cb93a386Sopenharmony_ci          'source_type': 'coverage',
cb93a386Sopenharmony_ci        },
cb93a386Sopenharmony_ci      },
cb93a386Sopenharmony_ci    } for percent, not_covered_lines, f in results
cb93a386Sopenharmony_ci  }
cb93a386Sopenharmony_ci  return rv
cb93a386Sopenharmony_ci
cb93a386Sopenharmony_ci
cb93a386Sopenharmony_cidef _parse_key_value(kv_list):
cb93a386Sopenharmony_ci  """Return a dict whose key/value pairs are derived from the given list.
cb93a386Sopenharmony_ci
cb93a386Sopenharmony_ci  For example:
cb93a386Sopenharmony_ci
cb93a386Sopenharmony_ci      ['k1', 'v1', 'k2', 'v2']
cb93a386Sopenharmony_ci  becomes:
cb93a386Sopenharmony_ci
cb93a386Sopenharmony_ci      {'k1': 'v1',
cb93a386Sopenharmony_ci       'k2': 'v2'}
cb93a386Sopenharmony_ci  """
cb93a386Sopenharmony_ci  if len(kv_list) % 2 != 0:
cb93a386Sopenharmony_ci    raise Exception('Invalid key/value pairs: %s' % kv_list)
cb93a386Sopenharmony_ci
cb93a386Sopenharmony_ci  rv = {}
cb93a386Sopenharmony_ci  for i in xrange(len(kv_list) / 2):
cb93a386Sopenharmony_ci    rv[kv_list[i*2]] = kv_list[i*2+1]
cb93a386Sopenharmony_ci  return rv
cb93a386Sopenharmony_ci
cb93a386Sopenharmony_ci
cb93a386Sopenharmony_cidef _get_per_file_summaries(line_by_line):
cb93a386Sopenharmony_ci  """Summarize the full line-by-line coverage report by file."""
cb93a386Sopenharmony_ci  per_file = []
cb93a386Sopenharmony_ci  for filepath, lines in line_by_line.iteritems():
cb93a386Sopenharmony_ci    total_lines = 0
cb93a386Sopenharmony_ci    covered_lines = 0
cb93a386Sopenharmony_ci    for _, cov, _ in lines:
cb93a386Sopenharmony_ci      if cov is not None:
cb93a386Sopenharmony_ci        total_lines += 1
cb93a386Sopenharmony_ci        if cov > 0:
cb93a386Sopenharmony_ci          covered_lines += 1
cb93a386Sopenharmony_ci    if total_lines > 0:
cb93a386Sopenharmony_ci      per_file.append((float(covered_lines)/float(total_lines)*100.0,
cb93a386Sopenharmony_ci                       total_lines - covered_lines,
cb93a386Sopenharmony_ci                       filepath))
cb93a386Sopenharmony_ci  return per_file
cb93a386Sopenharmony_ci
cb93a386Sopenharmony_ci
cb93a386Sopenharmony_cidef main():
cb93a386Sopenharmony_ci  """Generate useful data from a coverage report."""
cb93a386Sopenharmony_ci  # Parse args.
cb93a386Sopenharmony_ci  parser = argparse.ArgumentParser()
cb93a386Sopenharmony_ci  parser.add_argument('--report', help='input file; an llvm coverage report.',
cb93a386Sopenharmony_ci                      required=True)
cb93a386Sopenharmony_ci  parser.add_argument('--nanobench', help='output file for nanobench data.')
cb93a386Sopenharmony_ci  parser.add_argument(
cb93a386Sopenharmony_ci      '--key', metavar='key_or_value', nargs='+',
cb93a386Sopenharmony_ci      help='key/value pairs identifying this bot.')
cb93a386Sopenharmony_ci  parser.add_argument(
cb93a386Sopenharmony_ci      '--properties', metavar='key_or_value', nargs='+',
cb93a386Sopenharmony_ci      help='key/value pairs representing properties of this build.')
cb93a386Sopenharmony_ci  parser.add_argument('--linebyline',
cb93a386Sopenharmony_ci                      help='output file for line-by-line JSON data.')
cb93a386Sopenharmony_ci  args = parser.parse_args()
cb93a386Sopenharmony_ci
cb93a386Sopenharmony_ci  if args.nanobench and not (args.key and args.properties):
cb93a386Sopenharmony_ci    raise Exception('--key and --properties are required with --nanobench')
cb93a386Sopenharmony_ci
cb93a386Sopenharmony_ci  with open(args.report) as f:
cb93a386Sopenharmony_ci    report = f.read()
cb93a386Sopenharmony_ci
cb93a386Sopenharmony_ci  line_by_line = _get_per_file_per_line_coverage(report)
cb93a386Sopenharmony_ci
cb93a386Sopenharmony_ci  if args.linebyline:
cb93a386Sopenharmony_ci    with open(args.linebyline, 'w') as f:
cb93a386Sopenharmony_ci      json.dump(line_by_line, f)
cb93a386Sopenharmony_ci
cb93a386Sopenharmony_ci  if args.nanobench:
cb93a386Sopenharmony_ci    # Parse the key and properties for use in the nanobench JSON output.
cb93a386Sopenharmony_ci    key = _parse_key_value(args.key)
cb93a386Sopenharmony_ci    properties = _parse_key_value(args.properties)
cb93a386Sopenharmony_ci
cb93a386Sopenharmony_ci    # Get per-file summaries.
cb93a386Sopenharmony_ci    per_file = _get_per_file_summaries(line_by_line)
cb93a386Sopenharmony_ci
cb93a386Sopenharmony_ci    # Write results.
cb93a386Sopenharmony_ci    format_results = _nanobench_json(per_file, properties, key)
cb93a386Sopenharmony_ci    with open(args.nanobench, 'w') as f:
cb93a386Sopenharmony_ci      json.dump(format_results, f)
cb93a386Sopenharmony_ci
cb93a386Sopenharmony_ci
cb93a386Sopenharmony_ciif __name__ == '__main__':
cb93a386Sopenharmony_ci  main()