base/strings/utf_string_conversion_utils.cc

6d528ed9Sopenharmony_ci// Copyright (c) 2009 The Chromium Authors. All rights reserved.
6d528ed9Sopenharmony_ci// Use of this source code is governed by a BSD-style license that can be
6d528ed9Sopenharmony_ci// found in the LICENSE file.
6d528ed9Sopenharmony_ci
6d528ed9Sopenharmony_ci#include "base/strings/utf_string_conversion_utils.h"
6d528ed9Sopenharmony_ci
6d528ed9Sopenharmony_ci#include "base/third_party/icu/icu_utf.h"
6d528ed9Sopenharmony_ci#include "util/build_config.h"
6d528ed9Sopenharmony_ci
6d528ed9Sopenharmony_cinamespace base {
6d528ed9Sopenharmony_ci
6d528ed9Sopenharmony_ci// ReadUnicodeCharacter --------------------------------------------------------
6d528ed9Sopenharmony_ci
6d528ed9Sopenharmony_cibool ReadUnicodeCharacter(const char* src,
6d528ed9Sopenharmony_ci                          int32_t src_len,
6d528ed9Sopenharmony_ci                          int32_t* char_index,
6d528ed9Sopenharmony_ci                          uint32_t* code_point_out) {
6d528ed9Sopenharmony_ci  // U8_NEXT expects to be able to use -1 to signal an error, so we must
6d528ed9Sopenharmony_ci  // use a signed type for code_point.  But this function returns false
6d528ed9Sopenharmony_ci  // on error anyway, so code_point_out is unsigned.
6d528ed9Sopenharmony_ci  int32_t code_point;
6d528ed9Sopenharmony_ci  CBU8_NEXT(src, *char_index, src_len, code_point);
6d528ed9Sopenharmony_ci  *code_point_out = static_cast<uint32_t>(code_point);
6d528ed9Sopenharmony_ci
6d528ed9Sopenharmony_ci  // The ICU macro above moves to the next char, we want to point to the last
6d528ed9Sopenharmony_ci  // char consumed.
6d528ed9Sopenharmony_ci  (*char_index)--;
6d528ed9Sopenharmony_ci
6d528ed9Sopenharmony_ci  // Validate the decoded value.
6d528ed9Sopenharmony_ci  return IsValidCodepoint(code_point);
6d528ed9Sopenharmony_ci}
6d528ed9Sopenharmony_ci
6d528ed9Sopenharmony_cibool ReadUnicodeCharacter(const char16_t* src,
6d528ed9Sopenharmony_ci                          int32_t src_len,
6d528ed9Sopenharmony_ci                          int32_t* char_index,
6d528ed9Sopenharmony_ci                          uint32_t* code_point) {
6d528ed9Sopenharmony_ci  if (CBU16_IS_SURROGATE(src[*char_index])) {
6d528ed9Sopenharmony_ci    if (!CBU16_IS_SURROGATE_LEAD(src[*char_index]) ||
6d528ed9Sopenharmony_ci        *char_index + 1 >= src_len || !CBU16_IS_TRAIL(src[*char_index + 1])) {
6d528ed9Sopenharmony_ci      // Invalid surrogate pair.
6d528ed9Sopenharmony_ci      return false;
6d528ed9Sopenharmony_ci    }
6d528ed9Sopenharmony_ci
6d528ed9Sopenharmony_ci    // Valid surrogate pair.
6d528ed9Sopenharmony_ci    *code_point =
6d528ed9Sopenharmony_ci        CBU16_GET_SUPPLEMENTARY(src[*char_index], src[*char_index + 1]);
6d528ed9Sopenharmony_ci    (*char_index)++;
6d528ed9Sopenharmony_ci  } else {
6d528ed9Sopenharmony_ci    // Not a surrogate, just one 16-bit word.
6d528ed9Sopenharmony_ci    *code_point = src[*char_index];
6d528ed9Sopenharmony_ci  }
6d528ed9Sopenharmony_ci
6d528ed9Sopenharmony_ci  return IsValidCodepoint(*code_point);
6d528ed9Sopenharmony_ci}
6d528ed9Sopenharmony_ci
6d528ed9Sopenharmony_ci// WriteUnicodeCharacter -------------------------------------------------------
6d528ed9Sopenharmony_ci
6d528ed9Sopenharmony_cisize_t WriteUnicodeCharacter(uint32_t code_point, std::string* output) {
6d528ed9Sopenharmony_ci  if (code_point <= 0x7f) {
6d528ed9Sopenharmony_ci    // Fast path the common case of one byte.
6d528ed9Sopenharmony_ci    output->push_back(static_cast<char>(code_point));
6d528ed9Sopenharmony_ci    return 1;
6d528ed9Sopenharmony_ci  }
6d528ed9Sopenharmony_ci
6d528ed9Sopenharmony_ci  // CBU8_APPEND_UNSAFE can append up to 4 bytes.
6d528ed9Sopenharmony_ci  size_t char_offset = output->length();
6d528ed9Sopenharmony_ci  size_t original_char_offset = char_offset;
6d528ed9Sopenharmony_ci  output->resize(char_offset + CBU8_MAX_LENGTH);
6d528ed9Sopenharmony_ci
6d528ed9Sopenharmony_ci  CBU8_APPEND_UNSAFE(&(*output)[0], char_offset, code_point);
6d528ed9Sopenharmony_ci
6d528ed9Sopenharmony_ci  // CBU8_APPEND_UNSAFE will advance our pointer past the inserted character, so
6d528ed9Sopenharmony_ci  // it will represent the new length of the string.
6d528ed9Sopenharmony_ci  output->resize(char_offset);
6d528ed9Sopenharmony_ci  return char_offset - original_char_offset;
6d528ed9Sopenharmony_ci}
6d528ed9Sopenharmony_ci
6d528ed9Sopenharmony_cisize_t WriteUnicodeCharacter(uint32_t code_point, std::u16string* output) {
6d528ed9Sopenharmony_ci  if (CBU16_LENGTH(code_point) == 1) {
6d528ed9Sopenharmony_ci    // Thie code point is in the Basic Multilingual Plane (BMP).
6d528ed9Sopenharmony_ci    output->push_back(static_cast<char16_t>(code_point));
6d528ed9Sopenharmony_ci    return 1;
6d528ed9Sopenharmony_ci  }
6d528ed9Sopenharmony_ci  // Non-BMP characters use a double-character encoding.
6d528ed9Sopenharmony_ci  size_t char_offset = output->length();
6d528ed9Sopenharmony_ci  output->resize(char_offset + CBU16_MAX_LENGTH);
6d528ed9Sopenharmony_ci  CBU16_APPEND_UNSAFE(&(*output)[0], char_offset, code_point);
6d528ed9Sopenharmony_ci  return CBU16_MAX_LENGTH;
6d528ed9Sopenharmony_ci}
6d528ed9Sopenharmony_ci
6d528ed9Sopenharmony_ci// Generalized Unicode converter -----------------------------------------------
6d528ed9Sopenharmony_ci
6d528ed9Sopenharmony_citemplate <typename CHAR>
6d528ed9Sopenharmony_civoid PrepareForUTF8Output(const CHAR* src,
6d528ed9Sopenharmony_ci                          size_t src_len,
6d528ed9Sopenharmony_ci                          std::string* output) {
6d528ed9Sopenharmony_ci  output->clear();
6d528ed9Sopenharmony_ci  if (src_len == 0)
6d528ed9Sopenharmony_ci    return;
6d528ed9Sopenharmony_ci  if (src[0] < 0x80) {
6d528ed9Sopenharmony_ci    // Assume that the entire input will be ASCII.
6d528ed9Sopenharmony_ci    output->reserve(src_len);
6d528ed9Sopenharmony_ci  } else {
6d528ed9Sopenharmony_ci    // Assume that the entire input is non-ASCII and will have 3 bytes per char.
6d528ed9Sopenharmony_ci    output->reserve(src_len * 3);
6d528ed9Sopenharmony_ci  }
6d528ed9Sopenharmony_ci}
6d528ed9Sopenharmony_ci
6d528ed9Sopenharmony_ci// Instantiate versions we know callers will need.
6d528ed9Sopenharmony_citemplate void PrepareForUTF8Output(const char16_t*, size_t, std::string*);
6d528ed9Sopenharmony_ci
6d528ed9Sopenharmony_citemplate <typename STRING>
6d528ed9Sopenharmony_civoid PrepareForUTF16Or32Output(const char* src,
6d528ed9Sopenharmony_ci                               size_t src_len,
6d528ed9Sopenharmony_ci                               STRING* output) {
6d528ed9Sopenharmony_ci  output->clear();
6d528ed9Sopenharmony_ci  if (src_len == 0)
6d528ed9Sopenharmony_ci    return;
6d528ed9Sopenharmony_ci  if (static_cast<unsigned char>(src[0]) < 0x80) {
6d528ed9Sopenharmony_ci    // Assume the input is all ASCII, which means 1:1 correspondence.
6d528ed9Sopenharmony_ci    output->reserve(src_len);
6d528ed9Sopenharmony_ci  } else {
6d528ed9Sopenharmony_ci    // Otherwise assume that the UTF-8 sequences will have 2 bytes for each
6d528ed9Sopenharmony_ci    // character.
6d528ed9Sopenharmony_ci    output->reserve(src_len / 2);
6d528ed9Sopenharmony_ci  }
6d528ed9Sopenharmony_ci}
6d528ed9Sopenharmony_ci
6d528ed9Sopenharmony_ci// Instantiate versions we know callers will need.
6d528ed9Sopenharmony_citemplate void PrepareForUTF16Or32Output(const char*, size_t, std::u16string*);
6d528ed9Sopenharmony_ci
6d528ed9Sopenharmony_ci}  // namespace base