Question

我在std :: string中有一个有效的utf-8编码字符串。我有字节限制。我想截断字符串并在x添加... - 其中x是阻止utf-8字符被剪切的值。

是否有可以根据MAX_SIZE确定<plugin> <artifactId>maven-assembly-plugin</artifactId> <version>2.4.1</version> <configuration> <descriptorRefs> <descriptorRef>jar-with-dependencies</descriptorRef> </descriptorRefs> <archive> <manifest> <mainClass>full.path.to.Class</mainClass>的函数而无需从字符串的开头开始？

Answer 1

如果你在一个字符串中有一个位置，并且你想要向后找到一个UTF-8字符的开头（因此是一个有效的剪切位置），这很容易做到。

从序列中的最后一个字节开始。如果最后一个字节的前两位是10，那么它是UTF-8序列的一部分，所以继续备份直到前两位不 10 （或直到你开始）。

UTF-8的工作方式是，一个字节可以是三种情况之一，基于字节的高位。如果最顶部的位是0，则该字节是ASCII字符，接下来的7位是Unicode Codepoint值本身。如果最高位是10，则后面的6位是多字节序列的额外位。但是多字节序列的开始在顶部位用11进行编码（序列中的字节数由之前跟随这两个的1确定。第一个0）。

因此，如果一个字节的顶部位不是10，那么它可以是ASCII字符，也可以是多字节序列的开头。无论哪种方式，它都是一个有效的削减地点。

但请注意，虽然这会破坏代码点边界处的字符串，但这基于Unicode字形集群。这意味着可以剔除组合字符，远离它们组合的基本字符;例如，重音可能会从字符中丢失。进行正确的字形集群分析需要访问Unicode表，该表说明代码点是否为组合字符。

但它至少是一个有效的Unicode UTF-8字符串。所以这比大多数人做得好;）

代码看起来像这样（在C ++ 14中）：

auto FindCutPosition(const std::string &str, size_t max_size)
{
  assert(str.size() >= max_size, "Make sure stupidity hasn't happened.");
  assert(str.size() > 3, "Make sure stupidity hasn't happened.");
  max_size -= 3;
  for(size_t pos = max_size; pos > 0; --pos)
  {
    unsigned char byte = static_cast<unsigned char>(str[pos]); //Perfectly valid
    if(byte & 0xC0 != 0x80)
      return pos;
  }

  unsigned char byte = static_cast<unsigned char>(str[0]); //Perfectly valid
  if(byte & 0xC0 != 0x80)
    return 0;

  //If your first byte isn't even a valid UTF-8 starting point, then something terrible has happened.
  throw bad_utf8_encoded_text(...);
}

std :: string在安全的地方截断utf-8的最佳方法

1 个答案: