如何获取随机unicode字符串

时间:2016-06-15 17:29:19

标签: python-2.7 encoding utf-8 python-unicode

我正在测试基于REST的服务,其中一个输入是文本字符串。所以我从我的python代码发送它随机的unicode字符串。到目前为止,我发送的unicode字符串都在ascii范围内,所以一切正常。

现在我试图发送超出ascii范围的字符,我收到编码错误。这是我的代码。我已经完成了这个link,仍然无法绕过它。

# coding=utf-8

import os, random, string
import json

junk_len = 512
junk =  (("%%0%dX" % junk_len) % random.getrandbits(junk_len * 8))

for i in xrange(1,5):
    if(len(junk) % 8 == 0):
        print u'decoding to hex'
        message = junk.decode("hex")

    print 'Hex chars %s' %message
    print u' '.join(message.encode("utf-8").strip())

第一行打印时没有任何问题,但我无法对其进行编码而无法将其发送到REST服务。因此第二行我尝试将其编码为utf-8。这是失败的代码行,显示以下消息。

  

UnicodeDecodeError:' ascii'编解码器不能将字节0x81解码到位   7:序数不在范围内(128)

3 个答案:

答案 0 :(得分:3)

正如其他人所说,由于字节序列必须正确,因此制作有效的随机UTF-8字节非常困难。

由于Unicode将所有字符映射到0x0000和0x10FFFF之间的数字,因此所有人需要做的是随机生成该范围内的数字以获得有效的Unicode地址。将随机数传递给unichar(或Py3上的char),将在随机代码点返回该字符的Unicode字符串。

然后你需要做的就是让Python编码为UTF-8来创建一个有效的UTF-8序列。

因为在完整的Unicode范围内有许多间隙和不可打印的字符(由于字体限制),使用Basic Multilingual Plane中带有返回字符的0000-D7FF范围,这将更有可能被打印你的系统。当编码为UTF-8时,每个字符最多可生成3个字节的序列。

普通随机

import random

def random_unicode(length):
    # Create a list of unicode characters within the range 0000-D7FF
    random_unicodes = [unichr(random.randrange(0xD7FF)) for _ in xrange(0, length)] 
    return u"".join(random_unicodes)

my_random_unicode_str = random_unicode(length=512)
my_random_utf_8_str = my_random_unicode_str.encode('utf-8')

独特随机

import random

def unique_random_unicode(length):
    # create a list of unique randoms.
    random_ints = random.sample(xrange(0xD7FF), length)

    ## convert ints into Unicode characters
    # for each random int, generate a list of Unicode characters
    random_unicodes = [unichr(x) for x in random_ints]
    # join the list
    return u"".join(random_unicodes) 

my_random_unicode_str = unique_random_unicode(length=512)
my_random_utf_8_str = my_random_unicode_str.encode('utf-8')

答案 1 :(得分:2)

UTF-8仅允许某些位模式。您似乎在代码中使用了UTF-8,因此您需要符合允许的UTF-8模式。

1 byte: 0b0xxxxxxx

2 byte: 0b110xxxxx 0b10xxxxxx

3 byte: 0b1110xxxx 0b10xxxxxx 0b10xxxxxx

4 byte: 0b11110xxx 0b10xxxxxx 0b10xxxxxx 0b10xxxxxx

在多字节模式中,第一个字节表示整个模式中的字节数,前导1后跟0和数据位x。非前导字节都遵循相同的模式:0b10xxxxxx,带有两个前导指示符位10和六个数据位xxxxxx

通常,随机生成的字节不会遵循这些模式。您只能随机生成数据位x

答案 2 :(得分:1)

这个怎么样?

import random

def random_utf8_string(n):
    result=u""
    for i in xrange(n):
        a = u"\\u%04x" % random.randrange(0x10000)
        result = result + a.decode('unicode-escape')
    return result