我有一个大型文档语料库D
,它基本上是 n 过滤推文的Python列表。
例如,D[0]
是" 远程杀毒Android手机的新漏洞'威胁数以百万计的设备"
此外, n 的顺序为10 ^ 4。
说,Z
中我的文档的 m = 10 主题的另一个列表,我希望随机分配给每个文档,> p>
Z = ['hack', 'tools', 'android', 'google', 'anonymous', ... ]
。
如何创建 n x 2 数组,以便主题分配(尽可能接近)真正的随机过程?
编辑:
我不确定如何编码。很抱歉,如果解释有点模糊,但没有太多信息可以提供。我只想要一种方法从Z
到D
,随机(以获得 nx 2 数组不一个 nxm 数组,诚实的错误。)
答案 0 :(得分:0)
我认为这就是你所追求的目标。
>>> D = [1,2,3,4,5,6,7,8,9]
>>> Z = ['a','b','c','d','e','f','g']
>>> [[i, random.choice(Z)] for i in D]
[[1, 'a'], [2, 'd'], [3, 'c'], [4, 'f'], [5, 'b'], [6, 'g'], [7, 'f'], [8, 'f'], [9, 'f']]
此列表理解通过D
(您的语料库)进行迭代,并将每个元素与Z
(您的主题)的随机元素进行匹配。
元组可能是比单个对的列表更好的选择,因为它们更常用于表示不同事物的集合 - 请参阅this回答何时使用列表与元组。