Python:随机地将标题分配给语料库中的文档

时间:2016-03-18 10:53:36

标签: python arrays numpy random-sample

  • 我有一个大型文档语料库D,它基本上是 n 过滤推文的Python列表。

    例如,D[0]是" 远程杀毒Android手机的新漏洞'威胁数以百万计的设备"

    此外, n 的顺序为10 ^ 4。

  • 说,Z中我的文档的 m = 10 主题的另一个列表,我希望随机分配给每个文档, p>

    Z = ['hack', 'tools', 'android', 'google', 'anonymous', ... ]

如何创建 n x 2 数组,以便主题分配(尽可能接近)真正的随机过程?

编辑:

我不确定如何编码。很抱歉,如果解释有点模糊,但没有太多信息可以提供。我只想要一种方法从ZD随机(以获得 nx 2 数组一个 nxm 数组,诚实的错误。)

1 个答案:

答案 0 :(得分:0)

我认为这就是你所追求的目标。

>>> D = [1,2,3,4,5,6,7,8,9]
>>> Z = ['a','b','c','d','e','f','g']
>>> [[i, random.choice(Z)] for i in D]
[[1, 'a'], [2, 'd'], [3, 'c'], [4, 'f'], [5, 'b'], [6, 'g'], [7, 'f'], [8, 'f'], [9, 'f']]

此列表理解通过D(您的语料库)进行迭代,并将每个元素与Z(您的主题)的随机元素进行匹配。

元组可能是比单个对的列表更好的选择,因为它们更常用于表示不同事物的集合 - 请参阅this回答何时使用列表与元组。