高效的Python用于词对共现计数?

时间:2019-01-22 13:07:20

标签: python pandas natural-language-processing

我想要一种有效的Python方式来计算文本中的相邻单词对。高效,因为它需要与较大的数据集一起使用。

计数的方式也很重要。

考虑以下简化示例:

words_list = "apple banana banana apple".split()

我可以使用以下方法创建相邻对:

word_pair_list = zip(words_list[:-1], words_list[1:])

然后我可以使用python进行计数

word_pair_ctr = collections.Counter(word_pair_list)

这给了我

(('apple', 'banana'), 1)
(('banana', 'banana'), 1)
(('banana', 'apple'), 1)

请注意,'apple''apple'不是相邻的配对。

但是我不希望成对的顺序不计算在内。这意味着('apple', 'banana')('banana', 'apple')应该被认为是相同的,并且计数应该是

(('apple', 'banana'), 2)
(('banana', 'banana'), 1)

我找不到一种Python的方式来执行此操作,不需要我去访问单词列表中的每个项目,这对于较大的文本来说效率很低。

我也很高兴将常见的scipy,numpy和pandas用作库。

2 个答案:

答案 0 :(得分:2)

有一些内置的解决方案。

word_pair_list映射到frozenset

word_pair_ctr = collections.Counter(map(frozenset, word_pair_list))

结果:

Counter({frozenset({'apple', 'banana'}): 2, frozenset({'banana'}): 1})

第二组可能看起来很奇怪,但这仅是因为组只包含一个相同的元素。检索仍然有效,即word_pair_ctr[frozenset(["banana", "banana"])]等于1。

您需要使用Frozenset而不是普通集,因为普通集不可散列,因此不能作为字典(或Counter)中的键。

在插入计数器之前对线对进行排序:

word_pair_ctr = collections.Counter(map(lambda x: tuple(sorted(x)), word_pair_list))

结果如下:

Counter({('apple', 'banana'): 2, ('banana', 'banana'): 1})

虽然看起来更好,但是您必须确保以相同的方式访问计数,即word_pair_ctr[tuple(sorted([word1, word2]))],这可能比以前的解决方案更加复杂。

子类计数器

第三个选择是创建自己的计数器类,为您完成所有这一切。

class BiDirectionalCounter(collections.Counter):
    def __init__(self, iterable):
        super().__init__(map(lambda x: tuple(sorted(x)), iterable))
    def __getitem__(self, items):
        return super().__getitem__(tuple(sorted(items)))

这貌似可行:

>>> BidirectionalCounter(word_pair_list)
BidirectionalCounter({('apple', 'banana'): 2, ('banana', 'banana'): 1})

但是要真正工作,您需要实现所有相关的 dunder 方法,即__setitem____add____iadd__,...

答案 1 :(得分:2)

您可以使用官方文档(https://docs.python.org/3.8/library/itertools.html)中成对函数的修改版本,以便按对读取列表,并同时对每对成员重新排序:

l = "apple banana banana apple".split()
def pairwise(iterable):
    """s -> (s0,s1), (s1,s2), (s2, s3), ..."""
    a, b = itertools.tee(iterable)
    next(b, None)
    return ((a, b) if a < b else (b, a) for a, b in zip(a, b))
>>> list(pairwise(l))
<class 'list'>: ['apple', 'banana', 'banana', 'apple']
>>> collections.Counter(pairwise(l))
Counter({('apple', 'banana'): 2, ('banana', 'banana'): 1})

希望这会有所帮助!