如何在python中提取高频短语

时间:2015-12-01 02:39:24

标签: python frequency frequency-analysis word-frequency

这是语料库

mov eax, buffer
mov al, [eax]

我要提取的是abcdef abcd xabcd b bcef ef aef abcd,然后我尝试计算所有n-gram:

ef

我的问题是如何区分abcdef 1 abcd 3 abc 3 ... abcdabcdef,因为abc只出现一次,而abcdef是&的子字符串#39; ABCD&#39 ;.当然,我可以用这两个条件进行过滤,但只是想知道解决这个问题的任何现有算法目标,还是python中的包?

更新

我知道如何在python中计算n-gram,所以我的问题更多的是如何区分abcabcdabcdef而不是如何计算。但是如果你知道任何以解决这个NLP问题为目标的python包,那么很高兴知道:)

1 个答案:

答案 0 :(得分:0)

将此问题中的字母视为POS的标签。鉴于已经解析为POS的句子,这可以被认为是语法提取问题。

我不确定NLTKPython中的其他图书馆是否处理此问题。但我认为你可以自己搜索文献并实现简单的提取。

希望这有帮助。