Question

这是语料库

mov eax, buffer
mov al, [eax]

我要提取的是abcdef abcd xabcd b bcef ef aef，abcd，然后我尝试计算所有n-gram：

ef

我的问题是如何区分abcdef 1 abcd 3 abc 3 ...与abcd和abcdef，因为abc只出现一次，而abcdef是＆的子字符串＃39; ABCD＆＃39 ;.当然，我可以用这两个条件进行过滤，但只是想知道解决这个问题的任何现有算法目标，还是python中的包？

更新

我知道如何在python中计算n-gram，所以我的问题更多的是如何区分abc与abcd和abcdef而不是如何计算。但是如果你知道任何以解决这个NLP问题为目标的python包，那么很高兴知道：）

Answer 1

将此问题中的字母视为POS的标签。鉴于已经解析为POS的句子，这可以被认为是语法提取问题。

我不确定NLTK或Python中的其他图书馆是否处理此问题。但我认为你可以自己搜索文献并实现简单的提取。

希望这有帮助。