使用nltk从多个asm文件创建双字母组

时间:2019-02-28 02:21:16

标签: python machine-learning nltk

我正在使用Microsoft数据集进行恶意软件分类的项目。我已经获取了数据集的子集,即每个类的10个样本。我正在尝试使用bigrams作为神经网络的功能。但是在从多个文件中提取ngram时面临问题。

'def make_dict():

direc = "/content/drive/My Drive/DATA/"
files = os.listdir(direc)
doc = [direc + doc for doc in files]
grams = []
c = len(doc)
for dec in doc:
    f = open(dec , encoding="utf8", errors='ignore')
    text = f.read()
    tokenized = text.split()
    esBigrams = ngrams(tokenized, 2)
    temp = list(esBigrams)
    grams += temp


dictionary = collections.Counter(temp)

return dictionary.most_common(300)`

我正在调用函数make_dict。经过一段时间的处理后,它给出了一个DeprecationWarning错误:如果sys.path [0] =='',生成器'ngrams'引发StopIteration,并且内核死亡并给出内存错误。可能是其他可能的解决方案。

打印ngram列表后。Googlecolab显示错误。

Error

0 个答案:

没有答案