我正在使用Microsoft数据集进行恶意软件分类的项目。我已经获取了数据集的子集,即每个类的10个样本。我正在尝试使用bigrams作为神经网络的功能。但是在从多个文件中提取ngram时面临问题。
'def make_dict():
direc = "/content/drive/My Drive/DATA/"
files = os.listdir(direc)
doc = [direc + doc for doc in files]
grams = []
c = len(doc)
for dec in doc:
f = open(dec , encoding="utf8", errors='ignore')
text = f.read()
tokenized = text.split()
esBigrams = ngrams(tokenized, 2)
temp = list(esBigrams)
grams += temp
dictionary = collections.Counter(temp)
return dictionary.most_common(300)`
我正在调用函数make_dict。经过一段时间的处理后,它给出了一个DeprecationWarning错误:如果sys.path [0] =='',生成器'ngrams'引发StopIteration,并且内核死亡并给出内存错误。可能是其他可能的解决方案。
打印ngram列表后。Googlecolab显示错误。