我正在关注一些有关文本处理的在线教程。一个教程使用下面的代码读取许多.txt文件,并将它们放入一个大主体中。
corpus_raw = u""
for file_name in file_names:
with codecs.open(file_name, "r", "utf-8") as file_name:
corpus_raw += file_name.read()
print("Document is {0} characters long".format(len(corpus_raw)))
print()
...
然后他们继续处理数据:
tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
raw_sentences = tokenizer.tokenize(corpus_raw)
但是我拥有的文本数据在熊猫数据框中。我有几行是书,这些书的文本在一个单元格中。我发现了这个answer,但似乎无法将其用于我的数据。
我的熊猫df有一个名为“ IDLink”的“ ID”列和一个文本列“ text”。如何将我所有的文本数据放入一个大型语料库?将运行Word2Vec模型。
编辑:
这无法正常工作。我以为每行都会有一个标记词列表。
tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
risk['tokenized_documents'] = risk['text'].apply(tokenizer.tokenize)