文本从数据框变成大语料库

时间:2019-07-12 17:06:26

标签: python python-3.x pandas dataframe

我正在关注一些有关文本处理的在线教程。一个教程使用下面的代码读取许多.txt文件,并将它们放入一个大主体中。

corpus_raw = u""
for file_name in file_names:
    with codecs.open(file_name, "r", "utf-8") as file_name:
        corpus_raw += file_name.read()
    print("Document is {0} characters long".format(len(corpus_raw)))
    print()

...

然后他们继续处理数据:

tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
raw_sentences = tokenizer.tokenize(corpus_raw)

但是我拥有的文本数据在熊猫数据框中。我有几行是书,这些书的文本在一个单元格中。我发现了这个answer,但似乎无法将其用于我的数据。

我的熊猫df有一个名为“ IDLink”的“ ID”列和一个文本列“ text”。如何将我所有的文本数据放入一个大型语料库?将运行Word2Vec模型。

编辑:

这无法正常工作。我以为每行都会有一个标记词列表。

tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
risk['tokenized_documents'] = risk['text'].apply(tokenizer.tokenize)

0 个答案:

没有答案