Question

我需要帮助TM完成一项任务。我有一个包含~300行和42个变量的csv文件，其中一些变量具有NA值。在将数据加载到NLP应用程序之前，我想使用TM来清理此文件。具体来说，我想删除停用词，数字和标点符号。可能不需要词干。最后五列主要是需要清理的列。重要的是，NLP应用程序允许输入作为表格，这就是我希望输入结构化的方式。

理想情况下，我想使用TM将数据框转换为语料库，执行清理，然后将清理后的文本数据返回到csv文件的结构，以用作NLP应用程序的输入。 / p>

我正在测试我在较小的csv文件中使用文本数据执行此任务的能力。这是7行乘42个变量。

使用RStudio，我做了以下

Tiz.corpus＆lt; - Corpus（DataframeSource（Tiz））

检查（Tiz.corpus）   包含7个文本文档的语料库

元数据由2个标签值对和一个数据框组成可用标签是： create_date创建者数据框中的可用变量是： MetaID

...

此时我做了以下事情......

Tiz.corpus <- tm_map(Tiz.corpus, tolower)  # Make lowercase
Tiz.corpus <- tm_map(Tiz.corpus, removePunctuation, preserve_intra_word_dashes = TRUE)
Tiz.corpus <- tm_map(Tiz.corpus, removeWords, stopwords("english"))  # Remove stopwords

到目前为止一切顺利。然后我试了......

writeCorpus(Tiz.corpus)

我得到的是以下是包含这样内容的7份文件......

132884
2
2
2
1
2
na
na
na
3
3
3
2
na
na
na
na
na
na
na
2
1
na
na
2
2
2
2
2
2
2
2
2
2
2
2
na
2
7
4
3
2

我不知道此时该怎么做才能恢复我的文本数据并将其放在原始csv文件的结构中。

TM是否是这项工作的错误工具？

何

使用TM清理CSV文件后如何保留表结构？

0 个答案: