我需要帮助TM完成一项任务。我有一个包含~300行和42个变量的csv文件,其中一些变量具有NA值。在将数据加载到NLP应用程序之前,我想使用TM来清理此文件。具体来说,我想删除停用词,数字和标点符号。可能不需要词干。最后五列主要是需要清理的列。重要的是,NLP应用程序允许输入作为表格,这就是我希望输入结构化的方式。
理想情况下,我想使用TM将数据框转换为语料库,执行清理,然后将清理后的文本数据返回到csv文件的结构,以用作NLP应用程序的输入。 / p>
我正在测试我在较小的csv文件中使用文本数据执行此任务的能力。这是7行乘42个变量。
使用RStudio,我做了以下
Tiz.corpus< - Corpus(DataframeSource(Tiz))
检查(Tiz.corpus) 包含7个文本文档的语料库
元数据由2个标签值对和一个数据框组成 可用标签是: create_date创建者 数据框中的可用变量是: MetaID
...
此时我做了以下事情......
Tiz.corpus <- tm_map(Tiz.corpus, tolower) # Make lowercase
Tiz.corpus <- tm_map(Tiz.corpus, removePunctuation, preserve_intra_word_dashes = TRUE)
Tiz.corpus <- tm_map(Tiz.corpus, removeWords, stopwords("english")) # Remove stopwords
到目前为止一切顺利。然后我试了......
writeCorpus(Tiz.corpus)
我得到的是以下是包含这样内容的7份文件......
132884
2
2
2
1
2
na
na
na
3
3
3
2
na
na
na
na
na
na
na
2
1
na
na
2
2
2
2
2
2
2
2
2
2
2
2
na
2
7
4
3
2
我不知道此时该怎么做才能恢复我的文本数据并将其放在原始csv文件的结构中。
TM是否是这项工作的错误工具?
何