使用TM清理CSV文件后如何保留表结构?

时间:2013-12-03 17:12:09

标签: r csv text tm mining

我需要帮助TM完成一项任务。我有一个包含~300行和42个变量的csv文件,其中一些变量具有NA值。在将数据加载到NLP应用程序之前,我想使用TM来清理此文件。具体来说,我想删除停用词,数字和标点符号。可能不需要词干。最后五列主要是需要清理的列。重要的是,NLP应用程序允许输入作为表格,这就是我希望输入结构化的方式。

理想情况下,我想使用TM将数据框转换为语料库,执行清理,然后将清理后的文本数据返回到csv文件的结构,以用作NLP应用程序的输入。 / p>

我正在测试我在较小的csv文件中使用文本数据执行此任务的能力。这是7行乘42个变量。

使用RStudio,我做了以下

  

Tiz.corpus< - Corpus(DataframeSource(Tiz))

     

检查(Tiz.corpus)   包含7个文本文档的语料库

元数据由2个标签值对和一个数据框组成 可用标签是:   create_date创建者 数据框中的可用变量是:   MetaID

...

此时我做了以下事情......

Tiz.corpus <- tm_map(Tiz.corpus, tolower)  # Make lowercase
Tiz.corpus <- tm_map(Tiz.corpus, removePunctuation, preserve_intra_word_dashes = TRUE)
Tiz.corpus <- tm_map(Tiz.corpus, removeWords, stopwords("english"))  # Remove stopwords

到目前为止一切顺利。然后我试了......

writeCorpus(Tiz.corpus) 

我得到的是以下是包含这样内容的7份文件......

132884
2
2
2
1
2
na
na
na
3
3
3
2
na
na
na
na
na
na
na
2
1
na
na
2
2
2
2
2
2
2
2
2
2
2
2
na
2
7
4
3
2

我不知道此时该怎么做才能恢复我的文本数据并将其放在原始csv文件的结构中。

TM是否是这项工作的错误工具?

0 个答案:

没有答案