在文档和句子级别对文本进行分类(使用Quanteda和RTextTools)

时间:2017-09-20 08:45:16

标签: classification text-mining quanteda

我正在尝试弄清楚如何在我从LexisNexis下载的语料库中使用RTextTools应用文本分类。

我成功地使用Quanteda包将LexisNexis N html文件解析为文档特征矩阵,并使用RTextTools对这些文件中的文本进行分类。

但是,我不仅希望能够在文档级别上对这N个文本进行分类,还能在句子级别上进行分类。我想不出将这N个文档解析为由X个句子组成的dfm的方法。

此外,我想我的训练数据中的大多数句子都是无关紧要的,从此以后就没有了。 RTextTools如何处理我的测试数据中的无关句子?

0 个答案:

没有答案