如何使用来自西班牙文件集合的tm库构建语料库

时间:2013-04-13 03:50:38

标签: r tm

我有3个西班牙语文件:

  

Elcaféestabueno pero caro。

     

¡estéestaligero pero bueno!

     

¿Lo bueno esta en el gusto?

我希望阅读它们并制作一个语料库

library(tm) 
txteje <- system.file("texts", "txteje", package = "tm") 
(ejem <- Corpus(DirSource(txteje),readerControl = list(language = "spa")))
#doc of tm advise to use ISO 639-2 codes
#however I do not read accents, as i get
inspect(ejem)
#I get
$eje_1.txt
    "El café esta bueno pero caro."

$eje_2.txt
    "    ¡El thé esta ligero pero bueno!"

$eje_3.txt
    "¿Lo bueno esta en el gusto?"

0 个答案:

没有答案