应用错误收集

我有3个西班牙语文件：

Elcaféestabueno pero caro。

¡estéestaligero pero bueno！

¿Lo bueno esta en el gusto？

我希望阅读它们并制作一个语料库

library(tm) 
txteje <- system.file("texts", "txteje", package = "tm") 
(ejem <- Corpus(DirSource(txteje),readerControl = list(language = "spa")))
#doc of tm advise to use ISO 639-2 codes
#however I do not read accents, as i get
inspect(ejem)
#I get
$eje_1.txt
    "El cafÃ© esta bueno pero caro."

$eje_2.txt
    "ï»¿    Â¡El thÃ© esta ligero pero bueno!"

$eje_3.txt
    "Â¿Lo bueno esta en el gusto?"

如何使用来自西班牙文件集合的tm库构建语料库

0 个答案: