我有3个西班牙语文件:
Elcaféestabueno pero caro。
¡estéestaligero pero bueno!
¿Lo bueno esta en el gusto?
我希望阅读它们并制作一个语料库
library(tm)
txteje <- system.file("texts", "txteje", package = "tm")
(ejem <- Corpus(DirSource(txteje),readerControl = list(language = "spa")))
#doc of tm advise to use ISO 639-2 codes
#however I do not read accents, as i get
inspect(ejem)
#I get
$eje_1.txt
"El café esta bueno pero caro."
$eje_2.txt
" ¡El thé esta ligero pero bueno!"
$eje_3.txt
"¿Lo bueno esta en el gusto?"