有人可以解释我:
#I am requesting data parsed from XML (console output)
> rss.title
[1] "Amerika je znepokojená expanziou Číny v Juhočínskom mori"
[2] "Pápež František označil palestínskeho prezidenta za anjela mieru"
[3] "Najlepšie reklamy Slovenska. Pozrite si výsledky súťaže Zlatý klinec 2015"
#checking class (console output)
> class(rss.title)
[1] "character"
#creating data.frame (console output)
data.frame(rss.title)
1 Amerika je znepokojená expanziou Cíny v Juhocínskom mori
2 Pápež František oznacil palestínskeho prezidenta za anjela mieru
3 Najlepšie reklamy Slovenska. Pozrite si výsledky sútaže Zlatý klinec 2015
为什么我在这里丢失标点符号? Číny与Cíny......
为什么数据显示在环境变量窗口的网格视图中如下?
1 Amerika je znepokojen� expanziou C�ny v Juhoc�nskom mori
2 P�pe� Franti�ek oznacil palest�nskeho prezidenta za anjela mieru
3 Najlep�ie reklamy Slovenska. Pozrite si v�sledky s�ta�e Zlat� klinec 2015
我建议一些编码问题,但不知道在哪里解决这个问题。
感谢您的帮助。
更新
#setup
url <- "http://hnonline.sk/rss/1"
#encoding (svk encoding types http://luki.sdf-eu.org/txt/cs-encodings-faq.html)
#encod <- "ISO_8859-2"
#encod <- "latin1"
#encod <- "latin2"
encod <- "UTF-8"
rssFeedContent = xmlTreeParse(url, useInternalNodes = TRUE, encoding = encod)
rssItems <- xmlToDataFrame(nodes = getNodeSet(xmlRoot(rssFeedContent),
"//channel//item",
#sessionEncoding = encod
),
colClasses = c("character", "character", "character", "character", "character"),
homogeneous=TRUE)
问题是,我无法找到正确的编码来显示斯洛伐克语的所有特殊字符(请参阅:svk编码类型http://luki.sdf-eu.org/txt/cs-encodings-faq.html)。目前,一些特殊字符显示为