将数据转换为data.frame后丢失标点符号/编码

时间:2015-05-16 14:44:44

标签: r encoding dataframe

有人可以解释我:

#I am requesting data parsed from XML (console output)
> rss.title
[1] "Amerika je znepokojená expanziou Číny v Juhočínskom mori"                             
[2] "Pápež František označil palestínskeho prezidenta za anjela mieru"                     
[3] "Najlepšie reklamy Slovenska. Pozrite si výsledky súťaže Zlatý klinec 2015" 

#checking class (console output)
> class(rss.title)
[1] "character"

#creating data.frame (console output)
data.frame(rss.title)
1  Amerika je znepokojená expanziou Cíny v Juhocínskom mori
2  Pápež František oznacil palestínskeho prezidenta za anjela mieru
3  Najlepšie reklamy Slovenska. Pozrite si výsledky sútaže Zlatý klinec 2015

为什么我在这里丢失标点符号? Číny与Cíny......

为什么数据显示在环境变量窗口的网格视图中如下?

1   Amerika je znepokojen� expanziou C�ny v Juhoc�nskom mori
2   P�pe� Franti�ek oznacil palest�nskeho prezidenta za anjela mieru
3   Najlep�ie reklamy Slovenska. Pozrite si v�sledky s�ta�e Zlat� klinec 2015

我建议一些编码问题,但不知道在哪里解决这个问题。

感谢您的帮助。

更新

#setup
url <- "http://hnonline.sk/rss/1"

#encoding (svk encoding types http://luki.sdf-eu.org/txt/cs-encodings-faq.html)
#encod <- "ISO_8859-2"
#encod <- "latin1"
#encod <- "latin2"
encod <- "UTF-8"

rssFeedContent = xmlTreeParse(url, useInternalNodes = TRUE, encoding = encod)
rssItems <- xmlToDataFrame(nodes = getNodeSet(xmlRoot(rssFeedContent), 
                                              "//channel//item", 
                                              #sessionEncoding = encod
                                              ), 
                           colClasses = c("character", "character", "character", "character", "character"),
                           homogeneous=TRUE)

问题是,我无法找到正确的编码来显示斯洛伐克语的所有特殊字符(请参阅:svk编码类型http://luki.sdf-eu.org/txt/cs-encodings-faq.html)。目前,一些特殊字符显示为

0 个答案:

没有答案