读取具有不同语言的html节点并将其保存到R中的输出文件

时间:2016-02-28 12:34:39

标签: html r encoding latex

我正在从这个site读取html节点,以便从中创建一个tex文件。但是因为来自不同国家的名称和地点很多,我对编码有问题。我尝试过使用UTF-8编码,但似乎并不支持所有语言。也许在R中有一个函数可以将“ż”翻译成“z”和其他所有角色。我真的不需要它们就像它们一样,但由于它们,我无法编译我的tex文件。例如,从“EustachyKarolŻyliński”我收到了“Eustachy KarolĹ»yliĹ”ski“。此外,如果解决方案将是一个不同的编码,你也可以告诉我应该在TeX文件中实现哪些包。

阅读我正在使用的html节点

library(rvest) matematyk=LinkWlasciwy[j] %>% read_html() %>% html_nodes(selektor1) %>% html_text()

要创建我正在使用的输出文件:

write(sprintf("%s|%s|%s|%s\n",paste0(matematyk[1]),paste0(matematyk[2]),paste0(matematyk[3]),paste0(LinkWlasciwy[j])),file=nazwapliku1,append = TRUE)

这一切都在循环中,将节点h1和h3中的每一行信息保存到文件中。

1 个答案:

答案 0 :(得分:0)

library(stringi)
?stri_read_lines
?stri_write_lines

stringi是一个帮助R编码问题的库。在您的问题中,尤其是stri_write_lines应该有助于参数encoding(默认为UTF-8