Question

我正在从这个site读取html节点，以便从中创建一个tex文件。但是因为来自不同国家的名称和地点很多，我对编码有问题。我尝试过使用UTF-8编码，但似乎并不支持所有语言。也许在R中有一个函数可以将“ż”翻译成“z”和其他所有角色。我真的不需要它们就像它们一样，但由于它们，我无法编译我的tex文件。例如，从“EustachyKarolŻyliński”我收到了“Eustachy KarolĹ»yliĹ”ski“。此外，如果解决方案将是一个不同的编码，你也可以告诉我应该在TeX文件中实现哪些包。

阅读我正在使用的html节点

library(rvest) matematyk=LinkWlasciwy[j] %>% read_html() %>% html_nodes(selektor1) %>% html_text()

要创建我正在使用的输出文件：

write(sprintf("%s|%s|%s|%s\n",paste0(matematyk[1]),paste0(matematyk[2]),paste0(matematyk[3]),paste0(LinkWlasciwy[j])),file=nazwapliku1,append = TRUE)

这一切都在循环中，将节点h1和h3中的每一行信息保存到文件中。

Answer 1

library(stringi)
?stri_read_lines
?stri_write_lines

stringi是一个帮助R编码问题的库。在您的问题中，尤其是stri_write_lines应该有助于参数encoding（默认为UTF-8）

读取具有不同语言的html节点并将其保存到R中的输出文件

1 个答案: