R readlines()字体问题

时间:2014-08-13 15:18:41

标签: xml r readlines

我使用以下代码从网站获取文字

readLines("http://www.mijnwoordenboek.nl/duits/synoniemen/abartig")[181]

它读取了提到的“böse”网址上的第一个同义词,但它应该是“böse”。 帮我解决这个问题。提前致谢。

2 个答案:

答案 0 :(得分:1)

试试这个:

readLines("http://www.mijnwoordenboek.nl/duits/synoniemen/abartig", encoding="UTF-8")[181]

在网页的html中,有一行说明charset是" UTF-8":

<meta charset="UTF-8">

您必须在readLines

中手动指定此参数

答案 1 :(得分:0)

首先,检查您的R设置。

options()$encoding

我正在运行OSX,你的例子对我来说很好。 如果您的编码不是UTF-8,请按

进行更改

如果您正在使用R studio,

https://support.rstudio.com/hc/en-us/articles/200532197-Character-Encoding

或功能

 enc2utf8(yourstring)