Question

我正在尝试使用readHTMLTable从HTML网站获取一些数据。

网页包含一些中文utf-8代码，所以它通常会给我一些错误。

首先尝试：

u = "http://app.finance.ifeng.com/hq/stock_daily.php?code=sh600030"
url = htmlParse(u)
tbls = readHTMLTable(u,asText= TRUE)

dat <- data.frame(tbls)

错误：make.names出错（vnames，unique = TRUE）：无效的多字节字符串5

Answer 1

解决方案是在我的例子中将参数encoding = "UTF-8"添加到这些函数或连接中。更一般地，在解析之前提供默认编码或钩子可能是更强大的解决方案。

url = htmlParse（baseURL，encoding =＆＃34; GB2312＆＃34;）表= readHTMLTable（URL，标题=，其中= 1时，编码=＆＃34; UTF-8＆＃34）