R:在webscraping之后将数据解析到表中

时间:2018-04-19 20:45:13

标签: r web-scraping rvest

我能够抓取一些数据但我在包含四列,空列,三列的表格中将其格式化时出现问题。

library("methods")
library(rvest)

page <- read_html("https://www.galmarley.com/prices/CSV/AUX/USD/600/Full")
page
sources <- page %>%html_text()
as.data.frame(sources)

谢谢你的帮助。

2 个答案:

答案 0 :(得分:2)

因此对象source最终成为一个字符串,但幸运的是它的格式很好。在这种情况下,read.table可以很好地将其放入单个数据帧中。然后,您可以使用stringr::str_split_fixed拆分分隔列的逗号。

library(stringr)
df <- read.table(text = sources, sep = "\n")
df <- str_split_fixed(df$V1, pattern = ",", 9)
df <- as.data.frame(df)

答案 1 :(得分:2)

您拥有的网站实际上不是一个页面,它是一个文档。只需在末尾添加.csv并阅读以下数据:

  read.csv("https://www.galmarley.com/prices/CSV/AUX/USD/600/Full.csv")

或者您可以直接阅读您拥有的内容:

 read.csv(text=sources)