Question

我能够抓取一些数据但我在包含四列，空列，三列的表格中将其格式化时出现问题。

library("methods")
library(rvest)

page <- read_html("https://www.galmarley.com/prices/CSV/AUX/USD/600/Full")
page
sources <- page %>%html_text()
as.data.frame(sources)

谢谢你的帮助。

Answer 1

因此对象source最终成为一个字符串，但幸运的是它的格式很好。在这种情况下，read.table可以很好地将其放入单个数据帧中。然后，您可以使用stringr::str_split_fixed拆分分隔列的逗号。

library(stringr)
df <- read.table(text = sources, sep = "\n")
df <- str_split_fixed(df$V1, pattern = ",", 9)
df <- as.data.frame(df)

Answer 2

您拥有的网站实际上不是一个页面，它是一个文档。只需在末尾添加.csv并阅读以下数据：

  read.csv("https://www.galmarley.com/prices/CSV/AUX/USD/600/Full.csv")

或者您可以直接阅读您拥有的内容：

 read.csv(text=sources)

R：在webscraping之后将数据解析到表中

2 个答案: