我能够抓取一些数据但我在包含四列,空列,三列的表格中将其格式化时出现问题。
library("methods")
library(rvest)
page <- read_html("https://www.galmarley.com/prices/CSV/AUX/USD/600/Full")
page
sources <- page %>%html_text()
as.data.frame(sources)
谢谢你的帮助。
答案 0 :(得分:2)
因此对象source
最终成为一个字符串,但幸运的是它的格式很好。在这种情况下,read.table
可以很好地将其放入单个数据帧中。然后,您可以使用stringr::str_split_fixed
拆分分隔列的逗号。
library(stringr)
df <- read.table(text = sources, sep = "\n")
df <- str_split_fixed(df$V1, pattern = ",", 9)
df <- as.data.frame(df)
答案 1 :(得分:2)
您拥有的网站实际上不是一个页面,它是一个文档。只需在末尾添加.csv
并阅读以下数据:
read.csv("https://www.galmarley.com/prices/CSV/AUX/USD/600/Full.csv")
或者您可以直接阅读您拥有的内容:
read.csv(text=sources)