我需要通过网络抓取特定网站,但不允许进行网络抓取(403错误)。我正在考虑复制所需的网站html数据并将其放入txt文档中,在其中我可以像抓取网页一样将其抓取。这有可能做到吗?或者有更好的解决方法吗?
答案 0 :(得分:0)
如果您使用linux / unix,则可以使用wget / curl下载该网页。这会将html源代码复制到您的根目录中的文件中。例如,您可以使用
library(dplyr)
library(ggplot2)
df %>% group_by(category) %>% mutate(Ysum = cumsum(Y)) %>%
ggplot(aes(x = X, y = Ysum, colour = category))+geom_line()
获取此网页的源代码。
要处理此问题并删除某些标签,可以使用vim / nano将以下内容复制到新文件中,并使用wget https://stackoverflow.com/questions/51412042/scraping-a-html-text-document
(在执行chmod + x filename之后)运行它。您还可以添加其他sed命令来摆脱其他标签。
./script.sh filename