Question

我需要通过网络抓取特定网站，但不允许进行网络抓取（403错误）。我正在考虑复制所需的网站html数据并将其放入txt文档中，在其中我可以像抓取网页一样将其抓取。这有可能做到吗？或者有更好的解决方法吗？

Answer 1

如果您使用linux / unix，则可以使用wget / curl下载该网页。这会将html源代码复制到您的根目录中的文件中。例如，您可以使用

library(dplyr)
library(ggplot2)

df %>% group_by(category) %>% mutate(Ysum = cumsum(Y)) %>% 
  ggplot(aes(x = X, y = Ysum, colour = category))+geom_line()

获取此网页的源代码。

要处理此问题并删除某些标签，可以使用vim / nano将以下内容复制到新文件中，并使用wget https://stackoverflow.com/questions/51412042/scraping-a-html-text-document（在执行chmod + x filename之后）运行它。您还可以添加其他sed命令来摆脱其他标签。

./script.sh filename

刮取HTML文字文件

1 个答案: