刮取HTML文字文件

时间:2018-07-18 22:52:04

标签: python html web-scraping

我需要通过网络抓取特定网站,但不允许进行网络抓取(403错误)。我正在考虑复制所需的网站html数据并将其放入txt文档中,在其中我可以像抓取网页一样将其抓取。这有可能做到吗?或者有更好的解决方法吗?

1 个答案:

答案 0 :(得分:0)

如果您使用linux / unix,则可以使用wget / curl下载该网页。这会将html源代码复制到您的根目录中的文件中。例如,您可以使用

library(dplyr)
library(ggplot2)

df %>% group_by(category) %>% mutate(Ysum = cumsum(Y)) %>% 
  ggplot(aes(x = X, y = Ysum, colour = category))+geom_line()

获取此网页的源代码。

要处理此问题并删除某些标签,可以使用vim / nano将以下内容复制到新文件中,并使用wget https://stackoverflow.com/questions/51412042/scraping-a-html-text-document (在执行chmod + x filename之后)运行它。您还可以添加其他sed命令来摆脱其他标签。

./script.sh filename