应用错误收集

如何使用随机的非基本标记代码抓取网站？

时间：2019-03-08 03:28:46

标签： python web-scraping scrapy

为了澄清

继续阅读，了解我来自哪里：

我有0个网页抓取经验。
关于我的具体问题，我不知道Google可以做什么。
当我说非常规词时，我的意思是说它不是普通英语，并且它深深地埋在标记中。
我正在关注的教程（以及许多类似的教程）仅显示了网站为“普通英语”时如何抓取。

我的困境

我正在尝试删除reddit。我目前正在按照教程学习《权力的游戏》 subreddit。

这是我使用scrapy拉动请求时看到的代码（与网络浏览器的'inspect element确认相同）：

我正在阅读有关XML标记的内容，但是我很迷茫。

考虑到标题所在，是否有一种方法专门针对h2代码进行查找？我相信我可以接受这种意识形态，并将其应用于我正在寻找的任何其他元素...

0 个答案:

没有答案