如何使用随机的非基本标记代码抓取网站?

时间:2019-03-08 03:28:46

标签: python web-scraping scrapy

为了澄清

继续阅读,了解我来自哪里:

  1. 我有0个网页抓取经验。
  2. 关于我的具体问题,我不知道Google可以做什么。
  3. 当我说非常规词时,我的意思是说它不是普通英语,并且它深深地埋在标记中。
  4. 我正在关注的教程(以及许多类似的教程)仅显示了网站为“普通英语”时如何抓取。

我的困境

我正在尝试删除reddit。我目前正在按照教程学习《权力的游戏》 subreddit。

这是我使用scrapy拉动请求时看到的代码(与网络浏览器的'inspect element确认相同):

Scrapy Code Pull

我正在阅读有关XML标记的内容,但是我很迷茫。

考虑到标题所在,是否有一种方法专门针对h2代码进行查找?我相信我可以接受这种意识形态,并将其应用于我正在寻找的任何其他元素...

0 个答案:

没有答案