使用python3进行新手webscraping

时间:2018-03-09 10:59:51

标签: python-3.x python-requests

这是我第一次尝试在python中使用web抓取来从网页中提取一些链接。 这个网页我有兴趣从以下网站获取一些数据:

  

http://www.hotstar.com/tv/bhojo-gobindo/14172/seasons/season-5

我有兴趣从上面的网页中提取所有关注的实例:

  

HREF = “/ TV / bhojo-gobindo / 14172 / gobinda-是-IN-A-固定/ 1000196352”

我写了以下正则表达式来提取上述类型链接的所有匹配项:

r"href=\"(\/tv\/bhojo-gobindo\/14172\/.*\/\d{10})\""

这是我编写的快速代码,试图提取所有正则表达式的mataches:

  #!/usr/bin/python3
  import re
  import requests

  url = "http://www.hotstar.com/tv/bhojo-gobindo/14172/seasons/season-5"

  page = requests.get(url)
  l = re.findall(r'href=\"(\/tv\/bhojo-gobindo\/14172\/.*\/\d{10})\"', page.text)
  print(l)

当我运行上面的代码时,我得到以下输出:

./links2.py  
[]

当我使用浏览器中的开发人员工具检查网页时,我可以看到此链接但是当我尝试提取我感兴趣的文本时(href =“/ tv / bhojo-gobindo / 14172 / gobinda-is-in- a-fix / 1000196352“)使用python3脚本我得不到匹配。

我是否正确下载网页,如何确保从我的脚本中获取所有webapage。我感觉我在使用请求获取网页时遗漏了网页的部分内容。

请帮忙。

0 个答案:

没有答案