Question

这是我第一次尝试在python中使用web抓取来从网页中提取一些链接。这个网页我有兴趣从以下网站获取一些数据：

http://www.hotstar.com/tv/bhojo-gobindo/14172/seasons/season-5

我有兴趣从上面的网页中提取所有关注的实例：

HREF = “/ TV / bhojo-gobindo / 14172 / gobinda-是-IN-A-固定/ 1000196352”

我写了以下正则表达式来提取上述类型链接的所有匹配项：

r"href=\"(\/tv\/bhojo-gobindo\/14172\/.*\/\d{10})\""

这是我编写的快速代码，试图提取所有正则表达式的mataches：

  #!/usr/bin/python3
  import re
  import requests

  url = "http://www.hotstar.com/tv/bhojo-gobindo/14172/seasons/season-5"

  page = requests.get(url)
  l = re.findall(r'href=\"(\/tv\/bhojo-gobindo\/14172\/.*\/\d{10})\"', page.text)
  print(l)

当我运行上面的代码时，我得到以下输出：

./links2.py  
[]

当我使用浏览器中的开发人员工具检查网页时，我可以看到此链接但是当我尝试提取我感兴趣的文本时（href =“/ tv / bhojo-gobindo / 14172 / gobinda-is-in- a-fix / 1000196352“）使用python3脚本我得不到匹配。

我是否正确下载网页，如何确保从我的脚本中获取所有webapage。我感觉我在使用请求获取网页时遗漏了网页的部分内容。

请帮忙。

使用python3进行新手webscraping

0 个答案: