这是我第一次尝试在python中使用web抓取来从网页中提取一些链接。 这个网页我有兴趣从以下网站获取一些数据:
http://www.hotstar.com/tv/bhojo-gobindo/14172/seasons/season-5
我有兴趣从上面的网页中提取所有关注的实例:
HREF = “/ TV / bhojo-gobindo / 14172 / gobinda-是-IN-A-固定/ 1000196352”
我写了以下正则表达式来提取上述类型链接的所有匹配项:
r"href=\"(\/tv\/bhojo-gobindo\/14172\/.*\/\d{10})\""
这是我编写的快速代码,试图提取所有正则表达式的mataches:
#!/usr/bin/python3
import re
import requests
url = "http://www.hotstar.com/tv/bhojo-gobindo/14172/seasons/season-5"
page = requests.get(url)
l = re.findall(r'href=\"(\/tv\/bhojo-gobindo\/14172\/.*\/\d{10})\"', page.text)
print(l)
当我运行上面的代码时,我得到以下输出:
./links2.py
[]
当我使用浏览器中的开发人员工具检查网页时,我可以看到此链接但是当我尝试提取我感兴趣的文本时(href =“/ tv / bhojo-gobindo / 14172 / gobinda-is-in- a-fix / 1000196352“)使用python3脚本我得不到匹配。
我是否正确下载网页,如何确保从我的脚本中获取所有webapage。我感觉我在使用请求获取网页时遗漏了网页的部分内容。
请帮忙。