如何从python页面上的“Inspect元素”获取链接?

时间:2015-03-26 16:01:15

标签: python selenium web screen-scraping

我需要从网页上获取视频链接。我点击inspect元素然后转到Network选项卡,我看到了一个我需要获得的链接......但是如何通过python访问这个链接?

这是情况: http://i.imgur.com/DS811BW.jpg?1

链接位于标题中:

http://i.imgur.com/5C2vKje.jpg

我只需要链接,我不需要下载视频。

最佳路径是什么?也许是Selenium?

2 个答案:

答案 0 :(得分:1)

Selenium会起作用,是的。你想要做的就是找到DOM中的元素来吸引它。在你走这条路之前,你应该试着找出你手动后的元素。您可能在视频标记及其子源标记之后。

HTML 5视频代码文档:http://www.w3schools.com/tags/tag_video.asp

Selenium选择器文档:https://selenium-python.readthedocs.org/locating-elements.html

答案 1 :(得分:0)

您只需要执行HTTP请求即可获取该页面,然后通过响应获取该URL。您需要定义XPath并使用lxml来获取URL。类似的事情(这只是一个例子,可能不会直接发挥作用):

import lxml.html as parser
import requests

path = <define the XPATH>
url = <your url>

data = do_request(url)
if data:
    doc = parser.fromstring(data) 
    url_res = doc.xpath(path) #the url from the webpage

#do_requests() example
def do_request(url):
    r = requests.get(url)
    return r.text if r.status_code == 200 else None