扫描网页并仅获取视频嵌入网址

时间:2013-12-03 05:11:40

标签: python beautifulsoup

我在PHP上有一个搜索引擎已经索引了一些电影网站。现在我想在给定的网页网址上获取视频嵌入网址。并把它放在一个iframe中。我怎么得到它?用python?并将其集成到PHP中?但是我如何将网址从php传递给python并使用beautifulsoup?

这是我现在正在尝试的事情

import BeautifulSoup

html = '''http://www.kumby.com/avatar-the-last-airbender-book-3-chapter-5/'''
soup = BeautifulSoup.BeautifulSoup(html)

我用谷歌搜索了,但是没有找到任何关于此的好信息(可能是因为我不知道这是什么叫搜索),有没有人有这方面的经验并知道如何做到这一点? / p>

谢谢!

2 个答案:

答案 0 :(得分:3)

from bs4 import BeautifulSoup

html = "http://www.kumby.com/avatar-the-last-airbender-book-3-chapter-5/"
soup = BeautifulSoup(html)
l = soup.findall("embed","object","param","video")
for i in l:
  print i.string

答案 1 :(得分:2)

您需要抓取网页并找到以下标记并获取视频链接。你不需要python来做它。

<embed> 
<object>    
<param> 
<audio>
<video>
<source>(<video> and <audio>)
<track> (<video> and <audio>)

我做了一个小小的黑客来抓取网页上的所有链接,请参阅此sample