如何在Python中使用“html书写”URL解析HTML代码?

时间:2013-03-24 20:04:14

标签: python html parsing

我开始用Python编程,并且已经阅读了几篇帖子,他们说我应该使用HTML解析器从文本中获取URL而不是重新编写。

我有来自page.read() urlliburlopen的源代码。

现在,我的问题是解析器正在从文本中删除url部分。

另外,如果我已正确阅读,var = page.read()var会被存储为字符串吗?

我怎么能告诉它给我2个“标签”之间的文字?该网址始终位于flv=;之间,因此它不会以解析器所查找的href开头,并且不包含{{1}或者。

我已阅读了很多帖子,但似乎他们都在代码中寻找``href。

我完全错了吗?

谢谢!

1 个答案:

答案 0 :(得分:0)

您可以考虑实施自己的搜索/抓取。在伪代码中,它看起来有点像这样:

find location of 'flv=' in HTML = location_start
find location of ';' in HTML = location_end
grab everything in between:   HTML[location_start : location_end]

你应该能够在python中实现它。

祝你好运!