Question

我开始用Python编程，并且已经阅读了几篇帖子，他们说我应该使用HTML解析器从文本中获取URL而不是重新编写。

我有来自page.read() urllib和urlopen的源代码。

现在，我的问题是解析器正在从文本中删除url部分。

另外，如果我已正确阅读，var = page.read()，var会被存储为字符串吗？

我怎么能告诉它给我2个“标签”之间的文字？该网址始终位于flv=和;之间，因此它不会以解析器所查找的href开头，并且不包含{{1}或者。

我已阅读了很多帖子，但似乎他们都在代码中寻找``href。

我完全错了吗？

谢谢！

Answer 1

您可以考虑实施自己的搜索/抓取。在伪代码中，它看起来有点像这样：

find location of 'flv=' in HTML = location_start
find location of ';' in HTML = location_end
grab everything in between:   HTML[location_start : location_end]

你应该能够在python中实现它。

祝你好运！

如何在Python中使用“html书写”URL解析HTML代码？

1 个答案: