我开始用Python编程,并且已经阅读了几篇帖子,他们说我应该使用HTML解析器从文本中获取URL而不是重新编写。
我有来自page.read()
urllib
和urlopen
的源代码。
现在,我的问题是解析器正在从文本中删除url部分。
另外,如果我已正确阅读,var = page.read()
,var
会被存储为字符串吗?
我怎么能告诉它给我2个“标签”之间的文字?该网址始终位于flv=
和;
之间,因此它不会以解析器所查找的href
开头,并且不包含{{1}或者。
我已阅读了很多帖子,但似乎他们都在代码中寻找``href。
我完全错了吗?
谢谢!
答案 0 :(得分:0)
您可以考虑实施自己的搜索/抓取。在伪代码中,它看起来有点像这样:
find location of 'flv=' in HTML = location_start
find location of ';' in HTML = location_end
grab everything in between: HTML[location_start : location_end]
你应该能够在python中实现它。
祝你好运!