我想从网址(链接)中提取字符串。该字符串位于<h3></h3>
标记中。
link = http://www.test.com/page.html
Content of link: <h3>Text here</h3>
首先获取page.html的内容/源代码然后提取链接的优雅方法是什么? 谢谢!
答案 0 :(得分:2)
我建议Beatiful Soup。对于拙劣的HTML页面来说,这是一个很好的解析器(在大多数情况下,你不必担心页面格式不正确)。
答案 1 :(得分:1)
答案 2 :(得分:1)
import urllib2
url="http://www.test.com/page.html"
page=urllib2.urlopen(url)
data=page.read()
for item in data.split("</h3>"):
if "<h3>" in item:
print item.split("<h3>")[1]
答案 3 :(得分:-1)
如果您想要的文字是仅 <h3>
- 包装在网页上的文字,请尝试:
from urllib2 import urlopen
from re import search
text = search(r'(?<=<h3>).+?(?=</h3>)', urlopen(link).read()).group(0)
如果有多个<h3>
- 包裹的字符串,您可以将更多详细信息放入模式中,或使用re.finditer()
/ re.findall()