我正在尝试解析一些HTML,我想检索标签之间的实际html,但我的代码却给了我相信元素的位置。
到目前为止,这是我的代码:
import urllib.request, http.cookiejar
from lxml import etree
import io
site = "http://somewebsite.com"
cj = http.cookiejar.CookieJar()
request = urllib.request.Request(site)
opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
request.add_header('User-agent', 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:17.0) Gecko/20100101 Firefox/17.0')
html = etree.HTML(opener.open(request).read())
xpath = "//li[1]//cite[1]"
filtered_html = html.xpath(xpath)
print(filtered_html)
这是一段html:
<div class="f kv">
<cite>
www.
<b>hello</b>
online.com/
</cite>
<span class="vshid">
</div>
目前我的代码返回:
[<Element cite at 0x36a65e8>, <Element cite at 0x36a6510>, <Element cite at 0x36a64c8>]
如何在引用标记之间提取实际的html代码?如果我将“/ text()”添加到我的xpath的末尾,它会让我更接近,但它会遗漏b标签中的内容。我的最终目标是让我的代码给我“www.helloonline.com /".
谢谢
答案 0 :(得分:2)
使用//text()
从给定位置获取所有文本元素:
text = filtered_html.xpath('//text()')
print ''.join(t.strip() for t in text) # prints "www.helloonline.com/"