我有这个HTML代码:
<table>
<tr>
<td class="test"><b><a href="">aaa</a></b></td>
<td class="test">bbb</td>
<td class="test">ccc</td>
<td class="test"><small>ddd</small></td>
</tr>
<tr>
<td class="test"><b><a href="">eee</a></b></td>
<td class="test">fff</td>
<td class="test">ggg</td>
<td class="test"><small>hhh</small></td>
</tr>
</table>
我使用此Python代码通过lxml模块提取所有<td class="test">
。
import urllib2
import lxml.html
code = urllib.urlopen("http://www.example.com/page.html").read()
html = lxml.html.fromstring(code)
result = html.xpath('//td[@class="test"][position() = 1 or position() = 4]')
效果很好!结果是:
<td class="test"><b><a href="">aaa</a></b></td>
<td class="test"><small>ddd</small></td>
<td class="test"><b><a href="">eee</a></b></td>
<td class="test"><small>hhh</small></td>
(所以每个<tr>
的第一列和第四列)
现在,我必须提取:
aaa (链接标题)
ddd (
<small>
代码之间的文字)eee (链接标题)
hhh (
<small>
代码之间的文字)
我如何提取这些值?
(问题是我必须删除<b>
代码并在第一列上获取锚点的标题并删除第四列上的<small>
代码。
谢谢!
答案 0 :(得分:8)
如果你做el.text_content()
,你将从每个元素中删除所有标记内容,即:
result = [el.text_content() for el in result]
答案 1 :(得分:4)
为什么不在每一步中获取你想要的东西?
links = [el.text for el in html.xpath('//td[@class="test"][position() = 1]/b/a')]
smalls = [el.text for el in html.xpath('//td[@class="test"][position() = 4]/small')]
print zip(links, smalls)
# => [('aaa', 'ddd'), ('eee', 'hhh')]