用lxml和xpath解析

时间:2017-05-13 23:19:31

标签: python xpath lxml

我正在尝试解析网站的特定表格

在这个网站上,我需要在python上使用xlml和xpath获取列(名称和标题,职业,级别)。

到目前为止,我有这段代码:

import lxml.html
import requests
from lxml import html


url = "http://www.tibia.com/community/?subtopic=guilds&page=view&GuildName=Black%20Widow"
html = lxml.html.parse(url)
list = html.xpath("//table[@class='TableContent'][1]/tr/td[2]/text()")

list假设给我第一栏“姓名和头衔”的文字,但我收到的是一个满是'\xa0'的列表

我确实使用HTML agility pack在vb.net上制作了相同的代码,它运行顺畅,我可以在这里发布vb.net应用程序的代码,这样你就可以更好地看到我想要做的事情。

1 个答案:

答案 0 :(得分:0)

如果您需要从"Name and Title"列获取值,可以在XPath下方尝试:

//table[@class='TableContent']//td/a/text()

另请注意,您不应将"list"用作变量名称,因为它是Python内置类的名称