请求被新段落停止

时间:2015-10-27 16:11:51

标签: python html request screen-scraping

我从网站上抓取数据有以下问题,返回的文本被

截断
  <p> blabla </p> 

在源代码中。 如何获得在AND之前将文本返回给我的请求?

代码:

from lxml import html
import requests

page = requests.get('http://sitetoscrape.com')
tree = html.fromstring(page.text)

#Mitglieder
members = tree.xpath('//div[@class="details"]/text()')

print 'Mitglieder: ', members

例如: 在HTML中:

<div class="details">Altherr Hans<br /><br />
Kanton Appenzell A.-Rh.<p>FDP-Liberale Fraktion (RL)<br />
FDP.Die  Liberalen (FDP-Liberale) </p>

我从上面的代码中得到了什么:

'Altherr Hans', '\r\n 
Kanton Appenzell A.-Rh.',

1 个答案:

答案 0 :(得分:0)

您不需要在xpath中添加/文本。 tree.xpath将生成一个html元素列表。对其进行迭代并获取文本内容将创建所需的结果。

from lxml import html
import requests

page = requests.get('http://sitetoscrape.com')
tree = html.fromstring(page.text)

#Mitglieder
members = tree.xpath('//div[@class="details"]')

for i in members:
    print i.text_content()