如何使用python同时从多个页面中提取数据?

时间:2018-02-23 18:51:36

标签: python extract extraction text-extraction data-extraction

我使用python 3.6,我尝试从页面中提取数据,但我想同时从多个页面中提取数据,代码如下:

0

有没有办法提取数据,但我不想使用页面的所有URL列表!

1 个答案:

答案 0 :(得分:0)

如果没有更多详细信息,我认为不使用URL列表是不可能的(无论是手工制作还是以编程方式获取它们都是另一个问题;)。

我建议使用helper function来处理列表composable

url_list = ["http://example.com/route/page", ...]
for url in url_list:
    output = extract_data(url)
    do_something(output)

def extract_data(url):
   page = requests.get(url)
   tree = html.fromstring(page.content)
   text1 = tree.xpath('//div[@class="col1 first"]/text()')
   text2 = tree.xpath('//div[@class="col2 second"]/text()')
   return text1, text2