Python从文件中读取的URL仅获取最后一个URL

时间:2017-02-13 21:46:58

标签: python python-2.7

尝试读取URL列表,然后在类中输出html。它的工作原理,但只适用于列表中的最后一个网址,我似乎无法弄清楚原因。我已设置超时等但仍然只是返回并清空响应,除了最后一个网址。

#!/usr/bin/env python
# -*- coding: utf-8 -*- 

from bs4 import BeautifulSoup

import requests
import time

with open('/Users/usrname/Desktop/links.txt') as f:
    for line in f:
        print(line)
        html_doc  = requests.get( line, verify=False, timeout=2 )
        soup = BeautifulSoup(html_doc.text, 'html.parser')
        #time.sleep(1.3) # seconds         
        print (soup.find_all("div", "location-content"))        

1 个答案:

答案 0 :(得分:2)

文件中的最后一行没有回车符,而其他行则没有回车符,因此不是有效的URL。您需要使用rstrip()

剥离回车
for line in f:
    line = line.rstrip()