从txt文件读取URL失败

时间:2019-11-12 01:18:39

标签: python scrapy

这是txt文件的外观,我从木星笔记本中打开了它。注意,由于明显的原因,我在结果中更改了链接的名称。 输入-----------------------------

以open('... \ j.txt','r')作为f:     数据= f.readlines()

print(数据[0]) 打印(类型(数据))

输出---------------------------------

['https://www.example.com/191186976.html','https://www.example.com/191187171.html']

现在,我在我的脚本中编写了这些代码,但是当我运行它时并没有链接。而是显示:ERROR:获取启动请求时出错。

类abc(scrapy.Spider):     名称=“ abc_article”

with open('j.txt' ,'r')as f4:
    url_c = f4.readlines()

u = url_c[0]    
start_urls = u

如果我写了u = ['example.html','example.html'] starting_url = u,那么它工作得很好。我是新手,所以我想问这里有什么问题?是阅读方法还是其他我没有注意到的东西。谢谢。

1 个答案:

答案 0 :(得分:0)

这样的事情应该可以使您朝正确的方向前进。

import csv
from urllib.request import urlopen
#import urllib2
from bs4 import BeautifulSoup

contents = []
with open('C:\\your_path_here\\test.csv','r') as csvf: # Open file in read mode
    urls = csv.reader(csvf)
    for url in urls:
        contents.append(url) # Add each url to list contents

for url in contents:  # Parse through each url in the list.
    page = urlopen(url[0]).read()
    soup = BeautifulSoup(page, "html.parser")
print(soup)