Question

这是txt文件的外观，我从木星笔记本中打开了它。注意，由于明显的原因，我在结果中更改了链接的名称。输入-----------------------------

以open（'... \ j.txt'，'r'）作为f：数据= f.readlines（）

print（数据[0]）打印（类型（数据））

输出---------------------------------

['https://www.example.com/191186976.html'，'https://www.example.com/191187171.html']

现在，我在我的脚本中编写了这些代码，但是当我运行它时并没有链接。而是显示：ERROR：获取启动请求时出错。

类abc（scrapy.Spider）：名称=“ abc_article”

with open('j.txt' ,'r')as f4:
    url_c = f4.readlines()

u = url_c[0]    
start_urls = u

如果我写了u = ['example.html'，'example.html'] starting_url = u，那么它工作得很好。我是新手，所以我想问这里有什么问题？是阅读方法还是其他我没有注意到的东西。谢谢。

Answer 1

这样的事情应该可以使您朝正确的方向前进。

import csv
from urllib.request import urlopen
#import urllib2
from bs4 import BeautifulSoup

contents = []
with open('C:\\your_path_here\\test.csv','r') as csvf: # Open file in read mode
    urls = csv.reader(csvf)
    for url in urls:
        contents.append(url) # Add each url to list contents

for url in contents:  # Parse through each url in the list.
    page = urlopen(url[0]).read()
    soup = BeautifulSoup(page, "html.parser")
print(soup)

从txt文件读取URL失败

1 个答案: