这是txt文件的外观,我从木星笔记本中打开了它。注意,由于明显的原因,我在结果中更改了链接的名称。 输入-----------------------------
以open('... \ j.txt','r')作为f: 数据= f.readlines()
print(数据[0]) 打印(类型(数据))
输出---------------------------------
['https://www.example.com/191186976.html','https://www.example.com/191187171.html']
现在,我在我的脚本中编写了这些代码,但是当我运行它时并没有链接。而是显示:ERROR:获取启动请求时出错。
类abc(scrapy.Spider): 名称=“ abc_article”
with open('j.txt' ,'r')as f4:
url_c = f4.readlines()
u = url_c[0]
start_urls = u
如果我写了u = ['example.html','example.html'] starting_url = u,那么它工作得很好。我是新手,所以我想问这里有什么问题?是阅读方法还是其他我没有注意到的东西。谢谢。
答案 0 :(得分:0)
这样的事情应该可以使您朝正确的方向前进。
import csv
from urllib.request import urlopen
#import urllib2
from bs4 import BeautifulSoup
contents = []
with open('C:\\your_path_here\\test.csv','r') as csvf: # Open file in read mode
urls = csv.reader(csvf)
for url in urls:
contents.append(url) # Add each url to list contents
for url in contents: # Parse through each url in the list.
page = urlopen(url[0]).read()
soup = BeautifulSoup(page, "html.parser")
print(soup)