使用python codecs.open打开在线txt文件

时间:2019-04-23 04:07:05

标签: python python-3.x text beautifulsoup codec

我正在尝试使用codecs.open打开一个在线txt文件。我现在拥有的代码是:

url = r'https://www.sec.gov/Archives/edgar/data/20/0000893220-96-000500.txt'
soup = BeautifulSoup(codecs.open(url, 'r',encoding='utf-8'), "lxml")

但是,Python不断提醒OSError:

OSError: [Errno 22] Invalid argument: 'https://www.sec.gov/Archives/edgar/data/20/0000893220-96-000500.txt'

我试图用“ \”代替“ /”。它仍然不起作用。有什么办法解决吗?由于我有成千上万的链接需要打开,因此我不想将在线文本文件下载到本地驱动器中。

如果有人可以在这里提供帮助,我将非常感激。

谢谢!

1 个答案:

答案 0 :(得分:1)

您正在考虑这样的事情吗?

`from urllib.request import urlopen
url = urlopen('https://www.sec.gov/Archives/edgar/data/20/0000893220-96- 000500.txt')
 html = url.read().decode('utf-8')
 file = open('yourfile.txt', 'r')
 file.read(html)
 file.close`