我正在尝试使用codecs.open打开一个在线txt文件。我现在拥有的代码是:
url = r'https://www.sec.gov/Archives/edgar/data/20/0000893220-96-000500.txt'
soup = BeautifulSoup(codecs.open(url, 'r',encoding='utf-8'), "lxml")
但是,Python不断提醒OSError:
OSError: [Errno 22] Invalid argument: 'https://www.sec.gov/Archives/edgar/data/20/0000893220-96-000500.txt'
我试图用“ \”代替“ /”。它仍然不起作用。有什么办法解决吗?由于我有成千上万的链接需要打开,因此我不想将在线文本文件下载到本地驱动器中。
如果有人可以在这里提供帮助,我将非常感激。
谢谢!
答案 0 :(得分:1)
您正在考虑这样的事情吗?
`from urllib.request import urlopen
url = urlopen('https://www.sec.gov/Archives/edgar/data/20/0000893220-96- 000500.txt')
html = url.read().decode('utf-8')
file = open('yourfile.txt', 'r')
file.read(html)
file.close`