将url中的txt文件读入BeautifulSOUP

时间:2015-02-04 20:53:46

标签: python beautifulsoup

我有一个url地址是一个txt文件,它包含html代码。这是一个示例链接:

http://www.sec.gov/Archives/edgar/data/70858/000119312507058027/0001193125-07-058027.txt

我想用BeautifulSoup阅读这个带有这样代码的HTML代码:

from bs4 import BeautifulSoup
import urllib2 

url =    "http://www.sec.gov/Archives/edgar/data/70858/000119312507058027/0001193125-07-058027.txt"
page = urllib2.urlopen(url)
soup = BeautifulSoup(page.read())
print (soup.prettify())

然而,我遇到了很多错误:

File "C:/Users/.../aa.py", line 7, in <module> print (soup.prettify()) File "build\bdist.win32\egg\bs4\element.py", line 1097, in prettify return self.decode(True, formatter=formatter)

我怀疑是因为url是txt文件而不是html。我对吗?如果是这样,有人可以让我知道这里有什么解决方案吗?

1 个答案:

答案 0 :(得分:1)

您可以尝试将文本文件的HTML部分(从标记中)转换为Beautiful soup,我想它会破坏,因为文本文件的开头并不包含任何HTML。