我对python很新,所以陷入了这个问题:
有一个类似
的txt文件blahh
blah
blah
...
<start>
some stuff
</start>
even more blah blah blah
我想删除<start>
之前和</start>
之后的所有错误部分。 (主要的是来自这个link。我想通过bs4在页面中制作html内容,所以我想我必须首先删除所有非html部分。
有人可以告诉我这样做的最佳方式是什么?感谢任何帮助!
答案 0 :(得分:1)
不,您不需要删除文件的不相关部分。让BeautifulSoup
按原样解析整个文件,找到所需的标记:
from urllib2 import urlopen
from bs4 import BeautifulSoup
url = 'http://www.sec.gov/Archives/edgar/data/70858/000119312507058027/0001193125-07-058027.txt'
soup = BeautifulSoup(urlopen(url))
print(soup.document)