Question

我对python很新，所以陷入了这个问题：

有一个类似

的txt文件

blahh
blah
blah 
...
<start>
 some stuff
</start>
even more blah blah blah

我想删除<start>之前和</start>之后的所有错误部分。（主要的是来自这个link。我想通过bs4在页面中制作html内容，所以我想我必须首先删除所有非html部分。

有人可以告诉我这样做的最佳方式是什么？感谢任何帮助！

Answer 1

不，您不需要删除文件的不相关部分。让BeautifulSoup按原样解析整个文件，找到所需的标记：

from urllib2 import urlopen
from bs4 import BeautifulSoup

url = 'http://www.sec.gov/Archives/edgar/data/70858/000119312507058027/0001193125-07-058027.txt'
soup = BeautifulSoup(urlopen(url))
print(soup.document)

如何在python中删除文本的一部分

1 个答案: