如何在python中删除文本的一部分

时间:2015-02-06 17:04:53

标签: python string beautifulsoup

我对python很新,所以陷入了这个问题:

有一个类似

的txt文件
blahh
blah
blah 
...
<start>
 some stuff
</start>
even more blah blah blah

我想删除<start>之前和</start>之后的所有错误部分。 (主要的是来自这个link。我想通过bs4在页面中制作html内容,所以我想我必须首先删除所有非html部分。

有人可以告诉我这样做的最佳方式是什么?感谢任何帮助!

1 个答案:

答案 0 :(得分:1)

不,您不需要删除文件的不相关部分。让BeautifulSoup按原样解析整个文件,找到所需的标记:

from urllib2 import urlopen
from bs4 import BeautifulSoup

url = 'http://www.sec.gov/Archives/edgar/data/70858/000119312507058027/0001193125-07-058027.txt'
soup = BeautifulSoup(urlopen(url))
print(soup.document)