Question

我目前正在进入一个包含我想要的所有行的for循环：

page = urllib2.urlopen(pageurl)
soup = BeautifulSoup(page)
tables = soup.find("td", "bodyTd")
for row in tables.findAll('tr'):

此时，我有我的信息，但是

<br />

标签破坏了我的输出。

删除这些内容的最简洁方法是什么？

Answer 1

如果您想将<br />翻译成换行符，请执行以下操作：

def text_with_newlines(elem):
    text = ''
    for e in elem.recursiveChildGenerator():
        if isinstance(e, basestring):
            text += e.strip()
        elif e.name == 'br':
            text += '\n'
    return text

Answer 2

for e in soup.findAll('br'):
    e.extract()

Answer 3

在开头用空格替换标签美丽的汤也接受urlopen对象上的.read（），所以这应该工作 - - -

page = urllib2.urlopen(pageurl)
page_text=page.read()
new_text=re.sub('</br>',' ',page_text)
soup = BeautifulSoup(new_text)
tables = soup.find("td", "bodyTd")
for row in tables.findAll('tr'):
.....

re.sub用空格替换br标签

Answer 4

也许some_string.replace('<br />','\n')用换行符替换中断。

>>> print 'Some data<br />More data<br />'.replace('<br />','\n')
Some data
More data

您可能需要查看html5lib和lxml，这两者都非常适合解析html。 lxml非常快，而html5lib的设计非常强大。

从已解析的Beautiful Soup列表中删除<br/>标签？

4 个答案: