不要自动放置html,head和body标签,beautifulsoup

时间:2013-02-11 22:33:22

标签: python beautifulsoup html5lib

使用带有html5lib的beautifulsoup,它会自动放置html,head和body标签:

BeautifulSoup('<h1>FOO</h1>', 'html5lib') # => <html><head></head><body><h1>FOO</h1></body></html>

我可以设置任何选项,关闭此行为吗?

9 个答案:

答案 0 :(得分:33)

In [35]: import bs4 as bs

In [36]: bs.BeautifulSoup('<h1>FOO</h1>', "html.parser")
Out[36]: <h1>FOO</h1>

parses the HTML with Python's builtin HTML parser。 引用文档:

  

与html5lib不同,此解析器不会尝试创建格式良好的   添加<body>标记的HTML文档。与lxml不同,它甚至没有   懒得添加<html>标签。


或者,您可以使用html5lib解析器,只需在<body>之后选择元素:

In [61]: soup = bs.BeautifulSoup('<h1>FOO</h1>', 'html5lib')

In [62]: soup.body.next
Out[62]: <h1>FOO</h1>

答案 1 :(得分:4)

您唯一的选择是不使用html5lib来解析数据。

这是html5lib库的一项功能,它修复了缺少的HTML,例如添加了缺少的必需元素。

答案 2 :(得分:1)

又一个解决方案:

<script src="https://ajax.googleapis.com/ajax/libs/jquery/1.11.1/jquery.min.js"></script>
<div id="result_row"><div class="menuitems clearfix">
    <div class="menu1">sfsdsf<span id="srno">4</span></div>
    <div class="menu2">sfsdfs@saf</div>
    <div class="menu3">sdfsdf<span id="cross">X</span></div>

    </div>
</div>

答案 3 :(得分:1)

您可以通过指定soup.body.<tag>获取html和body的孩子:

# python3: get body's first child
print(next(soup.body.children))

# if first child's tag is rss
print(soup.body.rss)

此外,您也可以使用展开来移除正文,头部和html

soup.html.body.unwrap()
if soup.html.select('> head'):
    soup.html.head.unwrap()
soup.html.unwrap()

如果您加载xml文件,bs4.diagnose(data)会告诉您使用lxml-xml,它不会用html+body包裹汤

>>> BS('<foo>xxx</foo>', 'lxml-xml')
<foo>xxx</foo>

答案 4 :(得分:0)

如果您希望它看起来更好,请尝试以下操作:

  

BeautifulSoup([您要分析的内容] .prettify()

答案 5 :(得分:0)

BeautifulSoup的这一方面总是使我烦恼。

这是我的处理方式:

# Parse the initial html-formatted string
soup = BeautifulSoup(html, 'lxml')

# Do stuff here

# Extract a string repr of the parse html object, without the <html> or <body> tags
html = "".join([str(x) for x in soup.body.children])

快速细分:

# Iterator object of all tags within the <body> tag (your html before parsing)
soup.body.children

# Turn each element into a string object, rather than a BS4.Tag object
# Note: inclusive of html tags
str(x)

# Get a List of all html nodes as string objects
[str(x) for x in soup.body.children]

# Join all the string objects together to recreate your original html
"".join()

我仍然不喜欢这样,但是可以完成工作。当我使用BS4过滤HTML文档中的某些元素和/或属性,然后再对它们执行其他操作时,我总是会遇到这种情况,在这种情况下,我需要整个对象作为字符串repr而不是BS4解析的对象。

希望,下次我使用此工具时,我会在这里找到答案。

答案 6 :(得分:0)

自v4.0.1起,有一种方法decode_contents()

>>> BeautifulSoup('<h1>FOO</h1>', 'html5lib').decode_contents()
'<h1>FOO</h1>' 

此问题的解决方案中的更多详细信息: https://stackoverflow.com/a/18602241/237105

答案 7 :(得分:0)

这是我的方法

calc> 1/2*2
 = 1
calc> 2^1+1
 = 3
calc> 7777777777777+8888888888888
 = 16666666666665
calc> 1+2+3+4+5+7+8
 = 30
calc> 1+2*3
 = 7
calc> 1+2*3-1
 = 6
calc> (1+2)*(3-1)
 = 6
calc> (1+2)*(3-2)
 = 3
calc> 1+2*3-2
 = 5
calc> (1+2)*3
 = 9
calc> 44%10
 = 4
calc>  1+ 2 * 7
 = 15
calc> 10/3
 = 3.3333333333333335
calc> 0.3*9
 = 2.6999999999999997
calc> -0.22345 + -1.1
 = -1.32345

答案 8 :(得分:0)

html=str(soup)
html=html.replace("<html><body>","")
html=html.replace("</body></html>","")

将删除 html/body 标签括号。更复杂的版本还会检查startsWith、endsWith ...