无法使用BeautifulSoup

时间:2016-02-14 18:20:23

标签: python xml

我一直在使用以下代码删除P-tag中的I-tag。但是,html_text变量需要一个字符串,我不确定如何相应地转换输入。这是remove_invalid_tags函数:

def remove_invalid_tags(html_text):
    print "HTML TEXT in REMOVE FUNCTION IS", html_text, type(html_text)
    invalid_tags = ['I']
    soup = BeautifulSoup(html_text, "html.parser")
    for tag in invalid_tags:
        for match in soup.findAll(tag):
            match.replaceWith('')
    print "RETURN STATEMENT INVALID TAGS", soup.get_text()
    return soup

我正在尝试传递一个“child2”变量,该变量分别具有以下标记,属性和类型:

{}, (a),  P <class 'xml.etree.ElementTree.Element'> 

如何将xml.etree.ElementTree.Element转换为我的函数所期望的正确格式?当我发送这个变量时,它可以工作:

"(a) <I>Competitive execution required; exceptions.</I> All purchases and sales"

但是,我的元素树迭代没有发送正确的格式。

0 个答案:

没有答案