我一直在使用以下代码删除P-tag中的I-tag。但是,html_text
变量需要一个字符串,我不确定如何相应地转换输入。这是remove_invalid_tags
函数:
def remove_invalid_tags(html_text):
print "HTML TEXT in REMOVE FUNCTION IS", html_text, type(html_text)
invalid_tags = ['I']
soup = BeautifulSoup(html_text, "html.parser")
for tag in invalid_tags:
for match in soup.findAll(tag):
match.replaceWith('')
print "RETURN STATEMENT INVALID TAGS", soup.get_text()
return soup
我正在尝试传递一个“child2”变量,该变量分别具有以下标记,属性和类型:
{}, (a), P <class 'xml.etree.ElementTree.Element'>
如何将xml.etree.ElementTree.Element转换为我的函数所期望的正确格式?当我发送这个变量时,它可以工作:
"(a) <I>Competitive execution required; exceptions.</I> All purchases and sales"
但是,我的元素树迭代没有发送正确的格式。