Python3 Beautiful Soup获取HTML标记锚点

时间:2016-09-09 10:32:47

标签: python html beautifulsoup

我正在尝试使用BS4和Python来保存和替换HTML文件中第一个<translate>标记的内容。

现在我正在尝试这样做:

translate_bs4 = bs4_object.find('translate')
translate_key = '{{ key }}'
translate_initial = str(title_bs4)
translate_bs4.string = translate_key

我的测试用例是:

<translate>tag with <other_tag>some text</other_tag></translate>
<much_longer_file>...</much_longer_file>

并且HTML是预期的:

<translate>{{ key }}</translate>
<much_longer_file>...</much_longer_file>

translate_initial的值为

<translate>tag with <other_tag>some text</other_tag></translate>

而非预期

tag with <other_tag>some text</other_tag>

我知道可以使用正则表达式轻松提取它,但我想要一些更多与DOM相关的解决方案。

1 个答案:

答案 0 :(得分:1)

试试这个:

translate_bs4 = bs4_object.find('translate')
translate_initial = translate_bs4.decode_contents(formatter="html")