Question

我在python中使用漂亮的汤解析一个html文档。

我遇到了像这样的标签

div class="_3auQ3N">\u20b9<!-- -->1,990</div>

\ u20bp代表货币符号，价格是1,990。

我想知道如何将这些值提取到两个不同的字符串（或值）中？

Answer 1

>>> soup = BeautifulSoup('<div class="_3auQ3N">\u20b9<!-- -->1,990</div>', 'lxml')
>>> list(soup.div.strings)
['₹', '1,990']

Answer 2

一旦你提取了你的字符串，你可能会使用正则表达式：

import re


string = "\u20b9<!-- -->1,990"
a = re.findall("(^.*)<!-- -->(.*)", string)
print(a[0][0],a[0][1]) # ₹ 1,990