(python)sgmlparser以及如何在标记之间提取数据,而不是属性/值

时间:2010-01-25 21:58:10

标签: python html

我在sgmlparser中看到的每个示例都涉及查找标记,然后查找标记的属性/值。因此,它可以提取“google.com”。但我想要标签之间的数据。因此,如果我使用sgmlparser,我会寻找并提取该div中的所有内容,直到它关闭标记。这是sgmlparser的工作,还是我使用了错误的库?

1 个答案:

答案 0 :(得分:1)

因为你提到了div,所以我想你要解析HTML。为此,您最好的选择是BeautifulSoup