使用goquery从html中提取文本,但结果仍然包含html标记

时间:2016-09-23 15:34:07

标签: go goquery

我正在尝试使用golang从html中提取文本,并使用goquery库来执行此操作。 代码如下:

document, err := goquery.NewDocumentFromReader(r)
if err != nil {
    log.Fatalln(err)
}
document.Find("script").Remove()
document.Find("style").Remove()
text := document.Find("body").Text()

测试html页面: enter image description here

但结果是: enter image description here

你可以发现结果仍然包含html标签,我怎样才能删除html标签而只保留文字?

1 个答案:

答案 0 :(得分:1)

将ul元素从文本区域中取出。它被视为文本它是自己的。 enter image description here