Question

我正在cheerio和nodejs中创建一个爬虫，我正在尝试提取没有结束标记。它看起来像这样：

<item>
   <link>http://www.example.com
   <description>...</description>
</item>

我该如何提取该链接？试图提取链接标记的文本不会返回任何内容

Answer 1

我遇到了和你一样的问题。

我转向了＆＃39; xmlreader＆＃39; module.And工作。你可以尝试一下。

Answer 2

您需要具有一些解析器来解析输入的脏HTML并对其进行清理。您可以使用充满脏HTML的字符串填充DOMPurify，它将返回包含干净HTML的字符串

不存在如图所示添加的dd标记这些干净的HTML现在可以用于在cheerio中加载 More on DOMPurify