Cheerio提取没有结束标记的链接

时间:2015-08-19 11:24:49

标签: javascript node.js cheerio

我正在cheerio和nodejs中创建一个爬虫,我正在尝试提取没有结束标记。它看起来像这样:

<item>
   <link>http://www.example.com
   <description>...</description>
</item>

我该如何提取该链接?试图提取链接标记的文本不会返回任何内容

2 个答案:

答案 0 :(得分:0)

我遇到了和你一样的问题。

我转向了&#39; xmlreader&#39; module.And工作。你可以尝试一下。

答案 1 :(得分:0)

您需要具有一些解析器来解析输入的脏HTML并对其进行清理。您可以使用充满脏HTML的字符串填充DOMPurify,它将返回包含干净HTML的字符串

Example of clean HTML

不存在如图所示添加的dd标记 这些干净的HTML现在可以用于在cheerio中加载 More on DOMPurify