我正在cheerio和nodejs中创建一个爬虫,我正在尝试提取没有结束标记。它看起来像这样:
<item>
<link>http://www.example.com
<description>...</description>
</item>
我该如何提取该链接?试图提取链接标记的文本不会返回任何内容
答案 0 :(得分:0)
我遇到了和你一样的问题。
我转向了&#39; xmlreader&#39; module.And工作。你可以尝试一下。
答案 1 :(得分:0)
您需要具有一些解析器来解析输入的脏HTML并对其进行清理。您可以使用充满脏HTML的字符串填充DOMPurify,它将返回包含干净HTML的字符串
不存在如图所示添加的dd标记 这些干净的HTML现在可以用于在cheerio中加载 More on DOMPurify