Question

我正在尝试使用NodeJS从网页中抓取数据。我使用request模块获取数据并使用cheerio进行解析。但是我注意到了一些事情：当我访问某些带有chrome的网页（例如，this nyt article）并检查来源时，标记meta只有一个匹配属性property og:title。如果我从我的Node刮刀请求同一页面并检查标记，我会将108个meta标记的属性property设置为og:title。 我尝试过使用User-Agents，无需尝试。

这种差异的原因是什么？
这些网站是否故意这样做以阻止抓取？

Answer 1

事实证明，我的问题是我的妄想狂（我相信每个网站都将他们的信息锁定在一层防御层之后）以及我对cheerio缺乏知识的结果。对于有类似问题的人：

$(tag).attr(attribute,value)会将每个tag的{{1}}设置为值。

要找到attribute设置为tag的所有attribute，这就是您想要的：

value

刮刮opengraph有困难

1 个答案: