刮刮opengraph有困难

时间:2016-04-11 16:43:00

标签: javascript html node.js web-scraping

我正在尝试使用NodeJS从网页中抓取数据。我使用request模块获取数据并使用cheerio进行解析。但是我注意到了一些事情:当我访问某些带有chrome的网页(例如,this nyt article)并检查来源时,标记meta只有一个匹配属性property og:title。如果我从我的Node刮刀请求同一页面并检查标记,我会将108个meta标记的属性property设置为og:title我尝试过使用User-Agents,无需尝试。

  • 这种差异的原因是什么?
  • 这些网站是否故意这样做以阻止抓取?

1 个答案:

答案 0 :(得分:0)

事实证明,我的问题是我的妄想狂(我相信每个网站都将他们的信息锁定在一层防御层之后)以及我对cheerio缺乏知识的结果。对于有类似问题的人:

$(tag).attr(attribute,value)会将每个tag的{​​{1}}设置为值。

要找到attribute设置为tag的所有attribute,这就是您想要的:

value