我正在尝试使用NodeJS从网页中抓取数据。我使用request
模块获取数据并使用cheerio
进行解析。但是我注意到了一些事情:当我访问某些带有chrome的网页(例如,this nyt article)并检查来源时,标记meta
只有一个匹配属性property
og:title
。如果我从我的Node刮刀请求同一页面并检查标记,我会将108个meta
标记的属性property
设置为og:title
。 我尝试过使用User-Agents,无需尝试。
答案 0 :(得分:0)
事实证明,我的问题是我的妄想狂(我相信每个网站都将他们的信息锁定在一层防御层之后)以及我对cheerio
缺乏知识的结果。对于有类似问题的人:
$(tag).attr(attribute,value)
会将每个tag
的{{1}}设置为值。
要找到attribute
设置为tag
的所有attribute
,这就是您想要的:
value