考虑以下链接:
https://www.reddit.com/r/todayilearned/comments/6x6iz8/til_princess_diana_on_live_tv_shook_the_hand_of/?ref=share&ref_source=link
原来是
http://www.bbc.com/news/av/magazine-39490507/how-princess-diana-changed-attitudes-to-aids
使用Javascript,如何在不使用Reddit API的情况下从第一个链接获取原始链接?
答案 0 :(得分:2)
如果您正在谈论在网页中运行的JavaScript,则不能。您需要使用Reddit API,或者刮掉Reddit网页。但是,由于跨源安全规则,您无法使用JavaScript抓取网页,因此您必须使用API。
编辑:啊,保罗刚刚指出你标记了Node.js;如果您是从服务器执行此操作,则可以进行抓取。查找“使用node.js进行抓取”。粗略地浏览一下谷歌后,看起来大多数解决方案都涉及下载Reddit网页的HTML,然后使用名为cheerio的库解析它。这件事scrape-it看起来很有希望。