从reddit URL获取原始URL

时间:2017-08-31 17:14:03

标签: javascript node.js reddit

考虑以下链接: https://www.reddit.com/r/todayilearned/comments/6x6iz8/til_princess_diana_on_live_tv_shook_the_hand_of/?ref=share&ref_source=link

原来是

http://www.bbc.com/news/av/magazine-39490507/how-princess-diana-changed-attitudes-to-aids

使用Javascript,如何在不使用Reddit API的情况下从第一个链接获取原始链接?

1 个答案:

答案 0 :(得分:2)

如果您正在谈论在网页中运行的JavaScript,则不能。您需要使用Reddit API,或者刮掉Reddit网页。但是,由于跨源安全规则,您无法使用JavaScript抓取网页,因此您必须使用API​​。

编辑:啊,保罗刚刚指出你标记了Node.js;如果您是从服务器执行此操作,则可以进行抓取。查找“使用node.js进行抓取”。粗略地浏览一下谷歌后,看起来大多数解决方案都涉及下载Reddit网页的HTML,然后使用名为cheerio的库解析它。这件事scrape-it看起来很有希望。