从外部URL获取类中的HTML

时间:2012-11-21 21:00:30

标签: javascript jquery html dom web-scraping

我正在编写一个程序,打印出flipkart.com的书籍价格 我现在遇到的障碍是我无法访问搜索页面的DOM。 搜索页面的示例在此处 http://m.flipkart.com/m/search-books?query=Predictably+irrational

价格跨越class = "sp"

请使用Javascript / jQuery帮助我访问这些类中的字符串(如Rs.197)。

我也读了很多关于同源政策的内容。如果你能详细解释一下工作,我真的很感激。谢谢!

1 个答案:

答案 0 :(得分:1)

使用javascript向您管理的执行抓取的API发送ajax请求。如果您了解Python,最快的方法可能是使用Flask / BeautifulSoup,但如果您希望保留在javascript中,则可以使用Node。

我不相信你可以在不使用iframe的情况下在Javascript中加载外国网站,你无法使用javascript访问。 (这是不正确的:见编辑)

正如评论中所指出的那样,请确保您所做的工作对于网站所有者来说是可以的(请不要伤害他们)。

编辑:

我的立场得到了纠正。您可以使用http://corsproxy.com从(仅限非身份验证)网站访问数据。示例:http://pastebin.com/5gfmtcPs