我正在构建一个工具,用于获取有关网站的一些基本元数据(与您尝试共享链接时Facebook的相同数量):标题,说明和主要图像。对于包含Nokogiri,BeautifulSoup或许多其他工具的HTML网页,这非常简单。
但是使用ajax的页面怎么样?某些网站,尤其是使用哈希片段的网站,可能会回复Google AJAX crawling standard并与_escaped_fragment_
合作,但我不认为这是大多数网站。
是否有使用PhantomJS或无头Chrome / Webkit设置抓取服务器场的轻微可扩展解决方案?或者是否有另一种无头执行JS并拉出结果HTML的方法?
支持屏幕截图的工具的加分点:D