我的需要是,如果我获得了一个网页的URL,我将从中提取所有文本。现在有网页的情况,当你像fb时间轴一样向下滚动它们时,它会进一步加载。我怎样才能以编程方式从这些网页中提取文本?任何想法/例子?
答案 0 :(得分:1)
从网页上获取动态加载的内容变得越来越复杂。
一个建议是,打开浏览器开发人员面板并查看网络选项卡。如果您可以破译AJAX调用背后的逻辑,那么您可以自己调用这些URL,例如使用PHP file_get_contents
。类似于http://url.com/morecontent.php?offset=20
。
另一个建议是使用像phantom.js这样的无头浏览器,它包含一个自己的javascript引擎,并且可以以编程方式控制 - http://phantomjs.org/
答案 1 :(得分:-2)
您可以使用cURL。这是示例代码。