如何自动从其他网站中提取内容?

时间:2010-02-15 11:10:30

标签: php automation

我想从网页上提取网站上的特定数据......

我不想获取特定页面的所有内容,但我只需要一些部分(可能只是在表格或content_div中的数据),我想在网站的所有页面上重复这样做..

我该怎么做?

5 个答案:

答案 0 :(得分:1)

使用curl检索内容,使用xPath选择单个元素。

请注意版权。

答案 1 :(得分:1)

“从其他网站提取内容”称为屏幕抓取或web scraping

simple html dom parser是最简单的方法(我知道)。

答案 2 :(得分:0)

您需要 php crawler 。关键是使用字符串操作函数,例如strstrstrpossubstr

答案 3 :(得分:0)

有办法做到这一点。为了好玩,我创建了一个Windows应用程序,通过我熟悉的社交网络上的帐户,查看正确的位置并将信息记录到xml文件中。然后将此信息导入其他地方。但是,这种应用程序可以用于我不同意的动机,所以我从未上传过这个。

我建议使用RSS提要来提取内容。

答案 4 :(得分:0)

我认为,你需要实现类似蜘蛛的东西。您可以发出XMLHTTP请求并获取内容,然后进行解析。