使用php解析网页

时间:2014-01-23 01:59:12

标签: php

我正在寻找一种简单的方法来抓取任何网页以显示某些关键字。我有一个单词列表,如{Apple,Banana,Pear,Pineapple},我有一个链接列表。我需要在每个页面中搜索我的单词列表的存在,并返回每个链接上存在的单词。例如,链接:

http://www.xyz.com

我应该搜索该页面并返回二进制变量0 1 1 0的向量,其中每个相应的二进制变量对应于列表中每个对应搜索关键字的存在或不存在。我找不到搜索网页的方法,因为我不熟悉php。刮取网页以获取页面上相关文本的最佳方法是什么(即没有html标签或css或javascript元数据等)?我尝试过curl和get_file_contents,但是他们返回了相当丑陋的网页表示。任何人都可以提供一个片段,返回页面上的文本,以便我可以搜索返回的文本吗?

提前致谢!

卷曲不起作用的一个主要示例是页面https://plus.google.com/107630561301274451844/about?gl=us&hl=en

我正在尝试在其上找到关键字IL,并返回非相关文本供我搜索。

1 个答案:

答案 0 :(得分:0)

使用预先构建的东西

这可以满足您的需求:http://simplehtmldom.sourceforge.net/