PHP web Crawler,检查文本并将其保存在外部txt

时间:2017-05-10 12:11:58

标签: php web-crawler

我正在寻找在PHP / JS中构建一个基本上完成这些任务的抓取器:

连接到其中包含字典变量的网址

Es www.domain.com/#word1,www.domain.com/#word2,www.domain.com/#word3

在外部.txt文件中拾取单词

获取html网页内容

function check_url($url) {
$page = file_get_contents($url);

检查一些文字

$text= '<p>some text</p>';
if (strpos($page, $text) === FALSE)

在外部文件txt中附加巧合的单词

{
$fp = fopen('coincidenceswords.txt', 'w');
fwrite($fp, $text);
fclose($fp);
    } else {
        echo "Naughty webpage!";
    }

问题

我在php中非常n00bs,仍然在学习,我对某些观点有疑问:

如何根据外部词典txt文件生成不同的$ url,如第1点所述?

如何让这个循环? Crawler使用dictionary.txt文件中的单词顺序生成url,下载页面,检查是否发生,如果找到它将该单词保存在coincidenceswords.txt中,然后使用下一个生成的url重复该循环。

对于经验最丰富的人来说听起来可能微不足道,但是我试图解决它而没有很好的结果,任何帮助都非常感激

0 个答案:

没有答案