我正在寻找在PHP / JS中构建一个基本上完成这些任务的抓取器:
连接到其中包含字典变量的网址
Es www.domain.com/#word1,www.domain.com/#word2,www.domain.com/#word3
在外部.txt文件中拾取单词
获取html网页内容
function check_url($url) {
$page = file_get_contents($url);
检查一些文字
$text= '<p>some text</p>';
if (strpos($page, $text) === FALSE)
在外部文件txt中附加巧合的单词
{
$fp = fopen('coincidenceswords.txt', 'w');
fwrite($fp, $text);
fclose($fp);
} else {
echo "Naughty webpage!";
}
问题
我在php中非常n00bs,仍然在学习,我对某些观点有疑问:
如何根据外部词典txt文件生成不同的$ url,如第1点所述?
如何让这个循环? Crawler使用dictionary.txt文件中的单词顺序生成url,下载页面,检查是否发生,如果找到它将该单词保存在coincidenceswords.txt中,然后使用下一个生成的url重复该循环。
对于经验最丰富的人来说听起来可能微不足道,但是我试图解决它而没有很好的结果,任何帮助都非常感激