目前,此PHP脚本会擦除开始和结束标记之间的所有内容。我用它来刮掉诗歌的标题。为此,用户必须手动输入URL以刮取,开始标记和结束标记。
<?php
$url=$_POST["url"];
$beg=$_POST["beg"];
$end=$_POST["end"];
$tryscrape=$_POST["tryscrape"];
$end=str_replace('/','\/', $end);
$beg=str_replace('/','\/', $beg);
$end=str_replace('\"','"', $end);
$beg=str_replace('\"','"', $beg);
echo '<form action="' . $PHP_SELF . '" method="post">
Beginning: <input name="beg" value="" style="width: 100px;"> End: <input name="end" value="" style="width: 100px;"><BR>
URL: <input name="url" value="' . $url . '" style="width: 225px;">
<input type="hidden" name="tryscrape" value="1">
<input name="submit" type="submit" value="Scrape >>" class="button" />
</form>';
echo 'Scrape Results for <strong>' . $url . '</strong><br><br>';
if($tryscrape==1)
{
$data = file_get_contents($url);
$regex = '/'.$beg.'(.+?)'.$end.'/';
$count=1;
preg_match_all($regex,$data,$match,PREG_SET_ORDER);
foreach ($match as $result) {
$link = $result[1];
$link=strip_tags($link);
echo $link . '<br>';
}
}
?>
现在我卡住了,我想更改输入字段并将“URL to scrape”字段更改为“keyword”,而“URL to scrape”将固定为“(http://www.poemhunter.com/search/?w=title&q=”。$关键字。“&amp; p =”。$ randomnumberfrom1to30)“
另一件事是将显示的标题限制为5.通常有25个标题,但应该从这25个标题中随机选择,只限于5个。
如果有人愿意,我真的很感激!谢谢!