从URL页面源中提取关键字

时间:2018-09-09 17:53:32

标签: html

此关键字是“ 已识别”标签<span id="example"> keyword </span>。所以我想知道我可以从哪种语言开始,以便制作一个可以为我完成这项工作的程序,因为我有很多要处理的URL,并且要花很多时间手动进行。

1 个答案:

答案 0 :(得分:0)

您可以使用PHP的preg_match()来删除关键字,而要获取源代码则可以使用文件file_get_contents(),您必须学习一些正则表达式

$url = 'www.example.com' ;
$WebPage = file_get_contents($url) ;
$Pattren = '/ some regex pattren to capture the right keyword /' ;
preg_match_all($Pattren,$WebPage,$result,PREG_PATTERN_ORDER);
var_dump($result);