我一直致力于使用PHP中的正则表达式从网站的特定页面中删除数据的程序。
<?php
ini_set("user_agent", "PHP");
$url = "http://www.example.com/page.html";
$output = file_get_contents($url);
preg_match('#<h1 class="title" itemprop="name">(.*)</h1>#', $output, $match);
echo $match[1] ."<br>";
?>
如何创建一个程序来获取网站的所有现有链接以从中获取数据?而不是打开浏览器中的每个链接并手动插入,这比手动输入数据而不是报废更糟糕。
我了解JavaScript,Python和PHP,可以使用这三种语言中的任何一种。
答案 0 :(得分:0)
import bs4
for link in bs4.BeautifulSoup(urllib2.urlopen(target_url).read()).find_all("a"):
print link