使用PHP提取导入的URL值和名称?

时间:2012-12-14 20:13:55

标签: php html-parsing

我有一个包含此类列表的网页,大约有500个项目:

<br><a href="urlvalue" >URL Name 1</a> text</br>
<br><a href="urlvalue" >URL with a longer url</a>text</br>
<br><a href="urlvalue" >URL Name3 and this one too?</a> text</br>

我想将此页面上的数据导入excel。所以,我想把这里的数据转换成这样的东西:

URL value  | URL Name | Text 

我真的愿意接受:

URL value | URL Name

我正在使用它:

我使用过simple-html-dom

<?php
require ('simple_html_dom.php');
$html = file_get_html('Etext_alt2.html');


foreach($html->find('a') as $element)
    echo $element->href .'<br>'; 
?>

这给了我一个很好的URL值列表。

似乎我应该能够访问其他属性,但没有任何作用。

我使用了错误的东西吗?最好的方法是什么?

1 个答案:

答案 0 :(得分:-1)

无需解析HTML即可完成任务的工作示例:

$html = '<br><a href="urlvalue" >URL Name 1</a> text</br>
<br><a href="urlvalue" >URL with a longer url</a>text</br>
<br><a href="urlvalue" >URL Name3 and this one too?</a> text</br>';

preg_match_all('#<br><a href="(.*)" >(.*)</a>(.*)</br>#', $html, $matches, PREG_SET_ORDER);

foreach ($matches as $row) {
    echo "{$row['1']} | {$row['2']} | {$row['3']}" . PHP_EOL;
}