页面具有链接到其他页面的超链接以及用于跳转到页面内某个位置的锚标记。我想保留锚标记并删除所有其他超链接。
锚标记示例:
<a class="footnote" href="#fnx" id="fnx_ref">x</a>
跳转到
<a class="footnote" href="#fnx_ref">x</a>
其中x
为1,2,3,4 ... n
。
需要删除页面中的所有其他超链接(包含或不包含class属性)。如何才能做到这一点?我应该使用 php regex 吗?
答案 0 :(得分:1)
不是使用RegEx
在html中找到合适的标签,而是使用DOMDocument
&amp; DOMXPath
如下所示。
最后一行简单地将最终的,编辑过的html回显到textarea,但你可以很容易地将它保存到文件中。
/* XPath expression to find all anchors that do not contain "#" */
$query='//a[ not ( contains( @href, "#" ) ) ]';
/* Some url */
$url='http://stackoverflow.com/questions/39737604/keeping-anchor-tags-and-removing-other-hyperlinks-php-regex';
/* get the data */
$html=file_get_contents( $url );
/* construct DOMDocument & DOMXPath objects */
$dom=new DOMDocument;
$dom->loadHTML( $html );
$xp=new DOMXPath( $dom );
/* Run the query */
$col=$xp->query( $query );
/* Process all found nodes */
if( !empty( $col ) ){
/*
As you are removing nodes from the DOM you should
iterate backwards through the collection.
*/
for ( $i = $col->length; --$i >= 0; ) {
$a = $col->item( $i );
$a->parentNode->removeChild( $a );
}
/* do something with processed html */
echo "<textarea cols=150 rows=100>",$dom->saveHTML(),"</textarea>";
}