我想将列表(在文件或数据库中)中的单词更改为HTML网站中的链接。我使用str_replace,但我有替换单词的问题,已经在链接auchor。
例如。我有这样的HTML:
Lorem ipsum donor et simet <a>lorem ipsum</a> eta raoa talkesa z uta.
我想将所有“ipsum”替换为链接,但是在 [a] lorem ipsum [a] 中跳过ipsum。 我不知道,maby preg_replace?
答案 0 :(得分:2)
所以我的理解是你有一个单词列表,需要在HTML体内链接。 str_replace()处理它,但不是已经在锚点内的链接?
如果匹配的单词位于锚标记内,您希望忽略它们吗?
PHP不支持可变宽度负向后观,因此不可能说不匹配在匹配单词前面有锚标记,因为头锚标记是可变长度。
我处理这类问题的方法是替换所有这些问题,然后撤消不应该进行的更改。
<?php
// Setup data
$words = array('lorem' => 'www.google.com',
'ipsum' => 'www.bbc.co.uk',
'test' => 'www.amazon.co.uk');
$textBody = '<p>This is a short test of <a href="www.slashdot.org">lorem ipsum</a> automatic anchoring. Let us see if it works, any incidences of lorem or ipsum, should be caught.</p>';
// Make basic replacements, but use a different tag than anchor
// so it can be detected separately from previously existing anchors
// I am using the <argh> tag
$wordExpressions = array();
$wordReplacements = array();
foreach ($words as $cWord => $cLink) {
$wordExpressions[] = '#' . preg_quote($cWord) . '#';
$wordReplacements[] = '<argh href="' . $cLink . '">' . $cWord . '</argh>';
}
$replacedText = preg_replace($wordExpressions, $wordReplacements, $textBody);
// At the moment, there are nested anchors
echo $replacedText;
// Use a fairly horrific recursive anchor tag callback replacement to delete any
// <argh> tags inside <a> tags
$replacedText =
preg_replace_callback("#(<a [^>]*>)((?:[^<]|<(?!/?a>)|(?R))+)(</a>)#",
create_function('$a', 'return $a[1] . preg_replace("#<argh[^>]*>(.*?)</argh>#", "$1", $a[2]) . $a[3];'),
$replacedText);
// No nested anchors now
echo $replacedText;
// Finally replace the <argh> tags with straight <a>s
$replacedText = preg_replace(array('#<argh #', '#</argh>#'), array('<a ', '</a>'), $replacedText);
// The output should now be correct
echo $replacedText;
?>
这看起来比它更糟糕,尤其是递归正则表达式回调。所有这一切都匹配成对的锚标签,并将匹配传递给一个简单返回修补对的函数,并从内部内容中剥离新标签。关于在"Mastering Regular Expressions" by Jeffery Friedl中使用递归替换的讨论很好。
标签可以是任何东西,我使用该单词,因为它不太可能存在于HTML中,并且似乎适合于手头的问题。 : - )
这样的事情对你有用吗?