我有一个包含文章文本的字符串。这是洒有BBCodes(方括号之间)。我需要能够抓住第一个说200个字符的文章,而不是在bbcode中间切断它。所以我需要一个可以安全地切断它的索引。这将给我文章摘要。
它应该给我“安全”指数,该指数在200之后并且不会切断任何BBC代码。
希望这是有道理的。我一直在努力解决这个问题。我的正则表达技巧只是温和的。谢谢你的帮助!
答案 0 :(得分:4)
首先,我建议你考虑用一个完全包裹在BBcodes中的帖子做什么,就像在字体标签的情况下一样。换句话说,所述问题的解决方案很容易导致包含整篇文章的“摘要”。识别哪些标签仍处于打开状态并附加必要的BB代码以关闭它们可能更有价值。当然,在链接的情况下,它将需要额外的工作,以确保您不会破坏它。
答案 1 :(得分:2)
嗯,显而易见的 easy 答案是在没有任何bbcode驱动标记的情况下显示您的“摘要”(正则表达式取自here)
$summary = substr( preg_replace( '|[[\/\!]*?[^\[\]]*?]|si', '', $article ), 0, 200 );
但是,你明确描述的工作是否需要的不仅仅是一个正则表达式。词法分析器/解析器可以解决问题,但这是一个中等复杂的主题。我会看看我能不能找到什么。
这是词法分析器的一个非常贫民窟的版本,但是对于这个例子它是有效的。这会将输入字符串转换为bbcode标记。
<?php
class SimpleBBCodeLexer
{
protected
$tokens = array()
, $patterns = array(
self::TOKEN_OPEN_TAG => "/\\[[a-z].*?\\]/"
, self::TOKEN_CLOSE_TAG => "/\\[\\/[a-z].*?\\]/"
);
const TOKEN_TEXT = 'TEXT';
const TOKEN_OPEN_TAG = 'OPEN_TAG';
const TOKEN_CLOSE_TAG = 'CLOSE_TAG';
public function __construct( $input )
{
for ( $i = 0, $l = strlen( $input ); $i < $l; $i++ )
{
$this->processChar( $input{$i} );
}
$this->processChar();
}
protected function processChar( $char=null )
{
static $tokenFragment = '';
$tokenFragment = $this->processTokenFragment( $tokenFragment );
if ( is_null( $char ) )
{
$this->addToken( $tokenFragment );
} else {
$tokenFragment .= $char;
}
}
protected function processTokenFragment( $tokenFragment )
{
foreach ( $this->patterns as $type => $pattern )
{
if ( preg_match( $pattern, $tokenFragment, $matches ) )
{
if ( $matches[0] != $tokenFragment )
{
$this->addToken( substr( $tokenFragment, 0, -( strlen( $matches[0] ) ) ) );
}
$this->addToken( $matches[0], $type );
return '';
}
}
return $tokenFragment;
}
protected function addToken( $token, $type=self::TOKEN_TEXT )
{
$this->tokens[] = array( $type => $token );
}
public function getTokens()
{
return $this->tokens;
}
}
$l = new SimpleBBCodeLexer( 'some [b]sample[/b] bbcode that [i] should [url="http://www.google.com"]support[/url] what [/i] you need.' );
echo '<pre>';
print_r( $l->getTokens() );
echo '</pre>';
下一步是创建一个遍历这些标记的解析器,并在遇到每种类型时采取行动。也许我以后会有时间做这件事......
答案 2 :(得分:1)
这听起来不像(仅)正则表达式的工作。 “简单编程”逻辑是更好的选择:
答案 3 :(得分:0)
这是一个开始。我目前无权访问PHP,因此您可能需要进行一些调整才能使其运行。此外,此不会确保标记已关闭(即字符串可能没有[/ url]的[url])。此外,如果字符串无效(即并非所有方括号都匹配),它可能无法返回您想要的内容。
function getIndex($str, $minLen = 200)
{
//on short input, return the whole string
if(strlen($str) <= $minLen)
return strlen($str);
//get first minLen characters
$substr = substr($str, 0, $minLen);
//does it have a '[' that is not closed?
if(preg_match('/\[[^\]]*$/', $substr))
{
//find the next ']', if there is one
$pos = strpos($str, ']', $minLen);
//now, make the substr go all the way to that ']'
if($pos !== false)
$substr = substr($str, 0, $pos+1);
}
//now, it may be better to return $subStr, but you specifically
//asked for the index, which is the length of this substring.
return strlen($substr);
}
答案 4 :(得分:0)
我写了这个函数应该做你想要的。它计算n个字符数(标记中的字符除外),然后关闭需要关闭的标记。示例使用包含在代码中。代码是在python中,但应该很容易移植到其他语言,如PHP。
def limit(input, length):
"""Splits a text after (length) characters, preserving bbcode"""
stack = []
counter = 0
output = ""
tag = ""
insideTag = 0 # 0 = Outside tag, 1 = Opening tag, 2 = Closing tag, 3 = Opening tag, parameters section
for i in input:
if counter >= length: # If we have reached the max length (add " and i == ' '") to not make it split in a word
break
elif i == '[': # If we have reached a tag
insideTag = 1
elif i == '/': # If we reach a slash...
if insideTag == 1: # And we are in an opening tag
insideTag = 2
elif i == '=': # If we have reached the parameters
if insideTag >= 1: # If we actually are in a tag
insideTag = 3
elif i == ']': # If we have reached the closing of a tag
if insideTag == 2: # If we are in a closing tag
stack.pop() # Pop the last tag, we closed it
elif insideTag >= 1:# If we are in a tag, parameters or not
stack.append(tag) # Add current tag to the tag-stack
if insideTag >= 0: # If are in some type of tag
insideTag = 0
tag = ""
elif insideTag == 0: # If we are not in a tag
counter += 1
elif insideTag <= 2: # If we are in a tag and not among the parameters
tag += i
output += i
while len(stack) > 0:
output += '[/'+stack.pop()+']' # Add the remaining tags
return output
cutText = limit('[font]This should be easy:[img]yippee.png[/img][i][u][url="http://www.stackoverflow.com"]Check out this site[/url][/u]Should be cut here somewhere [/i][/font]', 60)
print cutText