在不知道substr的情况下计算单词列表中子串的唯一外观?

时间:2012-06-21 09:18:09

标签: php count preg-match substring preg-match-all

* 我尝试计算单词列表* 中子字符串的独特外观 因此,请检查单词列表,并检测是否有任何单词基于多次出现的最小字符的子字符串并计算它们。我不知道任何子串。

这是一个可行的解决方案,其中你知道子串但是如果你不知道会是什么? 这是单词基于的最小字符数。

将找到所有单词“Book”是单词的子字符串。使用下面的php函数。

通缉结果:

book count (5)
stor count (2)

2 个答案:

答案 0 :(得分:1)

这是我的第一个近似值:未完成,未经测试,至少有1个错误,并且是用埃菲尔写的。好吧,我不打算为你做所有的工作。

deferred class
    SUBSTRING_COUNT
feature
    threshold : INTEGER_32 =5

    biggest_starting_substring_length(a,b:STRING):INTEGER_32
        deferred
    end

    biggest_starting_substring(a,b:STRING):STRING
    do
        Result := a.substring(0,biggest_starting_substring_length(a,b))
    end

    make_list_of_substrings(a,b:STRING)
    local
        index:INTEGER_32
        this_one: STRING
    do
        from
            a_index := b_index + 1
        invariant
            a_index >=0 and a_index <= a.count
        until
            a_index >= a.count
        loop
            this_one := biggest_starting_substring(a.substring (a_index, a.count-1),b)
            if this_one.count > threshold then
                list.extend (this_one)
            end
        variant
            a.count - a_index
        end
    end -- biggest_substring

    list : ARRAYED_LIST[STRING]

end

答案 1 :(得分:1)

给出长度为100的字符串

book bookstore bookworm booking book cooking boring bookingservice.... ok
0123456789...                                                     ... 100

您的算法可能是:

调查来自不同起点和子串长度的子串。 从0开始,所有子串从1-100开始,因此:0-1,0-2,0-3,...并查看这些子串中的任何一个是否在整个字符串中多次篡改。 通过从增加的位置开始,从1开始搜索所有子串,即1-2,1-3,1-4,......等等,直到达到99-100为止,通过字符串前进。

保留一个包含所有子串及其出现次数的表格,您可以对它们进行排序。

您可以通过指定最小和最大长度进行优化,从而极大地减少搜索次数和命中准确度。此外,一旦找到子字符串将它们保存在搜索的子字符串数组中。如果再次遇到子字符串,请跳过它。 (即,当您点击下一个book子字符串时,您已计算过的book点击次数不应再次计算。此外,您永远不必搜索长度超过总字符串一半的字符串。

对于示例字符串,您可以对字符串的单一性进行额外测试。 你有

o              x ..
oo             x  7
bo             x  7
ok             x  6 
book           x  5
booking        x  2
bookingservice x  1

如果忽略短于3的叮咬(并且超过文本字符串总数的一半),你就会得到

book           x  5
booking        x  2
bookingservice x  1

这已经是一个看似合理的结果。

[edit]这显然会查看所有字符串,而不仅仅是自然字。

[编辑]通常我不喜欢为OP编写代码,但在这种情况下我对自己有点兴趣:     

$string = "book bookshelf booking foobar bar booking ";
$string .= "selfservice bookingservice cooking";

function search($string, $min = 4, $max = 16, $threshhold = 2) {
    echo "<pre><br/>";
    echo "searching <em>'$string'</em> for string occurances ";
    echo "of length $min - $max: <br/>";

    $hits = array();
    $foundStrings = array();

    // no string longer than half of the total string will be found twice
    if ($max > strlen($string) / 2) {
        $max = strlen($string);
    }

    // examin substrings:
    // start from 0, 1, 2...
    for ($start = 0; $start < $max; $start++) {

        // and string length 1, 2, 3, ... $max
        for ($length = $min; $length < strlen($string); $length++) {

            // get the substring in question, 
            // but search for natural words (trim)
            $substring = trim(substr($string, $start, $length));

            // if substring was not counted yet, 
            // add the found count to the hits
            if (!in_array($substring, $foundStrings)) {
                preg_match_all("/$substring/i", $string, $matches);
                $hits[$substring] = count($matches[0]);
            }
        }
    }

    // sort the hits array desc by number of hits
    arsort($hits);

    // remove substring hits with hits less that threshhold
    foreach ($hits as $substring => $count) {
        if ($count < $threshhold) {
            unset($hits[$substring]);
        }
    }

    print_r($hits);
}

search($string);

?>

注释和变量名称应该使代码自己解释。在您的情况下,$ string将用于读取文件。这个例子会输出:

searching 'book bookshelf booking foobar bar booking selfservice 
bookingservice cooking' for string occurances of length 4 - 16: 
Array
(
    [ook] => 6
    [book] => 5
    [boo] => 5
    [bookin] => 3
    [booking] => 3
    [booki] => 3
    [elf] => 2
)

让我知道你是如何实现的:)