有没有PHP的开源文本分析库?

时间:2009-12-12 20:59:34

标签: php open-source text analysis

我正在寻找一个与此网页大致相同的PHP库:http://textalyser.net/

我知道python和java中有流行的库,但我正在寻找PHP版本。谢谢你的帮助!

3 个答案:

答案 0 :(得分:3)

简答

据我所知,这不是一个,或者至少不是一个众所周知的/ 分布均匀的。

长答案

我遇到的关闭事实代码是php-text-statistics Dave Child(因为PEAR version已经无法维持)但是 只关注可读性和句子,单词和音节计数。 您需要使用count_chars获取的任何其他数据, str_word_countsubstr_countpreg_match_all等。当然有些数学 计算所有百分比的技能。

那就是说,我不确定完全你想让图书馆做什么,或者 http://textalyser.net/做了什么...... (我的意思是 是一个停止列表?或者是一个详尽的多字词短语,为此 物质...?)

答案 1 :(得分:3)

很老的问题......
无论如何,如果你想找到两个给定字符串之间的相似性,那么PHP就是一个内置函数similar_text

语法: similar_text ($first, $second, &$percent = null);

//*Find the similarity/difference between two strings in percentage
$pc = 0;
similar_text('You rock!', 'I Rock too!!',$pc);
print $pc;

输出: 57.142857142857

如上所述,此值是两个字符串相似的百分比。

  

注意:此功能区分大小写

$pc = 0;
similar_text('you', 'YOU',$pc);
print $pc;  

会给0!

我遇到的另外两个这样的功能是:
Levenshtein距离&探测法

有关详细信息,请查看official documentation

答案 2 :(得分:2)

我正在寻找一个类似的东西,到目前为止我找到的选项是利用Zend Lucene搜索功能。

http://www.opendocs.net/php/zend/ZendFramework-0.1.5/documentation/end-user/pl/zend.search.extending.html

或者查看Open Calais API。 http://www.opencalais.com/(来自汤森路透)

我还没有探索任何深度的选项,但我认为它们可能会有一些里程用于构建动态链接或超文本化网页。