我希望能够从来自任意数量的不同来源的自由文本生成标记云。为清楚起见,我不是在谈论如何在发现关键标签/短语后显示标签云,我希望能够自己发现有意义的短语......最好是在PHP / MySQL堆栈上。< / p>
如果我必须自己这样做,我首先要为单词/短语建立某种索引,为任何单词/短语提供“正常”频率。例如,“君士坦丁堡”平均每1,000,000个单词出现一次(正常频率“0.000001”)。然后,当我分析一组文本时,我会找到单个单词/短语(另一个挑战!),在输入中找到每个单词的频率,并根据预期的频率进行测量。对预期频率具有最高比率的词在云中得到提升。
我想相信其他人已经做到了这一点,比我希望的更好,但如果我能找到它,我会被诅咒。
任何建议??
答案 0 :(得分:1)
您需要一个由全文搜索引擎使用的倒排索引。像Lucene或Xapian这样的文本搜索库应该有所帮助,许多这样的库都有PHP绑定。