根据本文Extremely Fast Text Feature Extraction for Classification and Indexing SpeedyFX是一种非常快速的散列算法。
我想知道是否有人拥有此算法的Java实现。
答案 0 :(得分:2)
对于UTF-8和Unicode处理,原始实现有点有缺陷。它只考虑Unicode Plane 0,而在平面1和2中实际上有很多单词字符(截至2012年12月28日,在平面3-16中没有单词字符)。
FWIW,我有implemented the SpeedyFx algorithm in C,作为Perl模块Text::SpeedyFx的一部分。对于UTF-8和ISO 8859-1编码的字符串,我的工作非常棒。