我正在为2个字符串进行抄袭检测,而我正在使用" Levenshtein距离算法"找到抄袭的百分比和" tf idf"找到关键字。但是现在我遇到了突出显示文本类似文本的问题,我正在考虑使用关键字作为种子来形成集群并突出显示该集群,但它似乎有很多工作要做。任何人都可以指导我如何做到这一点,或任何其他方式。请帮我看看我的大学项目。
答案 0 :(得分:1)
假设您有自己的方法在文本中找到相似的字词,您可以在要标记的字词周围添加 span 标记,为其提供 class 属性,并将CSS类设置为 background-color:yellow;
我假设你有一个 foreach 评估来检查文本中的每个单词。
foreach (word in words)
{
if (*word is similar*)
{
word = "<span class='highlight'>" + word + "</span>";
}
}
并在您的HTML / CSS
中.highlight
{
background-color: yellow;
}
答案 1 :(得分:0)
我使用LCS获取常见的子串(我知道它不完美)并使用@Mithgroth突出显示这些子串