我正在开发一个应用程序,该应用程序正在创建旧问题文件中的问题数据库。我想维护一个表,在插入时将类似的问题链接在一起。 (我想到的表是一个修改的预订遍历树)。
我的要求是:
关于如何继续进行算法方面的任何想法都将非常感激。
此外,我将处理包含数学符号的图像。我是否应该确保我的所有图像都在“ALT”属性中具有LaTeX,以确保它们可以通过此算法进行处理,或者是否有更好的方法可以执行此操作?
答案 0 :(得分:2)
您需要进行功能提取并阅读此内容。
数据挖掘的关键是预处理。您不能只是将硬盘扔到它上面并期望它找到任何有用的东西,但您需要通过适当地预处理数据来指导搜索。这可能是90%的工作。所以阅读特征提取!
答案 1 :(得分:2)
听起来你想要考虑两个问题,当它们具有相同的句子结构时,在删除你希望改变的句法模式的清单之后是相似的。因此,这个问题看起来类似于在语料库中检测近似重复文档的问题。
这样做的一种方法是称为“simhashing”的技术;一个人获取(预处理)文档并计算simhash指纹。像典型的哈希一样,指纹具有固定的大小,看起来像二进制乱码。 与典型的哈希不同,文本相似的文档也会有类似的指纹。通过选择指纹可以区别的最大(汉明)距离,您可以定义您认为“相似”的文档(问题)集群。
索引新问题的过程如下所示:
这篇book是一般信息检索的优秀入门读物。这是simhash paper。这是计算simhashes的简单程序的manpage,如果你不想自己实现算法,这可能是一个很好的起点。