我需要使用认知系统(如Watson)开发一个应用程序来检测源代码中的抄袭印记。 此时我正在使用Jplag(https://github.com/jplag/jplag)来分析源代码并获取标记化文件。
在这里我的问题,我已经看到Watson是一个非常用于非结构化文件分析的系统。相反,标记化文件是高度结构化的,无法使用IBM Watson提供的大多数服务进行分析。 例如,Watson Discovery可以在电子邮件或出版物中提供有关感受或主题的信息,并查找构成语料库的文件之间的链接。不幸的是,Watson无法为此目的读取标记化文件(或者我不知道该怎么做)。
我找到了Watson Analytics,它应该提供数字和结构化文件之间的关联。但是我无法达到试用期,所以我无法测试它。
我想知道我是否可以将Watson Analytics用于我的目的。我应该坚持这种方式还是我错过了一些建议?
答案 0 :(得分:0)
您是否尝试过Watson Content Analytics?它支持标记化,希望能帮助您找到源代码文件中的抄袭。
我不是百分百肯定,这是您正在寻找的内容,但是有关它的更多信息:https://www.ibm.com/support/knowledgecenter/en/SS5RWK_3.5.0/com.ibm.discovery.es.ta.doc/iiysputai.htm
但是,Watson Analytics可能不适合您的项目。