剽窃分析器(与Web内容相比)

时间:2009-10-14 16:07:09

标签: java mysql web-crawler plagiarism-detection

全世界的每个人,

背景

我是计算机科学的最后一年学生。我提出了我的最终双模块项目,它是一个使用Java和MySQL的抄袭分析器。

抄袭分析器将:

  1. 扫描上传文件的所有段落。分析从哪个网站复制的每个段落的百分比。
  2. 仅突出显示从每个段落中的哪个网站准确复制的单词。
  3. 我的主要目标是开发像Turnitin这样的东西,尽可能改进。

    我有不到6个月的时间来开发该计划。我确定了以下内容:

    1. 网络抓取工具实施。可能会使用Lucene API或开发自己的Crawler(在时间开发和可用性方面哪一个更好?)。
    2. 哈希和索引。改进搜索和分析。
    3. 问题

      以下是我的问题:

      1. MySQL可以存储那么多信息吗?
      2. 我是否错过了任何重要主题?
      3. 您对此项目有何看法?
      4. 进行相似性分析的任何建议或技巧?
      5. 是否可以对段落进行哈希处理以及单词?
      6. 提前感谢您的任何帮助和建议。 ^^

3 个答案:

答案 0 :(得分:4)

您是否考虑过另一个因缺乏资源而注定失败的项目?

如果你真的想去“嘿,让我们抓住整个网络!”路线,你需要打破像HBase和Hadoop以及许多机器这样的东西。 MySQL将严重不足。 TurnItIn声称已经抓取并索引了120亿页。谷歌的索引更像是[编辑]。 MySQL或者任何RDBMS都无法扩展到那个级别。

你将能够把这事办成唯一现实的办法是,如果你做一些令人惊讶的聪明,并找出如何构建查询,谷歌将揭示的是已经出现在谷歌的索引文件剽窃。我建议使用消息队列并同步访问搜索API。消息队列还允许您将查询限制在合理的速率。避免使用停用词,但您仍然在寻找接近完全匹配的内容,因此查询应该是:"* quick brown fox jumped over * lazy dog"不要打扰运行最终的查询:"* * went * * *"并忽略返回的结果94,000,000次点击。那些不会是抄袭,它们将是着名的引言或过于笼统的问题。您正在寻找不到10次点击或几千次点击,这些点击都与原始句子或类似指标完全匹配。即便如此,这应该只是一种启发式 - 除非有很多危险信号,否则不要标记文档。相反,如果一切都以零点击回归,那么它们就会变得非常原始。书籍搜索通常需要更精确的查询。足够可疑的东西应该触发对原始页面的HTTP请求,最终的决定应该始终是人类的权限。如果一个文件引用它的来源,那不是抄袭,你会想要发现它。假阳性是不可避免的,如果不是不变的话,可能会很常见。

请注意,服务条款禁止永久存储Google索引的任何部分。

无论如何,无论你如何构建它,你都选择做一些非常努力的事情,除非你涉及谷歌,否则你可能会非常昂贵和耗时。

答案 1 :(得分:1)

1)制作自己的网络抓取工具?看起来您可以轻松地使用所有可用时间来完成此任务。尝试使用标准解决方案:它不是您计划的核心。

您仍然有机会自己制作或尝试另一个(如果您还有时间!)。 您的程序应仅适用于本地文件,以免与特定的爬虫/ API绑定。

也许您甚至不得不为不同的网站使用不同的抓取工具

2)散列整段是可能的。你可以只散列任何字符串。 但当然这意味着你只能检查完全复制的整个paragrpahs。 也许句子​​是一个更好的测试单位。 您可能应该在散列之前对句子/ paragrpah进行“规范化”(转换)以排除小写差异,例如大写/小写。

3)MySQL可以存储大量数据。

通常的建议是:坚持使用标准SQL。如果您发现数据太多,您仍然可以使用其他SQL实现。

但是当然如果你有太多的数据,首先要看看减少它的方法,或者至少减少mySQL中的内容。例如,您可以在MySQL中存储哈希,但在普通文件中存储原始页面(如果需要)。

答案 2 :(得分:0)

在线代码通常在OpenSource许可下分发。大多数代码只是教程。根据你的逻辑,从任何网站复制任何东西都是抄袭。这意味着你不能接受和使用你在这里得到的任何答案。如果你真的想完成你的项目,只需编写一个系统,比较同一班级和以前班级的学生的代码。效率更高。这种系统的一个例子是MOSS(还有一篇论文谈论它是如何工作的)。没有任何网络抓取工具,这件事非常有效。