如果Wikipedia这样大的网站如何将重复的条目排序?
从用户创建重复条目的那一刻起,我需要知道确切的过程,依此类推。如果你不知道,但你知道一种方法,请发送它。
---- ----更新
假设有wikipedia.com/horse,之后有人创建了wikipedia.com/the_horse,这是一个重复的条目!它应该被删除或者可能被重定向到原始页面。
答案 0 :(得分:8)
这是一个手动过程
基本上,诸如维基百科和stackoverflow之类的网站依赖于他们的用户/编辑者不会制作重复项或在意外创建它们时合并/删除它们。有许多功能可以使这个过程更容易,更可靠:
话虽如此,你仍然会在维基百科上找到很多重复的信息---但是编辑们会在添加时尽快清理它。
关于社区的一切(更新)
随着时间的推移,社区网站(如维基百科或stackoverflow)会随着时间的推移开发出自己的程序。请查看Wikipedia:about Stackoverflow:FAQ或meta.stackoverflow。您可以花几周时间阅读有关社区如何共同构建网站以及如何处理所出现问题的所有细节(但重要)细节。其中大部分都是针对您的贡献者的规则 - 但是当您制定规则时,他们的许多细节将被放入您网站的代码中。
作为一般规则,我强烈建议创建一个网站,其中包含一个简单的系统和一个小型社区的贡献者就共同目标达成共识并且对此感兴趣阅读您网站的内容,如愿意做出贡献,愿意妥协并手动纠正问题。在这个阶段,拥有社区和互助的“身份”比拥有许多访客或贡献者更重要。您将不得不花费大量时间和精力来处理问题,并将责任委派给您的成员。一旦网站有了基础和共同商定的方向,您就可以慢慢发展您的社区。如果你做得对,你将获得足够的支持者来分享新成员之间的额外工作。如果您不够在意,垃圾邮件发送者或巨魔将接管您的网站。
请注意,维基百科多年来发展缓慢到目前的规模。秘密不是“变大”,而是“保持健康成长”。
话虽如此,stackoverflow似乎以比维基百科更快的速度增长。您可能需要考虑在此处做出的不同权衡决策:stackoverflow在允许一个用户更改另一个用户的贡献方面受到更多限制。不良信息通常只是简单地下推到页面底部(排名较低)。因此,它不会产生像维基百科这样的文章。但是更容易解决问题。
答案 1 :(得分:3)
我可以在Yaakov的列表中添加一个: *维基百科确保在合并信息后,“The Horse”指向“Horse”,因此第二次不能使用相同的错误标题。
答案 2 :(得分:2)
如果您正在尝试使用这些功能设计自己的系统,那么关键的是:
在MediaWiki的情况下,这是通过特殊的“#REDIRECT”命令完成的 - 在第一行上仅使用“#REDIRECT [[new article title]]”创建的文章被视为URL重定向。
MediaWiki中使用的其他编辑系统非常简单 - 每个页面基本上都被视为一个文本块,没有任何结构,并且具有单流修订历史记录,任何读者都可以添加新版本。没有任何关于这一点的自动。
当您尝试创建主页时,会显示一条长消息,鼓励您以各种方式搜索页面标题,以查看现有页面是否已存在 - 许多网站都有类似的过程。 Digg是一个典型的例子,其中有一个积极的自动搜索试图说服你不要发布重复 - 你必须点击屏幕列出潜在的重复,并确认你的不同,然后才允许发布。
答案 3 :(得分:-1)
我认为他们有一个删除无关单词的过程,例如'the'来创建规范标题,如果它与现有页面匹配则不允许输入。