在大型内容集中自动创建上下文链接的工具或方法?

时间:2009-01-12 19:33:21

标签: seo nlp

这是基本情景 - 我有10万篇类似报纸的文章。最低限度的是,他们都将拥有明确的标题和一些身体内容。

我想要做的是在文章中查找应该链接到其他文章的文本。

所以,如果文章Foo有一系列文字,例如“8年级的学生被鼓励阅读John-Paul Sartre的作品”,文章Bar的标题是(和约)“John-Paul Sartre的重要作品” ,我想在Foo文本中自动创建从Foo到Bar的HTML链接。

2 个答案:

答案 0 :(得分:2)

在添加链接之前,您应该问自己一些事情。通过这样做,您希望用户获得哪些好处?您可能希望提高网站的可导航性。也许最好创建一种更简单的方法来添加用于提交新文章的表单中的旧文章的链接。也许可以添加“一键搜索所选文本”功能。也许你可以添加类似wiki的功能,让用户建议所选文本的链接。您可能希望在文章下方添加指向相关文章的链接(通过标记系统或文本挖掘生成)。

全自动链接加法器的一些潜在问题: 您可能需要实现一个良好的词义消歧算法,以避免因使用正则表达式(或简单的子串匹配)放置错误的自动链接而使用户感到困惑甚至恼怒。

由于文章数量很大,您不希望在每个请求中为额外链接生成html,而是缓存它。

您需要对包含其他标题作为子字符串的重复标题或标题做出决定(获取最长标题或链接到最近的文章或更喜欢同一类别的文章)。

TLDR版本:找到为用户提供所需功能的替代解决方案。

答案 1 :(得分:1)

您正在寻找的是文本挖掘工具。您可以在http://en.wikipedia.org/wiki/Text_mining找到更多信息和链接。您可能还想在http://lucene.apache.org查看Lucene及其端口。使用这些工具,基本思想是根据相关文章(或标题)找到一组类似的文章。您可以搜索文章的各种属性,包括标题和内容,或两者。标签系统a Delicious(或Stackoverflow)也可能有所帮助。您可以在界面中展示相关文章,而不是预先创建文章之间的链接,就像本页右侧的“相关问题”界面一样。

如果您想在每篇文章中查找并链接特定文本,我认为您需要进行一些预处理以选择要关键的相关短语。即便如此,我认为由于标点符号/拼写错误而不会错过任何内容或者出于同样的原因不包含不相关的链接会非常困难。