寻找易于搜索引擎索引的唯一ID模式

时间:2012-12-16 19:26:42

标签: search tags full-text-search search-engine uid

喜欢来自Microsoft - “KB2756872”或来自国家漏洞 数据库 - “CVE-2010-1428”或来自Red Hat - “RHSA-2010:0376”或 来自OID - “1.3.6.1.4.1.311”或来自UUID / GUID - “550e8400-e29b-41d4-a716-446655440000”

我想把几个工作放到UID上。见下......

我开发博客软件并且有想法在身体中放置唯一ID 每个帖子都可以轻松识别本地存储的副本 对应于远程发布的副本。

另外,我想发布许多不同的博客服务,如果有的话 是下来的文章可以从另一个访问。所以链接可以 死了,但如果我添加UID - 任何人都可以尝试通过网络搜索找到帖子 另一项服务!

这也允许收集一些文章传播 统计。许多网站只是复制内容(复制和写作) 重写机器人和人)打破搜索引擎。用UID我 很容易识别出这样的网站...

所以我的问题是如何制作UID(以哪种形式) 很容易被搜索引擎索引(网络,如谷歌/雅虎,和 公司,如Lucene / Solr / Sphinx / Xapian /等)。

我知道搜索引擎的一些限制,如:

  • 每个搜索部分仅
  • 它没有像gfh6wytrh6wu56he5gahj763那样被索引的尘埃

所以这项任务并不容易......

感谢任何建议(书籍/博客文章/等)。

2 个答案:

答案 0 :(得分:4)

您可以使用Tag URIs定义的RFC 4151

它们是全球唯一的,每个拥有域名或电子邮件地址至少一天的人都可以为它们做好准备。

请注意,这些URI仅标识,它们无法找到。因此,标签URI没有说明发布内容的任何内容。

假设您网站的域名是“example.com”。如果您创建博客帖子,则可以创建以下标记URI:

tag:example.com,2012-12:cute-cat

请注意,此URI中的日期不是发布日期!它必须是您拥有域的(过去)日期(分别是电子邮件地址)。如果您在2003年注册了域名,则始终可以使用以tag:example.com,2004:开头的标记URI(不是“2003”,因为“2003”意味着“2003-01-01”,这可能是您没有做过的时间' t拥有域名),然后是你控制下的(唯一)字符串。但是,如果您愿意,当然可以随时使用发布日期。但是不要使用未来的日期。

答案 1 :(得分:1)

您可以像使用CVE标识符一样使用基于年份和数字的文章标识符。由于您还需要修订版,因此可以在标识符后面添加点以澄清版本。例如,对于AW esome B log S服务,AWBS-2012-1.0将引用原始文档,AWBS-2012-1.1将引用第一次修订等。

但是,在使用之前,您需要确保AWBS是唯一的。 CVE是从池中手动分配的。您可能需要某种从池中分配AWBS的服务。它可能是一个简单的数据库查询。