创建引用bot的信息库

时间:2013-08-15 19:53:42

标签: repository bots information-retrieval information-extraction

我想创建一个机器人。有人会键入“!123”,机器人将在存储库中搜索值“123”并返回(粘贴)为该值找回的信息。我希望这是通用的...意味着它可以在任何地方使用,所以可能是某种firefox插件。

有人可以向我提供我可以从哪里开始的信息吗?

我对c#和java中的编程有所了解。

P.s这并不打算成为某种垃圾邮件机器人,我只想拥有一组人们可以轻松引用它的信息。

1 个答案:

答案 0 :(得分:0)

您的项目有多个部分。

  1. 将从Web抓取数据并将数据保存在数据库中的Bot。 (考虑到您正在考虑从Web构建您的存储库)。 Google Web Crawler / Scrapper
  2. 数据提取器/清洁器,用于清理数据并提取有关特定文档的相关信息。 (这很重要,以便您可以标记相关信息的信息)
  3. 然后是搜索引擎部分,它使您能够从存储库中检索相关数据。尝试{/ 3}}算法