连接到网站查找单词(编译海量数据/ Webcrawler)

时间:2014-10-27 09:11:13

标签: c# web-crawler

我目前正在使用C#开发一个Word-Completion应用程序,在启动并运行UI,设置了键盘钩子以及其他类似的东西后,我意识到我需要一个WordList。唯一的问题是,我似乎无法找到一个有适当信息的人。我也不想花费整整一周的格式并手动收集WordList。 我想要的信息类似于" TheWord,定义,动词/等等。"

所以,它击中了我。为什么不下载除了单词之外的基本单词列表(已经这样做了;大约有109,523个单词),编写一个遍历每个单词的程序,连接到互联网,从某个任意站点检索数据(定义等),以及从所述信息创建XML数据。它可以100%自动化,我只需要等待一个小时,具体取决于我的互联网连接速度。

然而,这引出了一些问题。

  1. 应该如何我连接到网站查找这些字词?的<<这是我的实际问题。
  2. 我如何从网站上阅读这些信息?
  3. 我是否会因为这件事而烦恼我的ISP或网站?
  4. 这是一个非常糟糕的主意吗?洛尔。
  5. 你们怎么认为我应该这样做?

    修改

    有人注意到Dictionary.com在网址中使用了这个词作为后缀。这样可以轻松遍历word文件。我还看到网页存储在XHTML(或者只是HTML)中。这是Word" Cat"的来源。 http://pastebin.com/hjZj6AC1

1 个答案:

答案 0 :(得分:1)

对于您标记为实际问题的内容 - 您只需从网站下载数据并找到所需内容即可。 一个很好的工具是CsQuery,它允许你使用jquery选择器。 你可以这样做:

var dom = CQ.CreateFromUrl("http://www.jquery.com");
string definition = dom.Select(".definitionDiv").Text();