我目前正在使用C#开发一个Word-Completion应用程序,在启动并运行UI,设置了键盘钩子以及其他类似的东西后,我意识到我需要一个WordList。唯一的问题是,我似乎无法找到一个有适当信息的人。我也不想花费整整一周的格式并手动收集WordList。 我想要的信息类似于" TheWord,定义,动词/等等。"
所以,它击中了我。为什么不下载除了单词之外的基本单词列表(已经这样做了;大约有109,523个单词),编写一个遍历每个单词的程序,连接到互联网,从某个任意站点检索数据(定义等),以及从所述信息创建XML数据。它可以100%自动化,我只需要等待一个小时,具体取决于我的互联网连接速度。
然而,这引出了一些问题。你们怎么认为我应该这样做?
修改
有人注意到Dictionary.com在网址中使用了这个词作为后缀。这样可以轻松遍历word文件。我还看到网页存储在XHTML(或者只是HTML)中。这是Word" Cat"的来源。 http://pastebin.com/hjZj6AC1
答案 0 :(得分:1)
对于您标记为实际问题的内容 - 您只需从网站下载数据并找到所需内容即可。 一个很好的工具是CsQuery,它允许你使用jquery选择器。 你可以这样做:
var dom = CQ.CreateFromUrl("http://www.jquery.com");
string definition = dom.Select(".definitionDiv").Text();