我是第一个承认我不是世界上最聪明人的人,但我对这个人感到茫然。
我希望能够访问英语维基词典项目中每个单词的单词和详细信息。 我看到他们做了数据转储,并且兴奋不已。这持续了3秒。 从那时起,我所做的一切都是在沮丧和烦恼中发誓和抽烟。
我使用的是Windows 7
我已经安装了最新版本的xampp(64位,在root用户安装)
我安装了最新的Java DK
我已将Xampp和JDK设置为以管理员身份运行
我抓住了文章页面文件
我把它们解压缩了。
我使用过mwxml2sql工具
我无法让它运行(无论我尝试过什么设置/标志)
我使用了mwxml2sql工具的GUI版本
它跑了 - 然后在4300行出错了
错误是关于name_title中的双键。
我看过wikokit - 但这似乎落后了几年。
我不知所措。
我已经查看了在导致密钥错误之前进入数据库的数据 我可以看到一些Blob格式的数据 我打算如何通过php访问该信息?
这是不是一个体面的(如#34; idiots":D)指南?
我是否真的必须抓取所有文件,安装维基,解析文件?
我的意思是如何处理欺骗性密钥问题(不像我可以打开sql文件并找到相关的行!)
所以,请 - 有人这样做或知道一种方法吗? 我唯一能想到的是实际上试图抓住网站 - 我不愿意这样做(wiki也不会)。
如果它是相关的 - 我特别是在单词形式,PoS,发音,定义,任何短语和相关单词之后。 像词源等那样的东西会很好,但并不重要。
如果有人建议,是的,我已经看过WordNet(设法找到一个mysql转储,然后就可以了)。我也看到了像MRC和CMU dict这样的资源 - 但没有一个拥有正确的权限。这就是为什么维基词典看起来如此吸引人的原因。但似乎格式/转储远非友好:(
那么,任何帮助或想法? 所有其他来源,指南,演练......都会有所帮助 或者,如果您可以告诉我导致错误的原因以及如何解决错误,以及如何访问单词数据,那将是极好的。
你自己 - 沮丧。
答案 0 :(得分:0)
我看过wikokit - 但这似乎落后了几年。
不,wikokit项目还活着:)链接:https://github.com/componavt/wikokit
您可以下载已解析的英文维基词典数据库:http://whinger.krc.karelia.ru/soft/wikokit/index.html将SQL转储文件上传到MySQL,并使用从英文维基词典中提取的定义,同义词和翻译。