如何从维基百科中提取单词的元数据?

时间:2015-03-20 04:48:23

标签: python machine-learning nlp scikit-learn wikipedia

我正在尝试自动化模型分类器的超参数调整。目前,如果给定单词​​是否是食品,则分类器吐出概率。例如,

au_jus,0.987698
xiao_long_bao,0.9999957701
masago,0.9999957472
andouille_sausage,0.9999957196
-chicken,0.9999956648
broccoli_carrots,0.9999956072
sora,0.9999955529

我需要从单词列表中找出误报。而不是手动通过每个单词和检查。我想知道,如果我可以查询维基百科关于这个词并检查元数据。如果它列在' Food'类别。那么我的分类器可能做得很好。否则,这是一个误报。主要思想是使流程自动化。

我最初认为维基百科是这方面的来源。欢迎任何其他替代方案/方法。我不介意发布代码,但这似乎与我当前的问题无关。因此,我不发布它。

1 个答案:

答案 0 :(得分:0)

另一种方法是查询DBPedia而不是维基百科。正如其网站所说,DBPedia"是一个众包社区,旨在从维基百科中提取结构化信息,并在网络上提供这些信息。例如,您可以使用SPARQL轻松查询数据库,以收集类型为" Food"的所有项目。自动查询构建器显示some of the output of that query