Question

我正在学习数据挖掘。我的梦想是开发一个接收小文本（几个句子）的系统，并提供一个字典，其中包含来自文本的短语和来自数据库的大多数相关标签。例如，

输入（来自NYTimes网站）： “洛杉矶 - 沃尔特迪斯尼公司，旨在解决娱乐在儿童肥胖问题中的作用，计划于周二宣布所有在儿童电视频道，广播电台和网站上宣传的产品必须符合严格要求一套营养标准。“

输出：

"LOS ANGELES" : [USA, California, Los_Angeles, city], 
"The Walt Disney Company": [Walt_Disney, Corporation, USA, movies, entertainment], 
"childhood obesity" : [childhood, illness, health],
"all products advertised": [product, advertisement,
"television channel": [TV, broadcast, advertisement],
"radio station": [Radio, broadcast, advertisement],
"web sites": [Web, broadcast, advertisement]

我已下载英语和西班牙语维基百科转储。到目前为止，我设法使用python，lxml和nltk提取所有标题和标题中的单词。现在，我正在开发一个程序来查找转储中文章之间的链接网络，外部网站的链接等。另外，我正在考虑提取信息框。另外，我本周将在github上发布python代码。现在，我正在评论和测试它。

你能给我什么建议？你认为这个提案是否可行？

Answer 1

我建议您查看DBpedia，而不是手动处理原始Wikipedia转储。 DBpedia收获维基百科并构建它以便使关系易于查询。

还有其他项目可以抓取维基百科，例如： Semantic MediaWiki和Freebase。 WordNet也可能是有用的信息来源。词典/词库表示词之间的多种关系。

带维基百科转储的数据提取项目

1 个答案: