应用错误收集

时间：2016-02-03 23:33:00

标签： scala machine-learning information-retrieval wikidata wikidata-api

我有很多文本（数百万），从100到4000字不等。文本被格式化为书面作品，带有标点符号和语法。一切都用英文。

问题很简单：如何从给定文本中提取每个WikiData实体？

实体被定义为每个名词，正确或规则。即，人员，组织，地点和诸如主席，土豆等的名称。

到目前为止，我已尝试过以下内容：

此有效，但我觉得我可以做得更好。一个明显的改进是在本地缓存WikiData的相关部分，我计划这样做。但是，在我这样做之前，我想检查是否有其他解决方案。

建议？

我标记了Scala这个问题，因为我正在使用Spark来完成任务。

答案 0 :(得分：3)

一些建议：

特别是，DBpedia Spotlight是专为此任务而设计的一个系统。