从python中的个人字典命名实体识别

时间:2016-04-06 15:16:42

标签: python parsing dictionary named-entity-recognition

我有一个包含大量条目的大型数据库(其中大多数是电影),只有描述信息。 ID为1的条目(例如)的描述可能如下:

  “阿甘正传”是一部1994年美国史诗浪漫喜剧电影   1986年由Winston Groom创作的同名小说。这部电影是   由Robert Zemeckis和明星Tom Hanks,Robin Wright,Gary执导   Sinise,Mykelti Williamson和Sally Field。'

现在我还有一些基本上是词典的txt文档,结构如下:

actors.txt

Mickey Mouse
Tom Hanks
...

directors.txt

Donald Duck
Robert Zemeckis
...

我想要做的是分析每个条目的描述并从我的字典中解析命名实体。因此,如果文本包含'Tom Hanks',我想要认识到ID为1的条目有Tom Hanks作为演员,依此类推。输出应该是这样的:

Actor: Tom Hanks, Actor: Robin Wright, Director: Robert Zemeckis, Distributor: Paramount Pictures.

或任何易于操作的格式。

1 个答案:

答案 0 :(得分:1)

您要做的就是使用SOLR,在其架构中设置一些新的字段类型(如text_actors),这些字段链接到相应的字典,编写相应的架构,然后导入数据库。据我所知,这可以帮助您开发一个可搜索的数据库,您可以从中查询所有结果并填充您自己的数据库。