机器学习 - 从文本中获取信息

时间:2018-02-25 23:21:33

标签: machine-learning heuristics data-extraction

我是机器学习和监督学习领域的新手。

我的任务如下:从磁盘上的电影文件名称,我想要检索有关该文件的一些元数据。我无法控制文件的命名方式,但它有一个标题和一个或多个附加信息,如发行年份,分辨率,演员姓名等。

目前我已经开发了一个基于规则启发式的系统,我将名称拆分为标记,并尝试理解每个单词可以表示的内容,单独使用或与相邻单词表示。例如,为了检测人名,我使用英文名称的数据集,如果我在数据集中找到它,则将该单词评为潜在的人的名字。如果与它相邻的是一个我作为潜在姓氏得分的单词,我将这两个单词评为演员。等等。它具有相当的准确性,但手动改变启发式分数,以及#34;教授"系统繁琐且不可预测。

这种基于规则的系统难以维持或进一步发展,因此,出于好奇,我正在探索机器学习领域。我想知道的是:

  • 是否有某种关于这类问题的公开文献?
  • 鉴于可用的数据集有限,ML是解决问题的好方法吗?
  • 我将如何进行调试或尝试了解此类机器的结果?我已经遇到了"简单化问题"我开发的启发式引擎..

谢谢,任何建议都将不胜感激。

1 个答案:

答案 0 :(得分:1)

你需要研究NLP(自然语言处理)。 NLP处理文本处理和其他事情;例如实体识别和标记。

以下是使用Spacy库的示例:https://spacy.io/usage/linguistic-features

前段时间我做了类似的事情,你可以在这里看到:https://github.com/Erlemar/Erlemar.github.io/blob/master/Notebooks/Fate_Zero_explore.ipynb