machine-learning - 机器学习 - 从文本中获取信息

我是机器学习和监督学习领域的新手。

我的任务如下：从磁盘上的电影文件名称，我想要检索有关该文件的一些元数据。我无法控制文件的命名方式，但它有一个标题和一个或多个附加信息，如发行年份，分辨率，演员姓名等。

目前我已经开发了一个基于规则启发式的系统，我将名称拆分为标记，并尝试理解每个单词可以表示的内容，单独使用或与相邻单词表示。例如，为了检测人名，我使用英文名称的数据集，如果我在数据集中找到它，则将该单词评为潜在的人的名字。如果与它相邻的是一个我作为潜在姓氏得分的单词，我将这两个单词评为演员。等等。它具有相当的准确性，但手动改变启发式分数，以及＃34;教授＆＃34;系统繁琐且不可预测。

这种基于规则的系统难以维持或进一步发展，因此，出于好奇，我正在探索机器学习领域。我想知道的是：

是否有某种关于这类问题的公开文献？
鉴于可用的数据集有限，ML是解决问题的好方法吗？
我将如何进行调试或尝试了解此类机器的结果？我已经遇到了＆＃34;简单化问题＆＃34;我开发的启发式引擎..

谢谢，任何建议都将不胜感激。

机器学习 - 从文本中获取信息

1 个答案: