使用NLP /机器学习匹配电视和电影文件名称?

时间:2017-07-04 10:31:09

标签: machine-learning nlp tokenize text-classification

所以我想知道是否有办法使用NLP /机器学习来标记/标记电视或电影文件。

我知道有很多regexp方法可以做到这一点但是不应该用NLP /机器学习完成这项工作吗?

实施例: The.Heart.Guy.S01E07.Die.Belastungsprobe.German.DL.720p.HDTV.x264-GDR

应该是这样的:

The Heart Guy SHOW-NAME 1 SEASON 7 EPISODE Die Belastungsprobe EP-NAME German DL LANGUAGE 720p RESOLUTION HDTV SOURCE x264 CODEC GDR GROUP

有人试过这样的事吗?或任何应该开始的提示,或者甚至可能得到这样的工作。

2 个答案:

答案 0 :(得分:2)

机器学习方法的成本高于基于规则的方法。但是如果你想尝试机器学习解决方案,我想到的最好的解决方案是使用马尔可夫模型,因为问题有顺序观察,你可以用有限状态自动机来处理它。您可以使用此paper作为参考。

答案 1 :(得分:2)

我怀疑使用正则表达式是最简单的解决方案,但如果您愿意花些时间条件随机字段也是一个很好的解决方案。 Here是一篇关于纽约时报的文章,使用基于CRF的食谱数据模型。

Example CRF data

短文的CRF的另一个例子是libpostal,它提取部分邮政地址。

enter image description here