我正在编写一个处理电视指南列表并将其转换为XMLTV的软件。
我注意到我的很多描述都包含了主持节目的人 - 我希望能够提取这些信息。
我首先看到的方法之一是正则表达式,但是我的正则表达式技能不是很好,而且无论如何似乎还没有很好的方法来实现它。
另一种选择是NLP,但是对于我需要的东西来说似乎有点过头了,特别是因为我的描述共享一个共同的前缀(Hosted by)。但是,这可能是我将采用的方法,因为它可能是最可靠和易于使用的。
作为参考,这里是一个示例数据集 - 一些是真实的,一些是组成的。
['Hosted by Jim Bolger, John James and Jim Bob, The Project is a show that exists',
'Hosted by Lisa Owen, Newshub Nation is an in-depth weekly current affairs show focusing on the major players and forces that shape New Zealand.',
'A fast paced wrap of all things entertainment, celebrity and Bravo hosted by Cassidy Morris',
'Hosted by chef Guy Fieri, Minute To Win It sees competitors take on a series of seemingly simple tasks while under a one-minute time limit.',
'Hosted by Jim van de Allen, Tom Scott and Petra Grazing, this is fair go',
'Hosted by Zyon Zickle, Johnny Boi and Zippy De Phrasee, The News looks at the important things that affect all Martians',
'Lorem is a magical substence wondered about by generations of things. This series hosted by Jim Tokien, explores this thingie']
我宁愿质量超过数量 - 所以我宁愿找到更少的匹配,但大多数匹配准确而不是很多不准确的匹配。
我是否过度思考这个?有更简单的方法吗?任何帮助将不胜感激。