我正在为电视节目和其他媒体(游戏,电影等)编写刮刀,并非所有来源的格式都与某个节目相同。例如,一个源可能表示带有破折号的字幕,其他分号。我目前正在使用Levenshtein距离来比较刮下的数据和从电视节目文件名中提取的数据,但我想知道该算法是否是针对短句长度而设计的。有没有更适合这种需求的算法?
答案 0 :(得分:3)
在比较/距离测量之前,您应该标准化(标准化)标题。
规范化应包括以下内容:
你可以在单词对之间使用Levenshtein距离(不要在整个句子中使用它),但是要实现一些滑动窗口,因为某些表达(例如“The”)可能会从其中一个表示中丢失。