在熊猫数据框列中找到子字符串列表的所有变体

时间:2019-07-09 03:24:03

标签: python string pandas list

我有一个电影名称字符串列表,我想在熊猫数据框列description中进行搜索,如果在用户输入的描述中找到了新列movie_name,则可以创建该列。 / p>

现在,由于描述未标准化,我如何搜索特定名称的所有可能变体。例如。电影名称之一是HARRY POTTER 4。现在,我需要搜索所有可能的输入,例如HARRYPOTTER 4HARRY POTTER4HARRYPOTTER4等。在某些情况下,用户可能没有在4之后留空并键入其他东西,例如。 HARRY POTTER 4is a good movie

我需要从描述中提取列表中给定的电影名称,并添加一个仅movie_name的新列。除了使用.contains.extract在列表中添加所有可能的变体,然后再使用.map.replace将所有这些变体映射到1个最终电影名称之外,还有其他方法吗? ?

1 个答案:

答案 0 :(得分:0)

我建议您看一下FuzzyWuzzy库。

这是一篇易于理解的文章:https://www.geeksforgeeks.org/fuzzywuzzy-python-library/