我有一个电影名称字符串列表,我想在熊猫数据框列description
中进行搜索,如果在用户输入的描述中找到了新列movie_name
,则可以创建该列。 / p>
现在,由于描述未标准化,我如何搜索特定名称的所有可能变体。例如。电影名称之一是HARRY POTTER 4
。现在,我需要搜索所有可能的输入,例如HARRYPOTTER 4
,HARRY POTTER4
,HARRYPOTTER4
等。在某些情况下,用户可能没有在4
之后留空并键入其他东西,例如。 HARRY POTTER 4is a good movie
。
我需要从描述中提取列表中给定的电影名称,并添加一个仅movie_name
的新列。除了使用.contains
和.extract
在列表中添加所有可能的变体,然后再使用.map
或.replace
将所有这些变体映射到1个最终电影名称之外,还有其他方法吗? ?
答案 0 :(得分:0)
我建议您看一下FuzzyWuzzy库。
这是一篇易于理解的文章:https://www.geeksforgeeks.org/fuzzywuzzy-python-library/