Question

dataset['title'] = dataset['Name'].str.extract(' ([A-Za-z]+)\.', expand=False)

任何人都可以解释一下A-Za-z

是如何工作的。

Answer 1

[A-Za-z]+是一个正则表达式。

[FOO]代表一个字符类。对于[FOO]，它将捕获字符串中的所有F和O。这也是一个不好的正则表达式，因为我们将O放入了两次。只需一次。

如果我们有[A-Z]，则-代表A和Z之间的所有字符。此正则表达式将捕获所有首字母大写。如果我们添加[A-Za-z]，这还将捕获所有小写字母。

最后，[A-Za-z]+意味着我们将捕获字符类中定义的所有字符，直到字符串中不匹配的字符为止。例如，"Foo23"将被捕获"Foo"（在您的情况下，将其提取）。

另一个示例是特殊字符。如果我们的示例是"Foo."或"Foo "，我们仍然只捕获Foo。

您将要阅读正则表达式的文档，并使用www.regexr.com这样的网站进行测试