我正在尝试从文本文件中提取特定数据。文件的每一行都有由制表符分隔的字符串。我想将每个单词分开并保持整个单词。是否可以将re.split和re.compile.findall结合起来执行此操作?
示例如下所示。
文件中的原始行:
Name Charlie Blue Bird ******Grade:5****** ****** ****** ******
以制表符分隔的行:
['Name', 'Charlie Blue Bird', '******Grade:5******', '******', '******']
我想拥有的那条线:
['Name', 'Charlie', 'Blue', 'Bird', 'Grade:5']
非常感谢任何帮助。
(是的,明星也应该在那里)。
答案 0 :(得分:0)
只需使用一个findall
并搜索您感兴趣的字符。
>>> import re
>>> s = 'Name Charlie Blue Bird ******Grade:5****** ****** ****** ****** '
>>> re.findall(r'[A-Za-z0-9:]+', s)
['Name', 'Charlie', 'Blue', 'Bird', 'Grade:5']