我有一个字符串,其中包含适当的单词和一些乱七八糟的东西,这对读者没有任何意义。我想从字符串中删除那些异常的单词。请注意,这些只是示例单词,其中有成串的字符串。 示例:
0xe933b1dfab45d591 0xe7d363050cec0146
0xf5e4005d43867c48 0x1e0b75e9dff872f5
0xa46406ec8a4e6cdc 0x3ea14cfd28ccf8fe
0x750b065d3715b1c8 0x6bb50ebe411dd5da
0xd46b6c46a37f4578 0x15b9290f631cded2
0xafcfd4f9daa2187e 0x9dcc5dbad77c926a AEj_0IB_BpqtlN76JnAdUQ0gWWYXEzVQrFBrGQ 0ahUKEwjj09PGppLeAhXUZSsKHZltBc8Q61gI1QIoBzAF
我使用以下代码删除了+,-,'之类的多余字符:
text = re.sub(r'[^\w]', ' ', text)
但是我找不到删除这些字符的方法。需要帮助 。 谢谢。
答案 0 :(得分:1)
这对您有用吗?
newtext = ""
for word in text.split():
if not(any(char.isdigit() for char in word) and any(char.isalpha() for char in word)):
newtext += word + " "
这将检查文本中用空格分隔的字符串是否同时包含字母和数字。如果没有,则将它们放入新字符串中。