如何从字符串'0xd46b6c46a37f4578'或'jrLJW PUNtTLrQGZ25X4DA'中删除异常单词-python

时间:2018-10-19 10:53:39

标签: python regex

我有一个字符串,其中包含适当的单词和一些乱七八糟的东西,这对读者没有任何意义。我想从字符串中删除那些异常的单词。请注意,这些只是示例单词,其中有成串的字符串。 示例:

  

0xe933b1dfab45d591 0xe7d363050cec0146
  0xf5e4005d43867c48 0x1e0b75e9dff872f5
  0xa46406ec8a4e6cdc 0x3ea14cfd28ccf8fe
  0x750b065d3715b1c8 0x6bb50ebe411dd5da
  0xd46b6c46a37f4578 0x15b9290f631cded2
  0xafcfd4f9daa2187e 0x9dcc5dbad77c926a   AEj_0IB_BpqtlN76JnAdUQ0gWWYXEzVQrFBrGQ    0ahUKEwjj09PGppLeAhXUZSsKHZltBc8Q61gI1QIoBzAF

我使用以下代码删除了+,-,'之类的多余字符:

text = re.sub(r'[^\w]', ' ', text)

但是我找不到删除这些字符的方法。需要帮助 。  谢谢。

1 个答案:

答案 0 :(得分:1)

这对您有用吗?

newtext = ""
    for word in text.split():
       if not(any(char.isdigit() for char in word) and any(char.isalpha() for char in word)):
           newtext += word + " "

这将检查文本中用空格分隔的字符串是否同时包含字母和数字。如果没有,则将它们放入新字符串中。