如何识别python字符串中的不可见字符?

时间:2015-07-10 12:55:28

标签: python string

短片

我正在检索一个数据库值,该值包含一个简短但完整的HTML结构。我想剥离所有的HTML标签,最后得到一个值。围绕我的相关信息的HTML总是一样的,我只需要弄清楚字符串包含哪种换行符,制表符或空格,这样我就可以匹配并删除它。

是否有可以在线粘贴字符串的地方,或者我可以检查字符串的实际内容的其他方式,以便我能够将其删除?

LONG VERSION,以及我已尝试过的内容:

从HP Quality Center数据库中检索字符串,并在自动测试执行的控制台中打印字符串,该字符串被解释为显示为两个空格。当粘贴到word,eclipse或QC脚本编辑器时,它会显示为换行符。

我尝试用\n,双空格和¶替换空格。什么都行不通。

我从一个正在运行的VBScript中翻译了这个脚本。有问题的不可见字符在那里被定义为vbcrlfVBCRLF。由于某种原因,他们在相关参数值之前的替换字符串中使用小写,在相关子字符串之后的字符串中使用大写。它们被定义为变量,不在String本身内:<html>"&vbcrlf&"<body>"&vbcrlf&"<div ...

本网站建议我使用\n https://answers.yahoo.com/question/index?qid=20070506205148AAmr92N,因为他们写道:

  

vbCrLf =&#34; \ n&#34; #Carriage returnlinefeed组合

我对这里使用大写/小写的不一致感到有些困惑但是......

修改

在使用Google回车换行组合后,我了解到它可以定义为/r/nOrder of carriage return and new line feed

但是我花了很长时间才找到它,它并没有回答我的问题,我怎么能更好地确定一个字符串包含哪种不可见的字符。我会把问题打开。

1 个答案:

答案 0 :(得分:8)

要查看字符串的内容(包括它&#34;隐藏的&#34;值),您可以随时执行以下操作:

print( [data] )
# or
print( repr(data) )

如果您在评论中描述的系统中也可以这样做:

with open('/var/log/debug.log', 'w') as fh:
    fh.write( str( [data] ) )

然而,这只会让您大致了解数据的外观,但如果这样可以解决您的问题或问题,那就太棒了。如果您需要进一步的帮助,请编辑您的问题或提交新问题:)