我在埃德加解析网页。
我发现Edgar上的文本文件(特别是最近被标记为交互式数据的文件)包含似乎没有意义的字符(至少对我而言)
以下是这些角色的例子。
M="`J+SPO2!O9B!3:6=N:69I8V%N="!!8V-O=6YT:6YG(%!O;&EC M:65S("A$971A:6QS(#2`S,2P@,C`Q,SQB
因为他们从我的计算机上留下了很多记忆,我想删除它们。
我的问题是,
那些角色真的没有意义吗? (如果他们这样做我真的想要删除它们)
我以为我可以使用regexpression删除它们,
data = re.sub('([AZ] [0-9] \ {} [] /?,。;:|)* ~`!^ -_ +<> @#$ %^ \\ =(\' \"){30,9999999999999999999999999999999999999}',"",数据)
(数据是包含这些字符的字符串)
但是,我没有删除它们。你能给我一些帮助吗?