我希望有人可以就以下方案给我一些反馈意见:
我想编写一个python程序,它将.txt文件作为输入,并以.csv甚至excel格式输出某种结构化数据。退出该项目的朋友尝试了ANTLR + Java,但德国的Umlaute“ä,ö,ü”遇到了麻烦。现在我(作为编程初学者)想编写一个有效的程序。我知道一些Matlab,但就是这样。我开始了一个关于python编程的课程模块( Python for everyone )来学习基础知识。
我现在想问一下上面提到的“包裹”pyparsing是否可以处理德语变音,或者我是否会遇到麻烦。
换句话说:如果你向菜鸟推荐一个python解析策略,它会是什么?
答案 0 :(得分:1)
在您的文档的第46页上是7.15.printables部分:所有可打印的非空白字符。列出了这些:
>>> len(pp.printables)
94
>>> print pp.printables
0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&'()*+,-
./:;<=>?@[\]^_`{|}~
如你所见,那里没有德国变形金刚。这是因为该项目使用标准ASCII编码而不是utf-8,它可以支持您可能想要的每个字符。这很可能是因为他们使用Python 2而不是Python 3。
编辑:我刚刚在他们的网站上找到以下内容:注意 - Pyparsing 2.x支持Python版本2.6,2.7和3.x.如果您使用的是Python 2.5或更早版本,则必须特定安装1.5.7版。 在新闻页面上查看更多信息
理论上,当你为Python 3安装模块时,你应该能够使用utf-8。不幸的是,更新的文档没有提到printables,所以我无法确定。