我有一些由pdfs制作的txt文件,并希望使用一些python-script和regex-patterns添加一些xml-tags。大多数情况下它工作正常但有时表达式并不匹配所有想要的角色。在测试工具here中,它可以正常工作。
这是python-code:
matchs = re.finditer("<UTop>[^<]+",string)
for m in matchs:
tagend = m.end()
string = string[:tagend] + "</UTop>" + string[tagend:]
原始字符串......
<Top>1. Regierungserklärung des Ministerpräsidenten<UTop>Ministerpräsident Winfried Kretschmann </Top>
......应该转变为:
<Top>1. Regierungserklärung des Ministerpräsidenten<UTop>Ministerpräsident Winfried Kretschmann </UTop></Top>
但它返回
<Top>1. Regierungserklärung des Ministerpräsidenten<UTop>Ministerpräsident Winfried Krets</UTop>chmann </Top>
代替。
我很乐意回答这个问题。 扬
答案 0 :(得分:1)
使用Unicode标志:
IDialogService service = container.Resolve<IDialogService>();
service.OpenFileDialog(...);
对于HTML,请考虑使用BeautifulSoup。
答案 1 :(得分:1)