通过正则表达式从子进程STDERR中检索的串联串联导致无序

时间:2018-02-08 03:04:07

标签: python string python-3.x subprocess pipe

我有一个音频文件Sample.flac。可以使用ffprobe读取标题和长度,以使输出发送到STDERR。

我想通过子进程运行ffprobe,并且已成功完成。然后,我使用subprocess.PIPE检索输出(通过管道传送到*.communicate()[1].decode()),表明我应该使用Python文档。

communicate()返回一个元组(stdout, stderr),其中包含Popen()对象的输出。然后访问stderr的正确索引并从字节串解码为Python 3 UTF-8字符串。

然后使用与ffprobe元数据输出的格式匹配的多线正则表达式模式解析该解码输出。然后将匹配组适当地放入字典中,每个第一组转换为小写,并用作第二组(值)的键。

Here is an example of the output and the working regex.

可以按预期通过字典键访问数据。但是在将值连接在一起(所有都是字符串)时,输出会出现损坏。

这是我期望的输出:

Believer (Kaskade Remix) 190

相反,这就是我得到的:

 190ever (Kaskade Remix)

我不明白为什么字符串看起来彼此“重叠”并导致错误的形式。谁能解释这个以及我做错了什么?

以下是为生成上述结果而运行的完整代码。这是我整个项目的缩小部分。

#! /usr/bin/env python3
# -*- coding: utf-8 -*-

import os

from re import findall, MULTILINE
from subprocess import Popen, PIPE


def media_metadata(file_path):
    """Use FFPROBE to get information about a media file."""
    stderr = Popen(("ffprobe", file_path), shell=True, stderr=PIPE).communicate()[1].decode()

    metadata = {}

    for match in findall(r"(\w+)\s+:\s(.+)$", stderr, MULTILINE):
        metadata[match[0].lower()] = match[1]

    return metadata


if __name__ == "__main__":
    meta = media_metadata("C:/Users/spike/Music/Sample.flac")
    print(meta["title"], meta["length"])
    # The above and below have the same result in the console
    # print(meta["title"] + " " + meta["length"])
    # print("{title} {length}".format(meta))

任何人都可以解释这种不可预测的输出吗?

我之前已经问过here这个问题,不过我认为不是很清楚。在raw output中,当在多个文件上运行时,您可以看到字符串开始变得不可预测,甚至根本不打印部分title值。

感谢。

2 个答案:

答案 0 :(得分:2)

您正在追赶“\ r”符号。在打印时,光标返回到字符串的开头,因此下一次打印并覆盖第一部分。剥离空格(也将删除尾随的“\ r”)应解决问题:

metadata[match[0].lower()] = match[1].strip()

答案 1 :(得分:1)

<强>重现:

print('Believer (Kaskade Remix)\r 190')

<强>输出:

 190ever (Kaskade Remix)

<强>问题:

行尾是\r\n。重新$匹配\n\r仍在匹配组中。

<强>修正:

在您的重新模式中\r之前插入$。即(\w+)\s+:\s(.+)\r$

或使用universal_newlines=True作为Popen参数并删除.decode() 因为输出将是\n而不是\r\n的文字。

在重新处理之前

stderr = stderr.replace('\r', '')

<强>替代:

ffprobe可以输出json字符串。使用json模块loads字符串 并返回一本字典。

即。命令

['ffprobe', '-show_format', '-of', 'json', file_path]

json字符串将是stdout流。