Возвращайте только определенные значения с помощью скрипта Python

Я новичок в Python и пытаюсь написать скрипт, который ищет черное видео и беззвучный звук в файле и возвращает только временные экземпляры, когда они происходят.

У меня есть следующий код, работающий с использованием оболочки ffmpeg-python для получения значений из стандартного вывода, но я не могу найти эффективный способ анализа стандартного вывода или стандартного вывода для возврата только экземпляров black_start, black_end, black_duration, silence_start, silence_end, silence_duration.

Отложив ffmpeg в сторону для тех, кто не является экспертом, как я могу использовать re.findall или аналогичный, чтобы определить, что регулярное выражение возвращает только указанные выше значения?

import ffmpeg 

input = ffmpeg.input(source)
video = input.video.filter('blackdetect', d=0, pix_th=0.00)
audio = input.audio.filter('silencedetect', d=0.1, n='-60dB')
out = ffmpeg.output(audio, video, 'out.null', format='null')
run = out.run_async(pipe_stdout=True, pipe_stderr=True)
result = run.communicate()

print(result)

В результате получается вывод ffmpeg, который содержит нужные мне результаты. Вот вывод (отредактированный для краткости):

(b'', b"ffmpeg version 4.2.2 Copyright (c) 2000-2019 the FFmpeg developers
  built with Apple clang version 11.0.0 (clang-1100.0.33.17)
  configuration: --prefix=/usr/local/Cellar/ffmpeg/4.2.2_3 --enable-shared --enable-pthreads --...
[silencedetect @ 0x7fdd82d011c0] silence_start: 0
frame=  112 fps=0.0 q=-0.0 size=N/A time=00:00:05.00 bitrate=N/A speed=9.96x    
[blackdetect @ 0x7fdd82e06580] black_start:0 black_end:5 black_duration:5
[silencedetect @ 0x7fdd82d011c0] silence_end: 5.06285 | silence_duration: 5.06285
frame=  211 fps=210 q=-0.0 size=N/A time=00:00:09.00 bitrate=N/A speed=8.97x    
frame=  319 fps=212 q=-0.0 size=N/A time=00:00:13.00 bitrate=N/A speed=8.63x    
frame=  427 fps=213 q=-0.0 size=N/A time=00:00:17.08 bitrate=N/A speed=8.51x    
frame=  537 fps=214 q=-0.0 size=N/A time=00:00:22.00 bitrate=N/A speed=8.77x    
frame=  650 fps=216 q=-0.0 size=N/A time=00:00:26.00 bitrate=N/A speed=8.63x    
frame=  761 fps=217 q=-0.0 size=N/A time=00:00:31.00 bitrate=N/A speed=8.82x    
frame=  874 fps=218 q=-0.0 size=N/A time=00:00:35.00 bitrate=N/A speed=8.71x    
frame=  980 fps=217 q=-0.0 size=N/A time=00:00:39.20 bitrate=N/A speed=8.67x    
...  
frame= 5680 fps=213 q=-0.0 size=N/A time=00:03:47.20 bitrate=N/A speed=8.53x    
[silencedetect @ 0x7fdd82d011c0] silence_start: 227.733
[silencedetect @ 0x7fdd82d011c0] silence_end: 229.051 | silence_duration: 1.3184
[silencedetect @ 0x7fdd82d011c0] silence_start: 229.051
[blackdetect @ 0x7fdd82e06580] black_start:229.28 black_end:230.24 black_duration:0.96
frame= 5757 fps=214 q=-0.0 Lsize=N/A time=00:03:50.28 bitrate=N/A speed=8.54x    
video:3013kB audio:43178kB subtitle:0kB other streams:0kB global headers:0kB muxing overhead: unknown
[silencedetect @ 0x7fdd82d011c0] silence_end: 230.28 | silence_duration: 1.22856
\n")

Каков наиболее эффективный способ анализа выходных данных, чтобы найти/возвратить только эти значения результата, чтобы я мог построить из них дальнейшую логику в своем коде? В этом случае я бы хотел, чтобы возвращались только следующие значения:

тишина_начало: 0
тишина_конец: 5.06285
тишина_длительность: 5.06285

black_start:0
black_end:5
black_duration:5

тишина_начало: 227,733
тишина_конец: 229,051
тишина_длительность: 1,3184

black_start:229.28
black_end:230.24
black_duration:0.96

тишина_начало: 229,051
тишина_конец: 230,28
тишина_длительность: 1,22856

Я пробовал кучу разных вариантов re.findall() с регулярным выражением, но самое близкое, что я получил, это возврат только имен значений. Например, если я добавлю это к вышесказанному:

found = re.findall('\\b' + 'silence_end' + '\\b', str(result))

print(found)

Все, что я получаю, это имена:

['silence_end', 'silence_end', 'silence_end']


person jamlot    schedule 06.05.2020    source источник


Ответы (2)


Вы можете использовать 2 варианта, чтобы объединить все возможности, а затем сопоставить 1+ цифры с необязательной точкой и 1+ цифрами:

\b(?:silence|black)_(?:start|end|duration):\s*\d+(?:\.\d+)?\b

Шаблон будет соответствовать:

  • \b Граница слова
  • (?:silence|black)_ Сопоставьте молчание или черный цвет и символ подчеркивания.
  • (?:start|end|duration):\s* Соответствует началу, концу или длительности, : и 0+ пробельным символам
  • \d+(?:\.\d+)? Сопоставьте 1+ цифру и необязательную точку над цифрой
  • \b Граница слова

демонстрация регулярных выражений | демонстрация Python

Например

import re
test_str = "your string"
regex = r"\b(?:silence|black)_(?:start|end|duration):\s*\d+(?:\.\d+)?\b"
print(re.findall(regex, test_str))

Вывод

['silence_start: 0', 'black_start:0', 'black_end:5', 'black_duration:5', 'silence_end: 5.06285', 'silence_duration: 5.06285', 'silence_start: 227.733', 'silence_end: 229.051', 'silence_duration: 1.3184', 'silence_start: 229.051', 'black_start:229.28', 'black_end:230.24', 'black_duration:0.96', 'silence_end: 230.28', 'silence_duration: 1.22856']
person The fourth bird    schedule 06.05.2020
comment
Большое спасибо @thefourthbird. Это отлично работает! Не жадничать, но какие-нибудь советы/советы о том, как теперь я могу начать строить некоторую логику на основе возвращаемых числовых значений? В качестве отправной точки, что, если бы я хотел написать что-то вроде, если молчание_длительность › 210, сделать xyz. - person jamlot; 06.05.2020
comment
@jamlot Вы можете, например, использовать 2 группы захвата, чтобы получить текст и число отдельно. \b((?:silence|black)_(?:start|end|duration)):\s*(\d+(?:\.\d+)?)\b regex101.com/r/fMkvgD/1 и преобразовать вторую группу, содержащую число, в числовой тип. - person The fourth bird; 06.05.2020
comment
Я понимаю первую часть и могу вернуть группы, как показано в вашей демонстрации @the четвертая птица. Я не уверен, что понимаю вторую половину вашего предложения о преобразовании второй группы, содержащей число, в числовой тип. Моя цель состоит в том, чтобы зафиксировать числовые значения в качестве переменных, которые затем я могу ввести в уравнение. Я постараюсь разобраться. Еще раз спасибо! - person jamlot; 06.05.2020
comment
Привет @thefourthbird. Еще раз спасибо за помощь в этом. Я подумал, что мой дополнительный вопрос должен быть опубликован как новая тема, поэтому я разместил его здесь на случай, если вы сможете взглянуть: stackoverflow.com/questions/61646736/. Спасибо! - person jamlot; 07.05.2020

Заимствование ответа Микеля

regex = re.compile(r'''
    [\S]+:                # a key (any word followed by a colon)
    (?:
    \s                    # then a space in between
        (?!\S+:)\S+\d+       # then a value (any word not followed by a colon)
    )                  # match multiple values if present
    ''', re.VERBOSE)

matches = regex.findall(str)
matches

['configuration: --prefix=/usr/local/Cellar/ffmpeg/4.2.2_3',
 'silence_end: 5.06285',
 'silence_duration: 5.06285',
 'silence_start: 227.733',
 'silence_end: 229.051',
 'silence_duration: 1.3184',
 'silence_start: 229.051',
 'silence_end: 230.28',
 'silence_duration: 1.22856']
person Pygirl    schedule 06.05.2020
comment
Большое спасибо @pygirl! Это также сработало для меня, поэтому так же приемлемо, как и первый ответ. - person jamlot; 06.05.2020