Допустим, у вас есть конференц-зал, а встречи проходят в произвольное импровизированное время. Вы хотите вести аудиозаписи всех встреч. Чтобы сделать его максимально простым в использовании, от участников собрания не потребуется никаких действий, они просто знают, что, когда они проводят собрание в определенной комнате, они будут иметь запись о нем.
Очевидно, что простая непрерывная запись будет неэффективной, так как это будет пустой тратой хранилища данных и сложной задачей для их просеивания.
Я полагаю, что есть два основных способа сделать это.
- Запись просто начинается и останавливается в соответствии с пороговыми значениями уровня звука.
- Запись ведется непрерывно, но разбивается на блоки по X минут. Блоки, не содержащие содержимого, отбрасываются.
Мне больше нравится второй способ, потому что я чувствую меньший риск потери данных из-за позднего запуска или сбоя триггеров.
Я хотел бы реализовать на Python и, если возможно, на Windows.
Предложения по реализации?
Дополнительные соображения, которые, вероятно, заслуживают собственных вопросов:
- лучший аудиоформат и сжатие для этой цели
- любой способ определить, сколько говорящих присутствует, при условии, что идентификация нереалистична