Расширенная классификация звуков окружающей среды с помощью CNN

Сквозная классификация звуков окружающей среды с использованием 1D CNN

Это резюме исследования - лишь одно из многих, которые еженедельно распространяются в информационном бюллетене для ученых по искусственному интеллекту. Чтобы начать получать еженедельную рассылку, зарегистрируйтесь здесь.

Сверточные нейронные сети (CNN) очень полезны в задачах распознавания и классификации изображений. Однако в последнее время они также оказали значительное влияние на классификацию экологической безопасности, которая имеет решающее значение в таких приложениях, как обнаружение преступлений, Интернет вещей, обработка с учетом контекста окружающей среды и т. Д.

Однако типичные подходы к классификации звуков окружающей среды основываются на функциях, созданных вручную, или изучении представлений на основе представлений среднего уровня, таких как спектрально-временные особенности. Сначала они преобразуют аудиосигналы в 2D-представление (спектрограмму) и используют архитектуры 2D CNN, изначально разработанные для распознавания объектов, такие как AlexNet и VGG.

Благодаря классификации экологичности, VGG 2D CNN добилась хороших результатов. Но проблема использования 2D CNN в данном случае заключается в том, что возможности моделирования таких сетей зависят от наличия массивных обучающих наборов данных для изучения параметров ядра без чрезмерной подгонки. Более того, существует проблема ограниченности маркированных данных об экологической безопасности.

Новая модель классификации звуков окружающей среды

Группа канадских исследователей недавно предложила сквозную 1D CNN для экологической классификации. Модель состоит из 3–5 сверточных слоев в зависимости от длины аудиосигнала. Вместо реализации 2D-представлений, подобных многим традиционным подходам, предлагаемая 1D CNN изучает фильтры непосредственно из звуковых сигналов.

При оценке набора данных, состоящего из 8732 аудиосэмплов, новый подход продемонстрировал несколько соответствующих представлений фильтров, которые позволяют ему превзойти существующие современные методы, основанные на 2D-иллюстрациях и 2D-CNN.

Кроме того, модель имеет меньше параметров, чем большинство других архитектур CNN для классификации звуков окружающей среды, и достигает средней точности на 11–27% выше по сравнению с традиционными двухмерными архитектурами.

Возможное использование и эффекты

Судя по результатам оценки, продемонстрированным в этом исследовательском документе, предлагаемый подход имеет большой потенциал для создания надежных приложений для экологической классификации.

Во-первых, он намного эффективен и требует небольшого количества обучающих данных по сравнению с обычными 2D CNN, которые требуют миллионов обучаемых параметров. Он также обеспечивает современную производительность и может обрабатывать аудиосигналы любой длины за счет реализации скользящего окна. Наконец, его компактная архитектура значительно снижает затраты на вычисления.

Подробнее: https://arxiv.org/abs/1904.08990v1

Спасибо за прочтение. Прокомментируйте, поделитесь и не забудьте подписаться на нашу еженедельную рассылку, чтобы получать самые свежие и интересные исследования! Вы также можете подписаться на меня в Twitter и LinkedIn. Не забудьте 👏, если вам понравилась эта статья. Ваше здоровье!