Умножает ли кофе параметр регуляризации на смещение?

У меня куча вопросов о том, как регуляризация и предвзятость работают в кафе.

Во-первых, в сети по умолчанию существуют тенденциозные, правильно ли это? Или мне нужно попросить кафе добавить их?

Во-вторых, когда он получает значение потерь, он не учитывает регуляризацию. это правильно? Я имею в виду, что потеря просто содержит значение функции потерь. Насколько я понял, он просто учитывает регуляризацию при расчете градиента. Это правильно?

В-третьих, когда caffe получает градиент, учитывает ли он также смещенное значение при регуляризации? Или он просто учитывает вес сети при регуляризации?

Заранее спасибо,

Афшин

caffe regularized

Afshin Oroojlooy 25.08.2016 источник

Ответы (1)

arrow_upward
1
arrow_downward

На ваши 3 вопроса мой ответ:

Да. Предвзятость существует в сети по умолчанию. Например, в ConvolutionParameter и InnerProductParameter в caffe.proto значение по умолчанию для bias_term равно true, что означает, что слой convolution/innerproduct в сети будет иметь смещение по умолчанию.
Да. Значение потерь, полученное слоем потерь, не содержит значения члена регуляризации. И это просто учитывает регуляризацию после вызова функции net_->ForwardBackward() а на самом деле в функции ApplyUpdate(), где обновление сети параметры бывают.
Возьмите слой свертки в сети, например:
```
layer {
  name: "SomeLayer"
  type: "Convolution"
  bottom: "data"
  top: "conv"
  #for weights
  param {
    lr_mult: 1 
    decay_mult: 1.0 #coefficient of regularization for weights
                    #default is 1.0, here is for the sake of clarity  
  }
  #for bias
  param {
    lr_mult: 2
    decay_mult: 1.0 #coefficient of regularization for bias
                    #default is 1.0, here is for the sake of clarity 
  } 
  ...  #left 
}
```
Ответ на этот вопрос таков: когда caffe получает градиент, решатель будет учитывать смещенное значение в регуляризации, только если две переменные: вторая decay_mult выше и weight_decay в solver.prototxt больше нуля.

Подробности можно найти в функции void SGDSolver::Regularize(). .

Надеюсь, что это поможет вам.

Dale 25.08.2016

comment

Спасибо Дейл за исчерпывающее объяснение - Afshin Oroojlooy; 25.08.2016

comment

В void SGDSolver::Regularize(), как вы упомянули, когда оба этих параметра не равны нулю, net_params, который действительно равен learnable_params, обновляются. Вы знаете, где в кафе у нас есть этот предвзятый член learnable_params ? - Afshin Oroojlooy; 26.08.2016

comment

Это функция Net<Dtype>::AppendParam() в net.cpp. @AfshinOroojlooy - Dale; 26.08.2016

Вопросы по теме

eventReactive с 2 кнопками действий на 2 вкладках
Добавить результат в TestCaseSource
три столбца в одну дату
Как открыть URL-адрес в WebView через .js в создателе кокосов
Highchart GMT и смещение в один час
проблема с отключением дат в datepicker
Получить описание текущего шага, вызываемого из файла BDD
журнал данных ракетки - журнал данных с отрицанием?
Не удается проиндексировать массив int RavenDB
Как использовать команду Scaffold-DbContext в VS Code
Взрывающийся градиент тензорного потока
Итерация по столбцу фрейма данных pandas и оценка с помощью оператора if и передача значений столбца в пустой список/словарь
Заполнить таблицу данных; Неверный ответ JSON
Получить точное время для удаленного сервера
Сбор элементов в массиве JSON
Динамический компонент круговой диаграммы D3 в Angular
Данные о пользовательских событиях в Firebase Events
Laravel 5.2 - проблема с веб-сервисами
Как повернуть трехмерный график в Matplotlib вокруг любой оси
Представление класса базы данных Java SQL