Я не понимаю часть этого (quora: Как последний уровень ConvNet соединяется с первым полносвязным уровнем):
Сделайте одно горячее представление карт объектов. Таким образом, у нас будет 64 * 7 * 7 = 3136 входных признаков, которые снова обрабатываются 3136 нейронами, уменьшая их до 1024 признаков. Умножение матриц для этого слоя будет (1x3136) * (3136x1024) => 1x1024.
Я имею в виду, каков процесс сокращения 3136 входных данных с использованием 3136 нейронов до 1024 функций?