Повысьте продуктивность склада с помощью обучения с подкреплением для маршрутизации автоматизированных транспортных средств

В распределительном центре (DC) переход от одного места к другому во время выбора маршрута может составлять от 60% до 70% рабочего времени оператора. Сокращение времени ходьбы - наиболее эффективный способ повысить общую продуктивность.

В предыдущей серии статей я поделился несколькими методами, использующими стратегии оптимизации, чтобы сократить расстояние ходьбы операторов на вашем складе. (Ссылка)

У этих методов есть ограничения, когда у вас большая область выбора. Поэтому сейчас очень популярны автоматизированные решения, использующие автоматизированные транспортные средства (AGV), которые доставляют полки непосредственно операторам.

В этой статье объясняется, как обучение с подкреплением можно использовать для организации маршрутизации этих роботов для обеспечения оптимальной производительности.

I. От человека к товару к от товара к человеку

Первыми приверженцами этого перехода от ручного управления - от человека к товарам - к товарам к человеку - являются компании электронной коммерции.

Поскольку у них есть существенные колебания объемов (акции, фестивали), широкий круг рекомендаций и нехватка трудовых ресурсов: автоматизация для них необходима.

Отбор товаров от человека к человеку с использованием автоматизированных транспортных средств

Решения для индивидуальной комплектации товаров доставляют товары непосредственно вашему оператору на их станциях сбора. Вы устраняете все время, не добавляющее добавленной стоимости, необходимое операторам для поиска товаров.

Товары хранятся на полках, которые могут быть перемещены этими транспортными средствами прямо к станциям сбора, где операторы заберут необходимое количество для подготовки своих заказов.

Схема установки AGV

В этом макете у вас есть

  • 8 станций отбора, сгруппированных по две, с 1 оператором на станцию.
  • 16 (8 x 2) переулков полок
  • 1 зарядная станция для автомобилей

II. Создайте свою модель оптимизации

Создайте топологическую карту вашего AGV Layout

Наш макет моделируется графом G (N; E)

  • N - набор узлов (кружки вверху)
  • E - набор ребер (сплошные линии и стрелки)
  • S представляют собой полки (закрашенные серые узлы указывают места для хранения полок)
  • R представляют собой точки, в которых AGV вращают полки.
  • W представляют собой точки ожидания, в которых ваш AGV с полкой ожидает завершения процесса комплектования AGV, прибывшего на станцию ​​комплектования ранее.
  • P обозначает точки сбора, в которых сборщик возьмет продукты.

Это сопоставление будет включено в модель имитации выбора AGV, которая будет использоваться для тестирования наших стратегий маршрутизации.

Поиск пути с использованием алгоритма Djisktra

Алгоритм Дейкстры - это алгоритм оптимизации, который решает задачу поиска кратчайшего пути с одним источником для ориентированного графа с взвешенными ребрами (неотрицательными весами).

Эта длина может быть абсолютной длиной пути, она также может быть вычислена с учетом других ограничений, расположенных на краях или узлах.

Мы можем использовать три типа веса от узла u до узла v, отмеченного w (u, v)

  • Вес маршрута наикратчайшего расстояния: w (u, v) = d (u, v) (1)
    с d (u, v) расстояние между u и v
    -
    Цель: проложить маршрут с кратчайшим расстоянием
  • Кратчайшее время в пути: w (u, v) = d (u, v) / s (u, v) + r (u, v) (2)
    с s (u, v) поступательная скорость AGV и r (u, v) время, необходимое для всех вращений
    - Цель: выбрать маршрут с наименьшим временем в пути
  • Предотвращение перегрузки: w (u, v) = d (u, v) / s (u, v) + r (u, v) + Co (u, v) (3)
    с o (u, v) количество AGV, которое планируется пройти через край, а C - постоянное значение для регулировки веса
    - Цель: выбрать маршрут, избегающий заторов с другими AGV.

Подход к обучению с подкреплением

В момент времени t мы определяем состояние склада по:

  • Пространственное расположение всех активных транспортных средств (AGV с назначенными маршрутами)
  • Пространственное расположение всех активных полок (полок, на которых есть предметы, которые нужно выбрать)
  • Распределение строк заказа рабочих станций (станции, на которые необходимо передать товары)

Эти параметры будут меняться во времени, поэтому давайте воспользуемся подходом обучения с подкреплением, чтобы выбрать оптимальный маршрут из этих кандидатов в соответствии с этим состоянием.

Стратегии вознаграждения агентов

Ваш обучающий агент награждается за прибытие в целевой узел с использованием трех различных подходов к оценке вознаграждения.

  • Производительность: количество товаров, отобранных за час труда в течение периода от AGV, начиная с пункта отправления, до прибытия в пункт назначения.
  • Время простоя: время, в течение которого сборщик ожидает следующего AGV после выбора предметов с полки с помощью AGV.
  • Скорость: средняя скорость AGV от пункта отправления до пункта назначения.

III. Моделирование

Сценарий

Это первое моделирование основано на трех днях сбора: день 1 для обучения; дни 2 и 3 для тестирования.

Результаты модели RL будут сравниваться с двумя простыми стратегиями планирования маршрута

  • Случайно: выберите случайным образом маршрут из числа маршрутов наикратчайшего расстояния, самого короткого временного маршрута в пути и маршрута во избежание заторов.
  • Перегрузка: всегда выбирайте маршрут, предотвращающий перегрузку.

Полученные результаты

Удивительно видеть, что вознаграждение за продуктивность работает меньше, чем подход вознаграждения за скорость. Попытка максимизировать производительность каждого AGV может быть не лучшим подходом для совместной работы между транспортными средствами, чтобы обеспечить высокую глобальную производительность.

Стратегия перегрузки работает хорошо, требуя меньших вычислительных ресурсов по сравнению с подходом RL, когда заторы являются основным узким местом (то есть когда у вас высокая плотность транспортных средств, работающих одновременно).

Следующие шаги

Эти результаты основаны на конкретном макете с двумя днями сбора. Чтобы лучше понять этот подход, в следующей статье я объясню, как создать симулятор выбора AGV и реализовать стратегии маршрутизации.

Эту модель следует протестировать на различных профилях заказов, чтобы проверить влияние на производительность путем настройки.

  • Количество строк в заказе (ходов в заказе)
  • Количество единиц в каждой строке
  • Ассортимент активных артикулов

Выбор стратегии может варьироваться, если у вас есть промо-акция для определенной группы SKU, фестиваль покупок (Черная пятница, 11.11) или в низкий сезон.

Не стесняйтесь обращаться ко мне, я готов делиться и обмениваться информацией по темам, связанным с наукой о данных и цепочкой поставок.
Мое портфолио: https://samirsaci.com

использованная литература

[1] Приобретение политики автоматизированного планирования маршрутов транспортных средств с использованием глубокого обучения с подкреплением, Международная конференция IEEE по передовой логистике и транспорту (ICALT 2017)

[2] Метод обучения с подкреплением для составления расписаний с несколькими AGV в производстве, Тяньфан Сюэ, Пэн Цзэн, Хайбин Ю.
Лаб. сетевых систем управления, Шэньянский институт автоматизации

[3] Онлайн-оптимизация транспортных систем AGV с использованием глубокого обучения с подкреплением, Бюллетень по сетям, вычислениям, системам и программному обеспечению, Кей Такахаши, Согабе Томах