Я использую модель обнаружения объектов tensorflow centernet_resnet50_v2_512x512_kpts_coco17_tpu-8
на Nvidia Tesla P100 для извлечения ограничивающих рамок и ключевых точек для обнаружения людей в видео. Используя предварительно обученную версию с tenorflow.org, я могу обрабатывать около 16 кадров в секунду. Можно ли как-нибудь улучшить скорость оценки этой модели? Вот несколько идей, над которыми я размышлял:
- Pruning the model graph since I am only detecting 1 type of object (people)
- Have not been successful in doing this. Changing the
label_map
when building the model does not seem to improve performance.
- Have not been successful in doing this. Changing the
- Hard coding the input size
- Have not found a good way to do this.
- Compiling the model to an optimized form using something like TensorRT
- Initial attempts to convert to TensorRT did not have any performance improvements.
- Batching predictions
- It looks like the pre-trained model has the batch size hard coded to 1, and so far when I try to change this using the
model_builder
I see a drop in performance. - Использование моего графического процессора составляет около 75%, поэтому я не знаю, есть ли здесь что-то полезное.
- It looks like the pre-trained model has the batch size hard coded to 1, and so far when I try to change this using the