Можно ли даже объединить в один вызов (в Node) запросы к изображению?
Вместо того, чтобы вызывать методы по отдельности и пытаться обрабатывать выходные данные.
vision.faceDetection()
vision.documentTextDetection()
vision.safeSearchDetection()
...
Чтобы получить окончательный JSON, как здесь, в разделе пробного использования, https://cloud.google.com/vision/