Tensorflow появился вместе с компилятором XLA, который компилирует внутренний тензорный поток C ++, ориентированный на LLVM. Насколько я понимаю, XLA - это шаг к поддержке универсальных ускоренных устройств при условии наличия поддержки LLVM -> Device.
Совсем недавно был выпущен Tensorflow lite, заменивший Tensorflow Mobile, и, похоже, именно здесь работа сосредоточена на нацеливании на встроенные и мобильные устройства с очевидным акцентом на встроенные DSP и графические процессоры как дополнительные процессоры, распространенные в этих средах. Tensorflow lite, по-видимому, передает операции Android NNAPI (API нейронной сети) и поддерживает подмножество OP tenorflow.
Возникает вопрос: в каком направлении Google собирается поддерживать устройства, не основанные на CUDA? И есть ли варианты использования XLA, выходящие за рамки того, что я описал?