SIMD: реализовать _mm256_max_epu64_ и _mm256_min_epu64_

Я хочу задать вопрос о SIMD. Я не получаю AVX512 в своем ЦП, но хочу иметь _mm256_max_epu64.

Как мы можем реализовать эту функцию с помощью AVX2?

Здесь я пытаюсь иметь свой тривиальный. Может быть, мы можем позволить этому быть обсуждением и улучшить это.

#define SIMD_INLINE inline __attribute__ ((always_inline)) 

SIMD_INLINE __m256i __my_mm256_max_epu64_(__m256i a, __m256i b) {
  uint64_t *val_a = (uint64_t*) &a;
  uint64_t *val_b = (uint64_t*) &b;
  uint64_t e[4];
  for (size_t i = 0; i < 4; ++i) e[i] = (*(val_a + i) > *(val_b + i)) ? *(val_a + i) : *(val_b + i);
  return _mm256_set_epi64x(e[3], e[2], e[1], e[0]);
}

ИЗМЕНИТЬ как резюме:

Мы обсуждали __mm256 сравнение без знака. Я привел свою тривиальную реализацию выше, просто следуя самой базовой концепции: один __m256i просто эквивалентен 4 uint64_t или 4 float, которые вместе составляют 256 бит.

Затем у нас был ответ от @chtz, который имеет больше смысла AVX при вызове большего количества функций битового программирования из AVX.

В итоге оказывается, что эти две реализации приводят к одной и той же сборке благодаря CLang. Пример сборки из компилятора Explorer


Еще один _mm256_min_epu64_ добавил. Это просто отражение _mm256_max_epu64_ выше. Облегчить поиск для будущего использования.

SIMD_INLINE __m256i __my_mm256_min_epu64_(__m256i a, __m256i b) {
  uint64_t *val_a = (uint64_t*) &a;
  uint64_t *val_b = (uint64_t*) &b;
  uint64_t e[4];
  for (size_t i = 0; i < 4; ++i) e[i] = (*(val_a + i) < *(val_b + i)) ? *(val_a + i) : *(val_b + i);
  return _mm256_set_epi64x(e[3], e[2], e[1], e[0]);
}

person Luo Jigao    schedule 28.01.2019    source источник


Ответы (1)


Простейшим решением будет сочетание _mm256_cmpgt_epi64 со смесью. Однако, если вам нужен максимум без знака, вам нужно сначала вычесть 1<<63 из каждого элемента (перед сравнением, а не перед смешиванием). Инструкции _mm256_blendv_epu64 нет, но можно использовать _mm256_blendv_epi8, поскольку маска будет устанавливаться для каждого бита соответствующих элементов. Также обратите внимание, что вычитание самого старшего бита может быть выполнено с помощью немного более быстрого xor:

__m256i pmax_epu64(__m256i a, __m256i b)
{
    __m256i signbit = _mm256_set1_epi64x(0x8000'0000'0000'0000);
    __m256i mask = _mm256_cmpgt_epi64(_mm256_xor_si256(a,signbit),_mm256_xor_si256(b,signbit));
    return _mm256_blendv_epi8(b,a,mask);
}

Фактически, clang почти ухитряется получить те же инструкции из вашего кода: https://godbolt.org/z/afhdOa Он использует только vblendvpd вместо vpblendvb, что может привести к задержкам (подробности см. в комментарии @PeterCordes).

С некоторым изменением битов вы могли бы фактически сохранить настройку регистра для знакового бита. Беззнаковое сравнение дает один и тот же результат, если знаки обоих операндов совпадают, и противоположные результаты, если они не совпадают, т.е.

unsigned_greater_than(signed a, signed b) == (a<0) ^ (b<0) ^ (a>b)

Это можно использовать, если вы используете _mm256_blendv_pd с некоторым приведением как _mm256_blendv_epi64 (поскольку теперь допустим только самый верхний бит):

__m256i _mm256_blendv_epi64(__m256i a, __m256i b, __m256i mask)
{
    return _mm256_castpd_si256(_mm256_blendv_pd(
        _mm256_castsi256_pd(a),_mm256_castsi256_pd(b),_mm256_castsi256_pd(mask)));
}

__m256i pmax_epu64_b(__m256i a, __m256i b)
{
    __m256i opposite_sign = _mm256_xor_si256(a,b);
    __m256i mask = _mm256_cmpgt_epi64(a,b);
    return _mm256_blendv_epi64(b,a,_mm256_xor_si256(mask, opposite_sign));
}

Просто для справки, подписанный максимум, конечно, просто:

__m256i pmax_epi64(__m256i a, __m256i b)
{
    __m256i mask = _mm256_cmpgt_epi64(a,b);
    return _mm256_blendv_epi8(b,a,mask);
}
person chtz    schedule 28.01.2019
comment
Использование результата vblendvpd в качестве входных данных для целочисленных инструкций может привести к дополнительной задержке на 1 цикл для этих целочисленных инструкций, поэтому будьте осторожны, если вы используете результат повторно. (В Haswell/Skylake происхождение значения регистра, кажется, застревает, увеличивая задержку для ввода other, даже если ввод, пересекающий домен, был готов в течение длительного времени и использовался неоднократно.) - person Peter Cordes; 28.01.2019
comment
Вероятно, вам следует просто использовать vpblendvb (_mm256_blendv_epi8), как обычно для целочисленных смесей переменных, потому что cmpgt_epi64 устанавливает все биты всего элемента. Если вы делаете что-то, что устанавливает только старший бит 64-битного элемента, возможно, стоит использовать смесь pd FP. vpblendvb и vblendvpd стоят одинаково на процессорах Intel и AMD с AVX2, и мы знаем, что AVX2 доступен, потому что мы используем vpcmpgtq. Это похоже на пропущенную оптимизацию clang. - person Peter Cordes; 28.01.2019
comment
@PeterCordes Я добавил вариант pmax_epu64, который основан на использовании самого верхнего бита. Но это, вероятно, полезно только в нескольких случаях. - person chtz; 28.01.2019
comment
Я бы рекомендовал сначала поставить простую/хорошую целочисленную версию, а затем переместить определение оболочки _pd вместе с хаком XOR, который позволяет избежать векторной константы. Ответ, который вы представляете будущим читателям, не должен быть ошибкой, а затем исправлением. Вот почему редактирование не ограничивается только добавлением. - person Peter Cordes; 28.01.2019
comment
@PeterCordes: я переписал ответ. Также поместите подписанный максимум в самый конец, так как это не то, о чем просил ОП. Надеюсь, я не пропустил ничего важного сейчас. - person chtz; 28.01.2019