doxygen/volk__sse__intrinsics_8h_source.html

 /* -*- c++ -*- */

 /*

  * Copyright 2015 Free Software Foundation, Inc.

  *

  * This file is part of VOLK

  *

  * SPDX-License-Identifier: LGPL-3.0-or-later

  */


 /*

  * This file is intended to hold SSE intrinsics of intrinsics.

  * They should be used in VOLK kernels to avoid copy-pasta.

  */


 #ifndef INCLUDE_VOLK_VOLK_SSE_INTRINSICS_H_

 #define INCLUDE_VOLK_VOLK_SSE_INTRINSICS_H_

 #include <xmmintrin.h>


 static inline __m128 _mm_magnitudesquared_ps(__m128 cplxValue1, __m128 cplxValue2)

 {

     __m128 iValue, qValue;

     // Arrange in i1i2i3i4 format

     iValue = _mm_shuffle_ps(cplxValue1, cplxValue2, _MM_SHUFFLE(2, 0, 2, 0));

     // Arrange in q1q2q3q4 format

     qValue = _mm_shuffle_ps(cplxValue1, cplxValue2, _MM_SHUFFLE(3, 1, 3, 1));

     iValue = _mm_mul_ps(iValue, iValue); // Square the I values

     qValue = _mm_mul_ps(qValue, qValue); // Square the Q Values

     return _mm_add_ps(iValue, qValue);   // Add the I2 and Q2 values

 }


 static inline __m128 _mm_magnitude_ps(__m128 cplxValue1, __m128 cplxValue2)

 {

     return _mm_sqrt_ps(_mm_magnitudesquared_ps(cplxValue1, cplxValue2));

 }


 static inline __m128 _mm_scaled_norm_dist_ps_sse(const __m128 symbols0,

                                                  const __m128 symbols1,

                                                  const __m128 points0,

                                                  const __m128 points1,

                                                  const __m128 scalar)

 {

     // calculate scalar * |x - y|^2

     const __m128 diff0 = _mm_sub_ps(symbols0, points0);

     const __m128 diff1 = _mm_sub_ps(symbols1, points1);

     const __m128 norms = _mm_magnitudesquared_ps(diff0, diff1);

     return _mm_mul_ps(norms, scalar);

 }


 static inline __m128 _mm_accumulate_square_sum_ps(

     __m128 sq_acc, __m128 acc, __m128 val, __m128 rec, __m128 aux)

 {

     aux = _mm_mul_ps(aux, val);

     aux = _mm_sub_ps(aux, acc);

     aux = _mm_mul_ps(aux, aux);

     aux = _mm_mul_ps(aux, rec);

     return _mm_add_ps(sq_acc, aux);

 }


 #endif /* INCLUDE_VOLK_VOLK_SSE_INTRINSICS_H_ */

volk_arch_defs.val
val
Definition: volk_arch_defs.py:57

_mm_sub_ps
FORCE_INLINE __m128 _mm_sub_ps(__m128 a, __m128 b)
Definition: sse2neon.h:2834

__m128
float32x4_t __m128
Definition: sse2neon.h:235

_mm_shuffle_ps
#define _mm_shuffle_ps(a, b, imm)
Definition: sse2neon.h:2586

_mm_mul_ps
FORCE_INLINE __m128 _mm_mul_ps(__m128 a, __m128 b)
Definition: sse2neon.h:2205

_mm_add_ps
FORCE_INLINE __m128 _mm_add_ps(__m128 a, __m128 b)
Definition: sse2neon.h:1039

_MM_SHUFFLE
#define _MM_SHUFFLE(fp3, fp2, fp1, fp0)
Definition: sse2neon.h:195

_mm_sqrt_ps
FORCE_INLINE __m128 _mm_sqrt_ps(__m128 in)
Definition: sse2neon.h:2659

_mm_magnitudesquared_ps
static __m128 _mm_magnitudesquared_ps(__m128 cplxValue1, __m128 cplxValue2)
Definition: volk_sse_intrinsics.h:19

_mm_accumulate_square_sum_ps
static __m128 _mm_accumulate_square_sum_ps(__m128 sq_acc, __m128 acc, __m128 val, __m128 rec, __m128 aux)
Definition: volk_sse_intrinsics.h:49

_mm_scaled_norm_dist_ps_sse
static __m128 _mm_scaled_norm_dist_ps_sse(const __m128 symbols0, const __m128 symbols1, const __m128 points0, const __m128 points1, const __m128 scalar)
Definition: volk_sse_intrinsics.h:36

_mm_magnitude_ps
static __m128 _mm_magnitude_ps(__m128 cplxValue1, __m128 cplxValue2)
Definition: volk_sse_intrinsics.h:31