doxygen/volk__32fc__x2__s32f__square__dist__scalar__mult__32f_8h_source.html

 /* -*- c++ -*- */

 /*

  * Copyright 2012, 2014, 2019 Free Software Foundation, Inc.

  *

  * This file is part of VOLK

  *

  * SPDX-License-Identifier: LGPL-3.0-or-later

  */


 #ifndef INCLUDED_volk_32fc_x2_s32f_square_dist_scalar_mult_32f_a_H

 #define INCLUDED_volk_32fc_x2_s32f_square_dist_scalar_mult_32f_a_H


 #include <volk/volk_complex.h>


 static inline void calculate_scaled_distances(float* target,

                                               const lv_32fc_t symbol,

                                               const lv_32fc_t* points,

                                               const float scalar,

                                               const unsigned int num_points)

 {

     lv_32fc_t diff;

     for (unsigned int i = 0; i < num_points; ++i) {

         /*

          * Calculate: |y - x|^2 * SNR_lin

          * Compare C++: *target++ = scalar * std::norm(symbol - *constellation++);

          */

         diff = symbol - *points++;

         *target++ =

             scalar * (lv_creal(diff) * lv_creal(diff) + lv_cimag(diff) * lv_cimag(diff));

     }

 }


 #ifdef LV_HAVE_AVX2

 #include <immintrin.h>

 #include <volk/volk_avx2_intrinsics.h>


 static inline void

 volk_32fc_x2_s32f_square_dist_scalar_mult_32f_a_avx2(float* target,

                                                      lv_32fc_t* src0,

                                                      lv_32fc_t* points,

                                                      float scalar,

                                                      unsigned int num_points)

 {

     const unsigned int num_bytes = num_points * 8;

     __m128 xmm9, xmm10;

     __m256 xmm4, xmm6;

     __m256 xmm_points0, xmm_points1, xmm_result;


     const unsigned int bound = num_bytes >> 6;


     // load complex value into all parts of the register.

     const __m256 xmm_symbol = _mm256_castpd_ps(_mm256_broadcast_sd((const double*)src0));

     const __m128 xmm128_symbol = _mm256_extractf128_ps(xmm_symbol, 1);


     // Load scalar into all 8 parts of the register

     const __m256 xmm_scalar = _mm256_broadcast_ss(&scalar);

     const __m128 xmm128_scalar = _mm256_extractf128_ps(xmm_scalar, 1);


     // Set permutation constant

     const __m256i idx = _mm256_set_epi32(7, 6, 3, 2, 5, 4, 1, 0);


     for (unsigned int i = 0; i < bound; ++i) {

         xmm_points0 = _mm256_load_ps((float*)points);

         xmm_points1 = _mm256_load_ps((float*)(points + 4));

         points += 8;

         __VOLK_PREFETCH(points);


         xmm_result = _mm256_scaled_norm_dist_ps_avx2(

             xmm_symbol, xmm_symbol, xmm_points0, xmm_points1, xmm_scalar);


         _mm256_store_ps(target, xmm_result);

         target += 8;

     }


     if (num_bytes >> 5 & 1) {

         xmm_points0 = _mm256_load_ps((float*)points);


         xmm4 = _mm256_sub_ps(xmm_symbol, xmm_points0);


         points += 4;


         xmm6 = _mm256_mul_ps(xmm4, xmm4);


         xmm4 = _mm256_hadd_ps(xmm6, xmm6);

         xmm4 = _mm256_permutevar8x32_ps(xmm4, idx);


         xmm_result = _mm256_mul_ps(xmm4, xmm_scalar);


         xmm9 = _mm256_extractf128_ps(xmm_result, 1);

         _mm_store_ps(target, xmm9);

         target += 4;

     }


     if (num_bytes >> 4 & 1) {

         xmm9 = _mm_load_ps((float*)points);


         xmm10 = _mm_sub_ps(xmm128_symbol, xmm9);


         points += 2;


         xmm9 = _mm_mul_ps(xmm10, xmm10);


         xmm10 = _mm_hadd_ps(xmm9, xmm9);


         xmm10 = _mm_mul_ps(xmm10, xmm128_scalar);


         _mm_storeh_pi((__m64*)target, xmm10);

         target += 2;

     }


     calculate_scaled_distances(target, src0[0], points, scalar, (num_bytes >> 3) & 1);

 }


 #endif /*LV_HAVE_AVX2*/


 #ifdef LV_HAVE_AVX

 #include <immintrin.h>

 #include <volk/volk_avx_intrinsics.h>


 static inline void

 volk_32fc_x2_s32f_square_dist_scalar_mult_32f_a_avx(float* target,

                                                     lv_32fc_t* src0,

                                                     lv_32fc_t* points,

                                                     float scalar,

                                                     unsigned int num_points)

 {

     const int eightsPoints = num_points / 8;

     const int remainder = num_points - 8 * eightsPoints;


     __m256 xmm_points0, xmm_points1, xmm_result;


     // load complex value into all parts of the register.

     const __m256 xmm_symbol = _mm256_castpd_ps(_mm256_broadcast_sd((const double*)src0));


     // Load scalar into all 8 parts of the register

     const __m256 xmm_scalar = _mm256_broadcast_ss(&scalar);


     for (int i = 0; i < eightsPoints; ++i) {

         xmm_points0 = _mm256_load_ps((float*)points);

         xmm_points1 = _mm256_load_ps((float*)(points + 4));

         points += 8;


         xmm_result = _mm256_scaled_norm_dist_ps(

             xmm_symbol, xmm_symbol, xmm_points0, xmm_points1, xmm_scalar);


         _mm256_store_ps(target, xmm_result);

         target += 8;

     }


     const lv_32fc_t symbol = *src0;

     calculate_scaled_distances(target, symbol, points, scalar, remainder);

 }


 #endif /* LV_HAVE_AVX */


 #ifdef LV_HAVE_SSE3

 #include <pmmintrin.h>

 #include <volk/volk_sse3_intrinsics.h>


 static inline void

 volk_32fc_x2_s32f_square_dist_scalar_mult_32f_a_sse3(float* target,

                                                      lv_32fc_t* src0,

                                                      lv_32fc_t* points,

                                                      float scalar,

                                                      unsigned int num_points)

 {

     __m128 xmm_points0, xmm_points1, xmm_result;


     /*

      * First do 4 values in every loop iteration.

      * There may be up to 3 values left.

      * leftovers0 indicates if at least 2 more are available for SSE execution.

      * leftovers1 indicates if there is a single element left.

      */

     const int quarterPoints = num_points / 4;

     const int leftovers0 = (num_points / 2) - 2 * quarterPoints;

     const int leftovers1 = num_points % 2;


     // load complex value into both parts of the register.

     const __m128 xmm_symbol = _mm_castpd_ps(_mm_load1_pd((const double*)src0));


     // Load scalar into all 4 parts of the register

     const __m128 xmm_scalar = _mm_load1_ps(&scalar);


     for (int i = 0; i < quarterPoints; ++i) {

         xmm_points0 = _mm_load_ps((float*)points);

         xmm_points1 = _mm_load_ps((float*)(points + 2));

         points += 4;

         __VOLK_PREFETCH(points);

         // calculate distances

         xmm_result = _mm_scaled_norm_dist_ps_sse3(

             xmm_symbol, xmm_symbol, xmm_points0, xmm_points1, xmm_scalar);


         _mm_store_ps(target, xmm_result);

         target += 4;

     }


     for (int i = 0; i < leftovers0; ++i) {

         xmm_points0 = _mm_load_ps((float*)points);

         points += 2;


         xmm_points0 = _mm_sub_ps(xmm_symbol, xmm_points0);

         xmm_points0 = _mm_mul_ps(xmm_points0, xmm_points0);

         xmm_points0 = _mm_hadd_ps(xmm_points0, xmm_points0);

         xmm_result = _mm_mul_ps(xmm_points0, xmm_scalar);


         _mm_storeh_pi((__m64*)target, xmm_result);

         target += 2;

     }


     calculate_scaled_distances(target, src0[0], points, scalar, leftovers1);

 }


 #endif /*LV_HAVE_SSE3*/


 #ifdef LV_HAVE_SSE

 #include <volk/volk_sse_intrinsics.h>

 #include <xmmintrin.h>

 static inline void

 volk_32fc_x2_s32f_square_dist_scalar_mult_32f_a_sse(float* target,

                                                     lv_32fc_t* src0,

                                                     lv_32fc_t* points,

                                                     float scalar,

                                                     unsigned int num_points)

 {

     const __m128 xmm_scalar = _mm_set1_ps(scalar);

     const __m128 xmm_symbol = _mm_castpd_ps(_mm_load1_pd((const double*)src0));


     for (unsigned i = 0; i < num_points / 4; ++i) {

         __m128 xmm_points0 = _mm_load_ps((float*)points);

         __m128 xmm_points1 = _mm_load_ps((float*)(points + 2));

         points += 4;

         __m128 xmm_result = _mm_scaled_norm_dist_ps_sse(

             xmm_symbol, xmm_symbol, xmm_points0, xmm_points1, xmm_scalar);

         _mm_store_ps((float*)target, xmm_result);

         target += 4;

     }


     calculate_scaled_distances(target, src0[0], points, scalar, num_points % 4);

 }

 #endif // LV_HAVE_SSE


 #ifdef LV_HAVE_GENERIC

 static inline void

 volk_32fc_x2_s32f_square_dist_scalar_mult_32f_generic(float* target,

                                                       lv_32fc_t* src0,

                                                       lv_32fc_t* points,

                                                       float scalar,

                                                       unsigned int num_points)

 {

     const lv_32fc_t symbol = *src0;

     calculate_scaled_distances(target, symbol, points, scalar, num_points);

 }


 #endif /*LV_HAVE_GENERIC*/


 #endif /*INCLUDED_volk_32fc_x2_s32f_square_dist_scalar_mult_32f_a_H*/


 #ifndef INCLUDED_volk_32fc_x2_s32f_square_dist_scalar_mult_32f_u_H

 #define INCLUDED_volk_32fc_x2_s32f_square_dist_scalar_mult_32f_u_H


 #include <volk/volk_complex.h>


 #ifdef LV_HAVE_AVX2

 #include <immintrin.h>

 #include <volk/volk_avx2_intrinsics.h>


 static inline void

 volk_32fc_x2_s32f_square_dist_scalar_mult_32f_u_avx2(float* target,

                                                      lv_32fc_t* src0,

                                                      lv_32fc_t* points,

                                                      float scalar,

                                                      unsigned int num_points)

 {

     const unsigned int num_bytes = num_points * 8;

     __m128 xmm9, xmm10;

     __m256 xmm4, xmm6;

     __m256 xmm_points0, xmm_points1, xmm_result;


     const unsigned int bound = num_bytes >> 6;


     // load complex value into all parts of the register.

     const __m256 xmm_symbol = _mm256_castpd_ps(_mm256_broadcast_sd((const double*)src0));

     const __m128 xmm128_symbol = _mm256_extractf128_ps(xmm_symbol, 1);


     // Load scalar into all 8 parts of the register

     const __m256 xmm_scalar = _mm256_broadcast_ss(&scalar);

     const __m128 xmm128_scalar = _mm256_extractf128_ps(xmm_scalar, 1);


     // Set permutation constant

     const __m256i idx = _mm256_set_epi32(7, 6, 3, 2, 5, 4, 1, 0);


     for (unsigned int i = 0; i < bound; ++i) {

         xmm_points0 = _mm256_loadu_ps((float*)points);

         xmm_points1 = _mm256_loadu_ps((float*)(points + 4));

         points += 8;

         __VOLK_PREFETCH(points);


         xmm_result = _mm256_scaled_norm_dist_ps_avx2(

             xmm_symbol, xmm_symbol, xmm_points0, xmm_points1, xmm_scalar);


         _mm256_storeu_ps(target, xmm_result);

         target += 8;

     }


     if (num_bytes >> 5 & 1) {

         xmm_points0 = _mm256_loadu_ps((float*)points);


         xmm4 = _mm256_sub_ps(xmm_symbol, xmm_points0);


         points += 4;


         xmm6 = _mm256_mul_ps(xmm4, xmm4);


         xmm4 = _mm256_hadd_ps(xmm6, xmm6);

         xmm4 = _mm256_permutevar8x32_ps(xmm4, idx);


         xmm_result = _mm256_mul_ps(xmm4, xmm_scalar);


         xmm9 = _mm256_extractf128_ps(xmm_result, 1);

         _mm_storeu_ps(target, xmm9);

         target += 4;

     }


     if (num_bytes >> 4 & 1) {

         xmm9 = _mm_loadu_ps((float*)points);


         xmm10 = _mm_sub_ps(xmm128_symbol, xmm9);


         points += 2;


         xmm9 = _mm_mul_ps(xmm10, xmm10);


         xmm10 = _mm_hadd_ps(xmm9, xmm9);


         xmm10 = _mm_mul_ps(xmm10, xmm128_scalar);


         _mm_storeh_pi((__m64*)target, xmm10);

         target += 2;

     }


     calculate_scaled_distances(target, src0[0], points, scalar, (num_bytes >> 3) & 1);

 }


 #endif /*LV_HAVE_AVX2*/


 #ifdef LV_HAVE_AVX

 #include <immintrin.h>

 #include <volk/volk_avx_intrinsics.h>


 static inline void

 volk_32fc_x2_s32f_square_dist_scalar_mult_32f_u_avx(float* target,

                                                     lv_32fc_t* src0,

                                                     lv_32fc_t* points,

                                                     float scalar,

                                                     unsigned int num_points)

 {

     const int eightsPoints = num_points / 8;

     const int remainder = num_points - 8 * eightsPoints;


     __m256 xmm_points0, xmm_points1, xmm_result;


     // load complex value into all parts of the register.

     const __m256 xmm_symbol = _mm256_castpd_ps(_mm256_broadcast_sd((const double*)src0));


     // Load scalar into all 8 parts of the register

     const __m256 xmm_scalar = _mm256_broadcast_ss(&scalar);


     for (int i = 0; i < eightsPoints; ++i) {

         xmm_points0 = _mm256_loadu_ps((float*)points);

         xmm_points1 = _mm256_loadu_ps((float*)(points + 4));

         points += 8;


         xmm_result = _mm256_scaled_norm_dist_ps(

             xmm_symbol, xmm_symbol, xmm_points0, xmm_points1, xmm_scalar);


         _mm256_storeu_ps(target, xmm_result);

         target += 8;

     }


     const lv_32fc_t symbol = *src0;

     calculate_scaled_distances(target, symbol, points, scalar, remainder);

 }


 #endif /* LV_HAVE_AVX */


 #ifdef LV_HAVE_SSE3

 #include <pmmintrin.h>

 #include <volk/volk_sse3_intrinsics.h>


 static inline void

 volk_32fc_x2_s32f_square_dist_scalar_mult_32f_u_sse3(float* target,

                                                      lv_32fc_t* src0,

                                                      lv_32fc_t* points,

                                                      float scalar,

                                                      unsigned int num_points)

 {

     __m128 xmm_points0, xmm_points1, xmm_result;


     /*

      * First do 4 values in every loop iteration.

      * There may be up to 3 values left.

      * leftovers0 indicates if at least 2 more are available for SSE execution.

      * leftovers1 indicates if there is a single element left.

      */

     const int quarterPoints = num_points / 4;

     const int leftovers0 = (num_points / 2) - 2 * quarterPoints;

     const int leftovers1 = num_points % 2;


     // load complex value into both parts of the register.

     const __m128 xmm_symbol = _mm_castpd_ps(_mm_load1_pd((const double*)src0));


     // Load scalar into all 4 parts of the register

     const __m128 xmm_scalar = _mm_load1_ps(&scalar);


     for (int i = 0; i < quarterPoints; ++i) {

         xmm_points0 = _mm_loadu_ps((float*)points);

         xmm_points1 = _mm_loadu_ps((float*)(points + 2));

         points += 4;

         __VOLK_PREFETCH(points);

         // calculate distances

         xmm_result = _mm_scaled_norm_dist_ps_sse3(

             xmm_symbol, xmm_symbol, xmm_points0, xmm_points1, xmm_scalar);


         _mm_storeu_ps(target, xmm_result);

         target += 4;

     }


     for (int i = 0; i < leftovers0; ++i) {

         xmm_points0 = _mm_loadu_ps((float*)points);

         points += 2;


         xmm_points0 = _mm_sub_ps(xmm_symbol, xmm_points0);

         xmm_points0 = _mm_mul_ps(xmm_points0, xmm_points0);

         xmm_points0 = _mm_hadd_ps(xmm_points0, xmm_points0);

         xmm_result = _mm_mul_ps(xmm_points0, xmm_scalar);


         _mm_storeh_pi((__m64*)target, xmm_result);

         target += 2;

     }


     calculate_scaled_distances(target, src0[0], points, scalar, leftovers1);

 }


 #endif /*LV_HAVE_SSE3*/


 #ifdef LV_HAVE_SSE

 #include <volk/volk_sse_intrinsics.h>

 #include <xmmintrin.h>

 static inline void

 volk_32fc_x2_s32f_square_dist_scalar_mult_32f_u_sse(float* target,

                                                     lv_32fc_t* src0,

                                                     lv_32fc_t* points,

                                                     float scalar,

                                                     unsigned int num_points)

 {

     const __m128 xmm_scalar = _mm_set1_ps(scalar);

     const __m128 xmm_symbol = _mm_castpd_ps(_mm_load1_pd((const double*)src0));


     for (unsigned i = 0; i < num_points / 4; ++i) {

         __m128 xmm_points0 = _mm_loadu_ps((float*)points);

         __m128 xmm_points1 = _mm_loadu_ps((float*)(points + 2));

         points += 4;

         __m128 xmm_result = _mm_scaled_norm_dist_ps_sse(

             xmm_symbol, xmm_symbol, xmm_points0, xmm_points1, xmm_scalar);

         _mm_storeu_ps((float*)target, xmm_result);

         target += 4;

     }


     calculate_scaled_distances(target, src0[0], points, scalar, num_points % 4);

 }

 #endif // LV_HAVE_SSE


 #endif /*INCLUDED_volk_32fc_x2_s32f_square_dist_scalar_mult_32f_u_H*/

_mm_sub_ps
FORCE_INLINE __m128 _mm_sub_ps(__m128 a, __m128 b)
Definition: sse2neon.h:2834

__m128
float32x4_t __m128
Definition: sse2neon.h:235

_mm_hadd_ps
FORCE_INLINE __m128 _mm_hadd_ps(__m128 a, __m128 b)
Definition: sse2neon.h:6527

_mm_storeu_ps
FORCE_INLINE void _mm_storeu_ps(float *p, __m128 a)
Definition: sse2neon.h:2787

_mm_load1_pd
FORCE_INLINE __m128d _mm_load1_pd(const double *p)
Definition: sse2neon.h:4483

_mm_mul_ps
FORCE_INLINE __m128 _mm_mul_ps(__m128 a, __m128 b)
Definition: sse2neon.h:2205

_mm_set1_ps
FORCE_INLINE __m128 _mm_set1_ps(float _w)
Definition: sse2neon.h:2503

_mm_loadu_ps
FORCE_INLINE __m128 _mm_loadu_ps(const float *p)
Definition: sse2neon.h:1941

__m64
int64x1_t __m64
Definition: sse2neon.h:234

_mm_castpd_ps
FORCE_INLINE __m128 _mm_castpd_ps(__m128d a)
Definition: sse2neon.h:3206

_mm_load1_ps
FORCE_INLINE __m128 _mm_load1_ps(const float *p)
Definition: sse2neon.h:1885

_mm_load_ps
FORCE_INLINE __m128 _mm_load_ps(const float *p)
Definition: sse2neon.h:1858

_mm_store_ps
FORCE_INLINE void _mm_store_ps(float *p, __m128 a)
Definition: sse2neon.h:2704

_mm_storeh_pi
FORCE_INLINE void _mm_storeh_pi(__m64 *p, __m128 a)
Definition: sse2neon.h:2751

volk_32fc_x2_s32f_square_dist_scalar_mult_32f_a_avx
static void volk_32fc_x2_s32f_square_dist_scalar_mult_32f_a_avx(float *target, lv_32fc_t *src0, lv_32fc_t *points, float scalar, unsigned int num_points)
Definition: volk_32fc_x2_s32f_square_dist_scalar_mult_32f.h:180

volk_32fc_x2_s32f_square_dist_scalar_mult_32f_u_avx
static void volk_32fc_x2_s32f_square_dist_scalar_mult_32f_u_avx(float *target, lv_32fc_t *src0, lv_32fc_t *points, float scalar, unsigned int num_points)
Definition: volk_32fc_x2_s32f_square_dist_scalar_mult_32f.h:415

volk_32fc_x2_s32f_square_dist_scalar_mult_32f_u_sse
static void volk_32fc_x2_s32f_square_dist_scalar_mult_32f_u_sse(float *target, lv_32fc_t *src0, lv_32fc_t *points, float scalar, unsigned int num_points)
Definition: volk_32fc_x2_s32f_square_dist_scalar_mult_32f.h:515

volk_32fc_x2_s32f_square_dist_scalar_mult_32f_a_sse3
static void volk_32fc_x2_s32f_square_dist_scalar_mult_32f_a_sse3(float *target, lv_32fc_t *src0, lv_32fc_t *points, float scalar, unsigned int num_points)
Definition: volk_32fc_x2_s32f_square_dist_scalar_mult_32f.h:221

calculate_scaled_distances
static void calculate_scaled_distances(float *target, const lv_32fc_t symbol, const lv_32fc_t *points, const float scalar, const unsigned int num_points)
Definition: volk_32fc_x2_s32f_square_dist_scalar_mult_32f.h:72

volk_32fc_x2_s32f_square_dist_scalar_mult_32f_a_sse
static void volk_32fc_x2_s32f_square_dist_scalar_mult_32f_a_sse(float *target, lv_32fc_t *src0, lv_32fc_t *points, float scalar, unsigned int num_points)
Definition: volk_32fc_x2_s32f_square_dist_scalar_mult_32f.h:280

volk_32fc_x2_s32f_square_dist_scalar_mult_32f_generic
static void volk_32fc_x2_s32f_square_dist_scalar_mult_32f_generic(float *target, lv_32fc_t *src0, lv_32fc_t *points, float scalar, unsigned int num_points)
Definition: volk_32fc_x2_s32f_square_dist_scalar_mult_32f.h:305

volk_32fc_x2_s32f_square_dist_scalar_mult_32f_u_sse3
static void volk_32fc_x2_s32f_square_dist_scalar_mult_32f_u_sse3(float *target, lv_32fc_t *src0, lv_32fc_t *points, float scalar, unsigned int num_points)
Definition: volk_32fc_x2_s32f_square_dist_scalar_mult_32f.h:456

volk_avx2_intrinsics.h

_mm256_scaled_norm_dist_ps_avx2
static __m256 _mm256_scaled_norm_dist_ps_avx2(const __m256 symbols0, const __m256 symbols1, const __m256 points0, const __m256 points1, const __m256 scalar)
Definition: volk_avx2_intrinsics.h:92

volk_avx_intrinsics.h

_mm256_scaled_norm_dist_ps
static __m256 _mm256_scaled_norm_dist_ps(const __m256 symbols0, const __m256 symbols1, const __m256 points0, const __m256 points1, const __m256 scalar)
Definition: volk_avx_intrinsics.h:75

__VOLK_PREFETCH
#define __VOLK_PREFETCH(addr)
Definition: volk_common.h:71

volk_complex.h

lv_cimag
#define lv_cimag(x)
Definition: volk_complex.h:98

lv_creal
#define lv_creal(x)
Definition: volk_complex.h:96

lv_32fc_t
float complex lv_32fc_t
Definition: volk_complex.h:74

i
for i
Definition: volk_config_fixed.tmpl.h:13

volk_sse3_intrinsics.h

_mm_scaled_norm_dist_ps_sse3
static __m128 _mm_scaled_norm_dist_ps_sse3(const __m128 symbols0, const __m128 symbols1, const __m128 points0, const __m128 points1, const __m128 scalar)
Definition: volk_sse3_intrinsics.h:50

volk_sse_intrinsics.h

_mm_scaled_norm_dist_ps_sse
static __m128 _mm_scaled_norm_dist_ps_sse(const __m128 symbols0, const __m128 symbols1, const __m128 points0, const __m128 points1, const __m128 scalar)
Definition: volk_sse_intrinsics.h:36