doxygen/volk__32fc__x2__s32fc__multiply__conjugate__add__32fc_8h_source.html

 /* -*- c++ -*- */

 /*

  * Copyright 2019 Free Software Foundation, Inc.

  *

  * This file is part of VOLK

  *

  * SPDX-License-Identifier: LGPL-3.0-or-later

  */


 #ifndef INCLUDED_volk_32fc_x2_s32fc_multiply_conjugate_add_32fc_H

 #define INCLUDED_volk_32fc_x2_s32fc_multiply_conjugate_add_32fc_H


 #include <float.h>

 #include <inttypes.h>

 #include <stdio.h>

 #include <volk/volk_complex.h>


 #ifdef LV_HAVE_GENERIC


 static inline void

 volk_32fc_x2_s32fc_multiply_conjugate_add_32fc_generic(lv_32fc_t* cVector,

                                                        const lv_32fc_t* aVector,

                                                        const lv_32fc_t* bVector,

                                                        const lv_32fc_t scalar,

                                                        unsigned int num_points)

 {

     const lv_32fc_t* aPtr = aVector;

     const lv_32fc_t* bPtr = bVector;

     lv_32fc_t* cPtr = cVector;

     unsigned int number = num_points;


     // unwrap loop

     while (number >= 8) {

         *cPtr++ = (*aPtr++) + lv_conj(*bPtr++) * scalar;

         *cPtr++ = (*aPtr++) + lv_conj(*bPtr++) * scalar;

         *cPtr++ = (*aPtr++) + lv_conj(*bPtr++) * scalar;

         *cPtr++ = (*aPtr++) + lv_conj(*bPtr++) * scalar;

         *cPtr++ = (*aPtr++) + lv_conj(*bPtr++) * scalar;

         *cPtr++ = (*aPtr++) + lv_conj(*bPtr++) * scalar;

         *cPtr++ = (*aPtr++) + lv_conj(*bPtr++) * scalar;

         *cPtr++ = (*aPtr++) + lv_conj(*bPtr++) * scalar;

         number -= 8;

     }


     // clean up any remaining

     while (number-- > 0) {

         *cPtr++ = (*aPtr++) + lv_conj(*bPtr++) * scalar;

     }

 }

 #endif /* LV_HAVE_GENERIC */


 #ifdef LV_HAVE_AVX

 #include <immintrin.h>

 #include <volk/volk_avx_intrinsics.h>


 static inline void

 volk_32fc_x2_s32fc_multiply_conjugate_add_32fc_u_avx(lv_32fc_t* cVector,

                                                      const lv_32fc_t* aVector,

                                                      const lv_32fc_t* bVector,

                                                      const lv_32fc_t scalar,

                                                      unsigned int num_points)

 {

     unsigned int number = 0;

     unsigned int i = 0;

     const unsigned int quarterPoints = num_points / 4;

     unsigned int isodd = num_points & 3;


     __m256 x, y, s, z;

     lv_32fc_t v_scalar[4] = { scalar, scalar, scalar, scalar };


     const lv_32fc_t* a = aVector;

     const lv_32fc_t* b = bVector;

     lv_32fc_t* c = cVector;


     // Set up constant scalar vector

     s = _mm256_loadu_ps((float*)v_scalar);


     for (; number < quarterPoints; number++) {

         x = _mm256_loadu_ps((float*)b);

         y = _mm256_loadu_ps((float*)a);

         z = _mm256_complexconjugatemul_ps(s, x);

         z = _mm256_add_ps(y, z);

         _mm256_storeu_ps((float*)c, z);


         a += 4;

         b += 4;

         c += 4;

     }


     for (i = num_points - isodd; i < num_points; i++) {

         *c++ = (*a++) + lv_conj(*b++) * scalar;

     }

 }

 #endif /* LV_HAVE_AVX */


 #ifdef LV_HAVE_SSE3

 #include <pmmintrin.h>

 #include <volk/volk_sse3_intrinsics.h>


 static inline void

 volk_32fc_x2_s32fc_multiply_conjugate_add_32fc_u_sse3(lv_32fc_t* cVector,

                                                       const lv_32fc_t* aVector,

                                                       const lv_32fc_t* bVector,

                                                       const lv_32fc_t scalar,

                                                       unsigned int num_points)

 {

     unsigned int number = 0;

     const unsigned int halfPoints = num_points / 2;


     __m128 x, y, s, z;

     lv_32fc_t v_scalar[2] = { scalar, scalar };


     const lv_32fc_t* a = aVector;

     const lv_32fc_t* b = bVector;

     lv_32fc_t* c = cVector;


     // Set up constant scalar vector

     s = _mm_loadu_ps((float*)v_scalar);


     for (; number < halfPoints; number++) {

         x = _mm_loadu_ps((float*)b);

         y = _mm_loadu_ps((float*)a);

         z = _mm_complexconjugatemul_ps(s, x);

         z = _mm_add_ps(y, z);

         _mm_storeu_ps((float*)c, z);


         a += 2;

         b += 2;

         c += 2;

     }


     if ((num_points % 2) != 0) {

         *c = *a + lv_conj(*b) * scalar;

     }

 }

 #endif /* LV_HAVE_SSE */


 #ifdef LV_HAVE_AVX

 #include <immintrin.h>

 #include <volk/volk_avx_intrinsics.h>


 static inline void

 volk_32fc_x2_s32fc_multiply_conjugate_add_32fc_a_avx(lv_32fc_t* cVector,

                                                      const lv_32fc_t* aVector,

                                                      const lv_32fc_t* bVector,

                                                      const lv_32fc_t scalar,

                                                      unsigned int num_points)

 {

     unsigned int number = 0;

     unsigned int i = 0;

     const unsigned int quarterPoints = num_points / 4;

     unsigned int isodd = num_points & 3;


     __m256 x, y, s, z;

     lv_32fc_t v_scalar[4] = { scalar, scalar, scalar, scalar };


     const lv_32fc_t* a = aVector;

     const lv_32fc_t* b = bVector;

     lv_32fc_t* c = cVector;


     // Set up constant scalar vector

     s = _mm256_loadu_ps((float*)v_scalar);


     for (; number < quarterPoints; number++) {

         x = _mm256_load_ps((float*)b);

         y = _mm256_load_ps((float*)a);

         z = _mm256_complexconjugatemul_ps(s, x);

         z = _mm256_add_ps(y, z);

         _mm256_store_ps((float*)c, z);


         a += 4;

         b += 4;

         c += 4;

     }


     for (i = num_points - isodd; i < num_points; i++) {

         *c++ = (*a++) + lv_conj(*b++) * scalar;

     }

 }

 #endif /* LV_HAVE_AVX */


 #ifdef LV_HAVE_SSE3

 #include <pmmintrin.h>

 #include <volk/volk_sse3_intrinsics.h>


 static inline void

 volk_32fc_x2_s32fc_multiply_conjugate_add_32fc_a_sse3(lv_32fc_t* cVector,

                                                       const lv_32fc_t* aVector,

                                                       const lv_32fc_t* bVector,

                                                       const lv_32fc_t scalar,

                                                       unsigned int num_points)

 {

     unsigned int number = 0;

     const unsigned int halfPoints = num_points / 2;


     __m128 x, y, s, z;

     lv_32fc_t v_scalar[2] = { scalar, scalar };


     const lv_32fc_t* a = aVector;

     const lv_32fc_t* b = bVector;

     lv_32fc_t* c = cVector;


     // Set up constant scalar vector

     s = _mm_loadu_ps((float*)v_scalar);


     for (; number < halfPoints; number++) {

         x = _mm_load_ps((float*)b);

         y = _mm_load_ps((float*)a);

         z = _mm_complexconjugatemul_ps(s, x);

         z = _mm_add_ps(y, z);

         _mm_store_ps((float*)c, z);


         a += 2;

         b += 2;

         c += 2;

     }


     if ((num_points % 2) != 0) {

         *c = *a + lv_conj(*b) * scalar;

     }

 }

 #endif /* LV_HAVE_SSE */


 #ifdef LV_HAVE_NEON

 #include <arm_neon.h>


 static inline void

 volk_32fc_x2_s32fc_multiply_conjugate_add_32fc_neon(lv_32fc_t* cVector,

                                                     const lv_32fc_t* aVector,

                                                     const lv_32fc_t* bVector,

                                                     const lv_32fc_t scalar,

                                                     unsigned int num_points)

 {

     const lv_32fc_t* bPtr = bVector;

     const lv_32fc_t* aPtr = aVector;

     lv_32fc_t* cPtr = cVector;

     unsigned int number = num_points;

     unsigned int quarter_points = num_points / 4;


     float32x4x2_t a_val, b_val, c_val, scalar_val;

     float32x4x2_t tmp_val;


     scalar_val.val[0] = vld1q_dup_f32((const float*)&scalar);

     scalar_val.val[1] = vld1q_dup_f32(((const float*)&scalar) + 1);


     for (number = 0; number < quarter_points; ++number) {

         a_val = vld2q_f32((float*)aPtr);

         b_val = vld2q_f32((float*)bPtr);

         b_val.val[1] = vnegq_f32(b_val.val[1]);

         __VOLK_PREFETCH(aPtr + 8);

         __VOLK_PREFETCH(bPtr + 8);


         tmp_val.val[1] = vmulq_f32(b_val.val[1], scalar_val.val[0]);

         tmp_val.val[0] = vmulq_f32(b_val.val[0], scalar_val.val[0]);


         tmp_val.val[1] = vmlaq_f32(tmp_val.val[1], b_val.val[0], scalar_val.val[1]);

         tmp_val.val[0] = vmlsq_f32(tmp_val.val[0], b_val.val[1], scalar_val.val[1]);


         c_val.val[1] = vaddq_f32(a_val.val[1], tmp_val.val[1]);

         c_val.val[0] = vaddq_f32(a_val.val[0], tmp_val.val[0]);


         vst2q_f32((float*)cPtr, c_val);


         aPtr += 4;

         bPtr += 4;

         cPtr += 4;

     }


     for (number = quarter_points * 4; number < num_points; number++) {

         *cPtr++ = (*aPtr++) + lv_conj(*bPtr++) * scalar;

     }

 }

 #endif /* LV_HAVE_NEON */


 #endif /* INCLUDED_volk_32fc_x2_s32fc_multiply_conjugate_add_32fc_H */

__m128
float32x4_t __m128
Definition: sse2neon.h:235

_mm_storeu_ps
FORCE_INLINE void _mm_storeu_ps(float *p, __m128 a)
Definition: sse2neon.h:2787

_mm_loadu_ps
FORCE_INLINE __m128 _mm_loadu_ps(const float *p)
Definition: sse2neon.h:1941

_mm_add_ps
FORCE_INLINE __m128 _mm_add_ps(__m128 a, __m128 b)
Definition: sse2neon.h:1039

_mm_load_ps
FORCE_INLINE __m128 _mm_load_ps(const float *p)
Definition: sse2neon.h:1858

_mm_store_ps
FORCE_INLINE void _mm_store_ps(float *p, __m128 a)
Definition: sse2neon.h:2704

volk_32fc_x2_s32fc_multiply_conjugate_add_32fc_a_avx
static void volk_32fc_x2_s32fc_multiply_conjugate_add_32fc_a_avx(lv_32fc_t *cVector, const lv_32fc_t *aVector, const lv_32fc_t *bVector, const lv_32fc_t scalar, unsigned int num_points)
Definition: volk_32fc_x2_s32fc_multiply_conjugate_add_32fc.h:210

volk_32fc_x2_s32fc_multiply_conjugate_add_32fc_generic
static void volk_32fc_x2_s32fc_multiply_conjugate_add_32fc_generic(lv_32fc_t *cVector, const lv_32fc_t *aVector, const lv_32fc_t *bVector, const lv_32fc_t scalar, unsigned int num_points)
Definition: volk_32fc_x2_s32fc_multiply_conjugate_add_32fc.h:85

volk_32fc_x2_s32fc_multiply_conjugate_add_32fc_u_sse3
static void volk_32fc_x2_s32fc_multiply_conjugate_add_32fc_u_sse3(lv_32fc_t *cVector, const lv_32fc_t *aVector, const lv_32fc_t *bVector, const lv_32fc_t scalar, unsigned int num_points)
Definition: volk_32fc_x2_s32fc_multiply_conjugate_add_32fc.h:167

volk_32fc_x2_s32fc_multiply_conjugate_add_32fc_a_sse3
static void volk_32fc_x2_s32fc_multiply_conjugate_add_32fc_a_sse3(lv_32fc_t *cVector, const lv_32fc_t *aVector, const lv_32fc_t *bVector, const lv_32fc_t scalar, unsigned int num_points)
Definition: volk_32fc_x2_s32fc_multiply_conjugate_add_32fc.h:255

volk_32fc_x2_s32fc_multiply_conjugate_add_32fc_u_avx
static void volk_32fc_x2_s32fc_multiply_conjugate_add_32fc_u_avx(lv_32fc_t *cVector, const lv_32fc_t *aVector, const lv_32fc_t *bVector, const lv_32fc_t scalar, unsigned int num_points)
Definition: volk_32fc_x2_s32fc_multiply_conjugate_add_32fc.h:122

volk_32fc_x2_s32fc_multiply_conjugate_add_32fc_neon
static void volk_32fc_x2_s32fc_multiply_conjugate_add_32fc_neon(lv_32fc_t *cVector, const lv_32fc_t *aVector, const lv_32fc_t *bVector, const lv_32fc_t scalar, unsigned int num_points)
Definition: volk_32fc_x2_s32fc_multiply_conjugate_add_32fc.h:297

volk_avx_intrinsics.h

_mm256_complexconjugatemul_ps
static __m256 _mm256_complexconjugatemul_ps(const __m256 x, const __m256 y)
Definition: volk_avx_intrinsics.h:38

__VOLK_PREFETCH
#define __VOLK_PREFETCH(addr)
Definition: volk_common.h:71

volk_complex.h

lv_conj
#define lv_conj(x)
Definition: volk_complex.h:100

lv_32fc_t
float complex lv_32fc_t
Definition: volk_complex.h:74

i
for i
Definition: volk_config_fixed.tmpl.h:13

volk_sse3_intrinsics.h

_mm_complexconjugatemul_ps
static __m128 _mm_complexconjugatemul_ps(__m128 x, __m128 y)
Definition: volk_sse3_intrinsics.h:31