doxygen/volk__32f__binary__slicer__32i_8h_source.html

 /* -*- c++ -*- */

 /*

  * Copyright 2014 Free Software Foundation, Inc.

  *

  * This file is part of VOLK

  *

  * SPDX-License-Identifier: LGPL-3.0-or-later

  */


 #ifndef INCLUDED_volk_32f_binary_slicer_32i_H

 #define INCLUDED_volk_32f_binary_slicer_32i_H


 #ifdef LV_HAVE_GENERIC


 static inline void volk_32f_binary_slicer_32i_generic(int* cVector,

                                                       const float* aVector,

                                                       unsigned int num_points)

 {

     int* cPtr = cVector;

     const float* aPtr = aVector;

     unsigned int number = 0;


     for (number = 0; number < num_points; number++) {

         if (*aPtr++ >= 0) {

             *cPtr++ = 1;

         } else {

             *cPtr++ = 0;

         }

     }

 }

 #endif /* LV_HAVE_GENERIC */


 #ifdef LV_HAVE_GENERIC


 static inline void volk_32f_binary_slicer_32i_generic_branchless(int* cVector,

                                                                  const float* aVector,

                                                                  unsigned int num_points)

 {

     int* cPtr = cVector;

     const float* aPtr = aVector;

     unsigned int number = 0;


     for (number = 0; number < num_points; number++) {

         *cPtr++ = (*aPtr++ >= 0);

     }

 }

 #endif /* LV_HAVE_GENERIC */


 #ifdef LV_HAVE_SSE2

 #include <emmintrin.h>


 static inline void volk_32f_binary_slicer_32i_a_sse2(int* cVector,

                                                      const float* aVector,

                                                      unsigned int num_points)

 {

     int* cPtr = cVector;

     const float* aPtr = aVector;

     unsigned int number = 0;


     unsigned int quarter_points = num_points / 4;

     __m128 a_val, res_f;

     __m128i res_i, binary_i;

     __m128 zero_val;

     zero_val = _mm_set1_ps(0.0f);


     for (number = 0; number < quarter_points; number++) {

         a_val = _mm_load_ps(aPtr);


         res_f = _mm_cmpge_ps(a_val, zero_val);

         res_i = _mm_cvtps_epi32(res_f);

         binary_i = _mm_srli_epi32(res_i, 31);


         _mm_store_si128((__m128i*)cPtr, binary_i);


         cPtr += 4;

         aPtr += 4;

     }


     for (number = quarter_points * 4; number < num_points; number++) {

         if (*aPtr++ >= 0) {

             *cPtr++ = 1;

         } else {

             *cPtr++ = 0;

         }

     }

 }

 #endif /* LV_HAVE_SSE2 */


 #ifdef LV_HAVE_AVX

 #include <immintrin.h>


 static inline void volk_32f_binary_slicer_32i_a_avx(int* cVector,

                                                     const float* aVector,

                                                     unsigned int num_points)

 {

     int* cPtr = cVector;

     const float* aPtr = aVector;

     unsigned int number = 0;


     unsigned int quarter_points = num_points / 8;

     __m256 a_val, res_f, binary_f;

     __m256i binary_i;

     __m256 zero_val, one_val;

     zero_val = _mm256_set1_ps(0.0f);

     one_val = _mm256_set1_ps(1.0f);


     for (number = 0; number < quarter_points; number++) {

         a_val = _mm256_load_ps(aPtr);


         res_f = _mm256_cmp_ps(a_val, zero_val, _CMP_GE_OS);

         binary_f = _mm256_and_ps(res_f, one_val);

         binary_i = _mm256_cvtps_epi32(binary_f);


         _mm256_store_si256((__m256i*)cPtr, binary_i);


         cPtr += 8;

         aPtr += 8;

     }


     for (number = quarter_points * 8; number < num_points; number++) {

         if (*aPtr++ >= 0) {

             *cPtr++ = 1;

         } else {

             *cPtr++ = 0;

         }

     }

 }

 #endif /* LV_HAVE_AVX */


 #ifdef LV_HAVE_SSE2

 #include <emmintrin.h>


 static inline void volk_32f_binary_slicer_32i_u_sse2(int* cVector,

                                                      const float* aVector,

                                                      unsigned int num_points)

 {

     int* cPtr = cVector;

     const float* aPtr = aVector;

     unsigned int number = 0;


     unsigned int quarter_points = num_points / 4;

     __m128 a_val, res_f;

     __m128i res_i, binary_i;

     __m128 zero_val;

     zero_val = _mm_set1_ps(0.0f);


     for (number = 0; number < quarter_points; number++) {

         a_val = _mm_loadu_ps(aPtr);


         res_f = _mm_cmpge_ps(a_val, zero_val);

         res_i = _mm_cvtps_epi32(res_f);

         binary_i = _mm_srli_epi32(res_i, 31);


         _mm_storeu_si128((__m128i*)cPtr, binary_i);


         cPtr += 4;

         aPtr += 4;

     }


     for (number = quarter_points * 4; number < num_points; number++) {

         if (*aPtr++ >= 0) {

             *cPtr++ = 1;

         } else {

             *cPtr++ = 0;

         }

     }

 }

 #endif /* LV_HAVE_SSE2 */


 #ifdef LV_HAVE_AVX

 #include <immintrin.h>


 static inline void volk_32f_binary_slicer_32i_u_avx(int* cVector,

                                                     const float* aVector,

                                                     unsigned int num_points)

 {

     int* cPtr = cVector;

     const float* aPtr = aVector;

     unsigned int number = 0;


     unsigned int quarter_points = num_points / 8;

     __m256 a_val, res_f, binary_f;

     __m256i binary_i;

     __m256 zero_val, one_val;

     zero_val = _mm256_set1_ps(0.0f);

     one_val = _mm256_set1_ps(1.0f);


     for (number = 0; number < quarter_points; number++) {

         a_val = _mm256_loadu_ps(aPtr);


         res_f = _mm256_cmp_ps(a_val, zero_val, _CMP_GE_OS);

         binary_f = _mm256_and_ps(res_f, one_val);

         binary_i = _mm256_cvtps_epi32(binary_f);


         _mm256_storeu_si256((__m256i*)cPtr, binary_i);


         cPtr += 8;

         aPtr += 8;

     }


     for (number = quarter_points * 8; number < num_points; number++) {

         if (*aPtr++ >= 0) {

             *cPtr++ = 1;

         } else {

             *cPtr++ = 0;

         }

     }

 }

 #endif /* LV_HAVE_AVX */


 #endif /* INCLUDED_volk_32f_binary_slicer_32i_H */

_mm_store_si128
FORCE_INLINE void _mm_store_si128(__m128i *p, __m128i a)
Definition: sse2neon.h:5937

__m128
float32x4_t __m128
Definition: sse2neon.h:235

_mm_srli_epi32
#define _mm_srli_epi32(a, imm)
Definition: sse2neon.h:5838

_mm_cvtps_epi32
FORCE_INLINE __m128i _mm_cvtps_epi32(__m128)
Definition: sse2neon.h:4036

_mm_cmpge_ps
FORCE_INLINE __m128 _mm_cmpge_ps(__m128 a, __m128 b)
Definition: sse2neon.h:1133

_mm_set1_ps
FORCE_INLINE __m128 _mm_set1_ps(float _w)
Definition: sse2neon.h:2503

_mm_loadu_ps
FORCE_INLINE __m128 _mm_loadu_ps(const float *p)
Definition: sse2neon.h:1941

_mm_storeu_si128
FORCE_INLINE void _mm_storeu_si128(__m128i *p, __m128i a)
Definition: sse2neon.h:6010

_mm_load_ps
FORCE_INLINE __m128 _mm_load_ps(const float *p)
Definition: sse2neon.h:1858

__m128i
int64x2_t __m128i
Definition: sse2neon.h:244

volk_32f_binary_slicer_32i_generic
static void volk_32f_binary_slicer_32i_generic(int *cVector, const float *aVector, unsigned int num_points)
Definition: volk_32f_binary_slicer_32i.h:63

volk_32f_binary_slicer_32i_generic_branchless
static void volk_32f_binary_slicer_32i_generic_branchless(int *cVector, const float *aVector, unsigned int num_points)
Definition: volk_32f_binary_slicer_32i.h:84

volk_32f_binary_slicer_32i_u_sse2
static void volk_32f_binary_slicer_32i_u_sse2(int *cVector, const float *aVector, unsigned int num_points)
Definition: volk_32f_binary_slicer_32i.h:185

volk_32f_binary_slicer_32i_a_avx
static void volk_32f_binary_slicer_32i_a_avx(int *cVector, const float *aVector, unsigned int num_points)
Definition: volk_32f_binary_slicer_32i.h:143

volk_32f_binary_slicer_32i_a_sse2
static void volk_32f_binary_slicer_32i_a_sse2(int *cVector, const float *aVector, unsigned int num_points)
Definition: volk_32f_binary_slicer_32i.h:102

volk_32f_binary_slicer_32i_u_avx
static void volk_32f_binary_slicer_32i_u_avx(int *cVector, const float *aVector, unsigned int num_points)
Definition: volk_32f_binary_slicer_32i.h:226