doxygen/volk__32fc__convert__16ic_8h_source.html

 /* -*- c++ -*- */

 /*

  * Copyright 2016 Free Software Foundation, Inc.

  *

  * This file is part of VOLK

  *

  * SPDX-License-Identifier: LGPL-3.0-or-later

  */


 #ifndef INCLUDED_volk_32fc_convert_16ic_a_H

 #define INCLUDED_volk_32fc_convert_16ic_a_H


 #include "volk/volk_complex.h"

 #include <limits.h>

 #include <math.h>


 #ifdef LV_HAVE_AVX2

 #include <immintrin.h>


 static inline void volk_32fc_convert_16ic_a_avx2(lv_16sc_t* outputVector,

                                                  const lv_32fc_t* inputVector,

                                                  unsigned int num_points)

 {

     const unsigned int avx_iters = num_points / 8;


     float* inputVectorPtr = (float*)inputVector;

     int16_t* outputVectorPtr = (int16_t*)outputVector;

     float aux;


     const float min_val = (float)SHRT_MIN;

     const float max_val = (float)SHRT_MAX;


     __m256 inputVal1, inputVal2;

     __m256i intInputVal1, intInputVal2;

     __m256 ret1, ret2;

     const __m256 vmin_val = _mm256_set1_ps(min_val);

     const __m256 vmax_val = _mm256_set1_ps(max_val);

     unsigned int i;


     for (i = 0; i < avx_iters; i++) {

         inputVal1 = _mm256_load_ps((float*)inputVectorPtr);

         inputVectorPtr += 8;

         inputVal2 = _mm256_load_ps((float*)inputVectorPtr);

         inputVectorPtr += 8;

         __VOLK_PREFETCH(inputVectorPtr + 16);


         // Clip

         ret1 = _mm256_max_ps(_mm256_min_ps(inputVal1, vmax_val), vmin_val);

         ret2 = _mm256_max_ps(_mm256_min_ps(inputVal2, vmax_val), vmin_val);


         intInputVal1 = _mm256_cvtps_epi32(ret1);

         intInputVal2 = _mm256_cvtps_epi32(ret2);


         intInputVal1 = _mm256_packs_epi32(intInputVal1, intInputVal2);

         intInputVal1 = _mm256_permute4x64_epi64(intInputVal1, 0xd8);


         _mm256_store_si256((__m256i*)outputVectorPtr, intInputVal1);

         outputVectorPtr += 16;

     }


     for (i = avx_iters * 16; i < num_points * 2; i++) {

         aux = *inputVectorPtr++;

         if (aux > max_val)

             aux = max_val;

         else if (aux < min_val)

             aux = min_val;

         *outputVectorPtr++ = (int16_t)rintf(aux);

     }

 }

 #endif /* LV_HAVE_AVX2 */


 #ifdef LV_HAVE_SSE2

 #include <emmintrin.h>


 static inline void volk_32fc_convert_16ic_a_sse2(lv_16sc_t* outputVector,

                                                  const lv_32fc_t* inputVector,

                                                  unsigned int num_points)

 {

     const unsigned int sse_iters = num_points / 4;


     float* inputVectorPtr = (float*)inputVector;

     int16_t* outputVectorPtr = (int16_t*)outputVector;

     float aux;


     const float min_val = (float)SHRT_MIN;

     const float max_val = (float)SHRT_MAX;


     __m128 inputVal1, inputVal2;

     __m128i intInputVal1, intInputVal2;

     __m128 ret1, ret2;

     const __m128 vmin_val = _mm_set_ps1(min_val);

     const __m128 vmax_val = _mm_set_ps1(max_val);

     unsigned int i;


     for (i = 0; i < sse_iters; i++) {

         inputVal1 = _mm_load_ps((float*)inputVectorPtr);

         inputVectorPtr += 4;

         inputVal2 = _mm_load_ps((float*)inputVectorPtr);

         inputVectorPtr += 4;

         __VOLK_PREFETCH(inputVectorPtr + 8);


         // Clip

         ret1 = _mm_max_ps(_mm_min_ps(inputVal1, vmax_val), vmin_val);

         ret2 = _mm_max_ps(_mm_min_ps(inputVal2, vmax_val), vmin_val);


         intInputVal1 = _mm_cvtps_epi32(ret1);

         intInputVal2 = _mm_cvtps_epi32(ret2);


         intInputVal1 = _mm_packs_epi32(intInputVal1, intInputVal2);


         _mm_store_si128((__m128i*)outputVectorPtr, intInputVal1);

         outputVectorPtr += 8;

     }


     for (i = sse_iters * 8; i < num_points * 2; i++) {

         aux = *inputVectorPtr++;

         if (aux > max_val)

             aux = max_val;

         else if (aux < min_val)

             aux = min_val;

         *outputVectorPtr++ = (int16_t)rintf(aux);

     }

 }

 #endif /* LV_HAVE_SSE2 */


 #if LV_HAVE_NEONV7

 #include <arm_neon.h>


 #define VCVTRQ_S32_F32(result, value)                                       \

     __VOLK_ASM("VCVTR.S32.F32 %0, %1" : "=t"(result[0]) : "t"(value[0]) :); \

     __VOLK_ASM("VCVTR.S32.F32 %0, %1" : "=t"(result[1]) : "t"(value[1]) :); \

     __VOLK_ASM("VCVTR.S32.F32 %0, %1" : "=t"(result[2]) : "t"(value[2]) :); \

     __VOLK_ASM("VCVTR.S32.F32 %0, %1" : "=t"(result[3]) : "t"(value[3]) :);


 static inline void volk_32fc_convert_16ic_neon(lv_16sc_t* outputVector,

                                                const lv_32fc_t* inputVector,

                                                unsigned int num_points)

 {


     const unsigned int neon_iters = num_points / 4;


     float32_t* inputVectorPtr = (float32_t*)inputVector;

     int16_t* outputVectorPtr = (int16_t*)outputVector;


     const float min_val_f = (float)SHRT_MIN;

     const float max_val_f = (float)SHRT_MAX;

     float32_t aux;

     unsigned int i;


     const float32x4_t min_val = vmovq_n_f32(min_val_f);

     const float32x4_t max_val = vmovq_n_f32(max_val_f);

     float32x4_t ret1, ret2, a, b;


     int32x4_t toint_a = { 0, 0, 0, 0 };

     int32x4_t toint_b = { 0, 0, 0, 0 };

     int16x4_t intInputVal1, intInputVal2;

     int16x8_t res;


     for (i = 0; i < neon_iters; i++) {

         a = vld1q_f32((const float32_t*)(inputVectorPtr));

         inputVectorPtr += 4;

         b = vld1q_f32((const float32_t*)(inputVectorPtr));

         inputVectorPtr += 4;

         __VOLK_PREFETCH(inputVectorPtr + 8);


         ret1 = vmaxq_f32(vminq_f32(a, max_val), min_val);

         ret2 = vmaxq_f32(vminq_f32(b, max_val), min_val);


         // vcvtr takes into account the current rounding mode (as does rintf)

         VCVTRQ_S32_F32(toint_a, ret1);

         VCVTRQ_S32_F32(toint_b, ret2);


         intInputVal1 = vqmovn_s32(toint_a);

         intInputVal2 = vqmovn_s32(toint_b);


         res = vcombine_s16(intInputVal1, intInputVal2);

         vst1q_s16((int16_t*)outputVectorPtr, res);

         outputVectorPtr += 8;

     }


     for (i = neon_iters * 8; i < num_points * 2; i++) {

         aux = *inputVectorPtr++;

         if (aux > max_val_f)

             aux = max_val_f;

         else if (aux < min_val_f)

             aux = min_val_f;

         *outputVectorPtr++ = (int16_t)rintf(aux);

     }

 }


 #undef VCVTRQ_S32_F32

 #endif /* LV_HAVE_NEONV7 */


 #if LV_HAVE_NEONV8

 #include <arm_neon.h>


 static inline void volk_32fc_convert_16ic_neonv8(lv_16sc_t* outputVector,

                                                  const lv_32fc_t* inputVector,

                                                  unsigned int num_points)

 {

     const unsigned int neon_iters = num_points / 4;


     float32_t* inputVectorPtr = (float32_t*)inputVector;

     int16_t* outputVectorPtr = (int16_t*)outputVector;


     const float min_val_f = (float)SHRT_MIN;

     const float max_val_f = (float)SHRT_MAX;

     float32_t aux;

     unsigned int i;


     const float32x4_t min_val = vmovq_n_f32(min_val_f);

     const float32x4_t max_val = vmovq_n_f32(max_val_f);

     float32x4_t ret1, ret2, a, b;


     int32x4_t toint_a = { 0, 0, 0, 0 }, toint_b = { 0, 0, 0, 0 };

     int16x4_t intInputVal1, intInputVal2;

     int16x8_t res;


     for (i = 0; i < neon_iters; i++) {

         a = vld1q_f32((const float32_t*)(inputVectorPtr));

         inputVectorPtr += 4;

         b = vld1q_f32((const float32_t*)(inputVectorPtr));

         inputVectorPtr += 4;

         __VOLK_PREFETCH(inputVectorPtr + 8);


         ret1 = vmaxq_f32(vminq_f32(a, max_val), min_val);

         ret2 = vmaxq_f32(vminq_f32(b, max_val), min_val);


         // vrndiq takes into account the current rounding mode (as does rintf)

         toint_a = vcvtq_s32_f32(vrndiq_f32(ret1));

         toint_b = vcvtq_s32_f32(vrndiq_f32(ret2));


         intInputVal1 = vqmovn_s32(toint_a);

         intInputVal2 = vqmovn_s32(toint_b);


         res = vcombine_s16(intInputVal1, intInputVal2);

         vst1q_s16((int16_t*)outputVectorPtr, res);

         outputVectorPtr += 8;

     }


     for (i = neon_iters * 8; i < num_points * 2; i++) {

         aux = *inputVectorPtr++;

         if (aux > max_val_f)

             aux = max_val_f;

         else if (aux < min_val_f)

             aux = min_val_f;

         *outputVectorPtr++ = (int16_t)rintf(aux);

     }

 }

 #endif /* LV_HAVE_NEONV8 */


 #ifdef LV_HAVE_GENERIC


 static inline void volk_32fc_convert_16ic_generic(lv_16sc_t* outputVector,

                                                   const lv_32fc_t* inputVector,

                                                   unsigned int num_points)

 {

     float* inputVectorPtr = (float*)inputVector;

     int16_t* outputVectorPtr = (int16_t*)outputVector;

     const float min_val = (float)SHRT_MIN;

     const float max_val = (float)SHRT_MAX;

     float aux;

     unsigned int i;

     for (i = 0; i < num_points * 2; i++) {

         aux = *inputVectorPtr++;

         if (aux > max_val)

             aux = max_val;

         else if (aux < min_val)

             aux = min_val;

         *outputVectorPtr++ = (int16_t)rintf(aux);

     }

 }

 #endif /* LV_HAVE_GENERIC */


 #endif /* INCLUDED_volk_32fc_convert_16ic_a_H */


 #ifndef INCLUDED_volk_32fc_convert_16ic_u_H

 #define INCLUDED_volk_32fc_convert_16ic_u_H


 #include "volk/volk_complex.h"

 #include <limits.h>

 #include <math.h>


 #ifdef LV_HAVE_AVX2

 #include <immintrin.h>


 static inline void volk_32fc_convert_16ic_u_avx2(lv_16sc_t* outputVector,

                                                  const lv_32fc_t* inputVector,

                                                  unsigned int num_points)

 {

     const unsigned int avx_iters = num_points / 8;


     float* inputVectorPtr = (float*)inputVector;

     int16_t* outputVectorPtr = (int16_t*)outputVector;

     float aux;


     const float min_val = (float)SHRT_MIN;

     const float max_val = (float)SHRT_MAX;


     __m256 inputVal1, inputVal2;

     __m256i intInputVal1, intInputVal2;

     __m256 ret1, ret2;

     const __m256 vmin_val = _mm256_set1_ps(min_val);

     const __m256 vmax_val = _mm256_set1_ps(max_val);

     unsigned int i;


     for (i = 0; i < avx_iters; i++) {

         inputVal1 = _mm256_loadu_ps((float*)inputVectorPtr);

         inputVectorPtr += 8;

         inputVal2 = _mm256_loadu_ps((float*)inputVectorPtr);

         inputVectorPtr += 8;

         __VOLK_PREFETCH(inputVectorPtr + 16);


         // Clip

         ret1 = _mm256_max_ps(_mm256_min_ps(inputVal1, vmax_val), vmin_val);

         ret2 = _mm256_max_ps(_mm256_min_ps(inputVal2, vmax_val), vmin_val);


         intInputVal1 = _mm256_cvtps_epi32(ret1);

         intInputVal2 = _mm256_cvtps_epi32(ret2);


         intInputVal1 = _mm256_packs_epi32(intInputVal1, intInputVal2);

         intInputVal1 = _mm256_permute4x64_epi64(intInputVal1, 0xd8);


         _mm256_storeu_si256((__m256i*)outputVectorPtr, intInputVal1);

         outputVectorPtr += 16;

     }


     for (i = avx_iters * 16; i < num_points * 2; i++) {

         aux = *inputVectorPtr++;

         if (aux > max_val)

             aux = max_val;

         else if (aux < min_val)

             aux = min_val;

         *outputVectorPtr++ = (int16_t)rintf(aux);

     }

 }

 #endif /* LV_HAVE_AVX2 */


 #ifdef LV_HAVE_SSE2

 #include <emmintrin.h>


 static inline void volk_32fc_convert_16ic_u_sse2(lv_16sc_t* outputVector,

                                                  const lv_32fc_t* inputVector,

                                                  unsigned int num_points)

 {

     const unsigned int sse_iters = num_points / 4;


     float* inputVectorPtr = (float*)inputVector;

     int16_t* outputVectorPtr = (int16_t*)outputVector;

     float aux;


     const float min_val = (float)SHRT_MIN;

     const float max_val = (float)SHRT_MAX;


     __m128 inputVal1, inputVal2;

     __m128i intInputVal1, intInputVal2;

     __m128 ret1, ret2;

     const __m128 vmin_val = _mm_set_ps1(min_val);

     const __m128 vmax_val = _mm_set_ps1(max_val);


     unsigned int i;

     for (i = 0; i < sse_iters; i++) {

         inputVal1 = _mm_loadu_ps((float*)inputVectorPtr);

         inputVectorPtr += 4;

         inputVal2 = _mm_loadu_ps((float*)inputVectorPtr);

         inputVectorPtr += 4;

         __VOLK_PREFETCH(inputVectorPtr + 8);


         // Clip

         ret1 = _mm_max_ps(_mm_min_ps(inputVal1, vmax_val), vmin_val);

         ret2 = _mm_max_ps(_mm_min_ps(inputVal2, vmax_val), vmin_val);


         intInputVal1 = _mm_cvtps_epi32(ret1);

         intInputVal2 = _mm_cvtps_epi32(ret2);


         intInputVal1 = _mm_packs_epi32(intInputVal1, intInputVal2);


         _mm_storeu_si128((__m128i*)outputVectorPtr, intInputVal1);

         outputVectorPtr += 8;

     }


     for (i = sse_iters * 8; i < num_points * 2; i++) {

         aux = *inputVectorPtr++;

         if (aux > max_val)

             aux = max_val;

         else if (aux < min_val)

             aux = min_val;

         *outputVectorPtr++ = (int16_t)rintf(aux);

     }

 }

 #endif /* LV_HAVE_SSE2 */

 #endif /* INCLUDED_volk_32fc_convert_16ic_u_H */

rintf
static float rintf(float x)
Definition: config.h:45

_mm_packs_epi32
FORCE_INLINE __m128i _mm_packs_epi32(__m128i a, __m128i b)
Definition: sse2neon.h:5050

_mm_store_si128
FORCE_INLINE void _mm_store_si128(__m128i *p, __m128i a)
Definition: sse2neon.h:5937

__m128
float32x4_t __m128
Definition: sse2neon.h:235

_mm_cvtps_epi32
FORCE_INLINE __m128i _mm_cvtps_epi32(__m128)
Definition: sse2neon.h:4036

_mm_set_ps1
FORCE_INLINE __m128 _mm_set_ps1(float)
Definition: sse2neon.h:2437

_mm_loadu_ps
FORCE_INLINE __m128 _mm_loadu_ps(const float *p)
Definition: sse2neon.h:1941

_mm_storeu_si128
FORCE_INLINE void _mm_storeu_si128(__m128i *p, __m128i a)
Definition: sse2neon.h:6010

_mm_load_ps
FORCE_INLINE __m128 _mm_load_ps(const float *p)
Definition: sse2neon.h:1858

__m128i
int64x2_t __m128i
Definition: sse2neon.h:244

_mm_min_ps
FORCE_INLINE __m128 _mm_min_ps(__m128 a, __m128 b)
Definition: sse2neon.h:2080

_mm_max_ps
FORCE_INLINE __m128 _mm_max_ps(__m128 a, __m128 b)
Definition: sse2neon.h:2025

volk_32fc_convert_16ic_a_sse2
static void volk_32fc_convert_16ic_a_sse2(lv_16sc_t *outputVector, const lv_32fc_t *inputVector, unsigned int num_points)
Definition: volk_32fc_convert_16ic.h:98

volk_32fc_convert_16ic_u_sse2
static void volk_32fc_convert_16ic_u_sse2(lv_16sc_t *outputVector, const lv_32fc_t *inputVector, unsigned int num_points)
Definition: volk_32fc_convert_16ic.h:369

volk_32fc_convert_16ic_generic
static void volk_32fc_convert_16ic_generic(lv_16sc_t *outputVector, const lv_32fc_t *inputVector, unsigned int num_points)
Definition: volk_32fc_convert_16ic.h:279

__VOLK_PREFETCH
#define __VOLK_PREFETCH(addr)
Definition: volk_common.h:71

volk_complex.h

lv_32fc_t
float complex lv_32fc_t
Definition: volk_complex.h:74

lv_16sc_t
short complex lv_16sc_t
Definition: volk_complex.h:71

i
for i
Definition: volk_config_fixed.tmpl.h:13