doxygen/volk__32f__convert__64f_8h_source.html

 /* -*- c++ -*- */

 /*

  * Copyright 2012, 2014 Free Software Foundation, Inc.

  *

  * This file is part of VOLK

  *

  * SPDX-License-Identifier: LGPL-3.0-or-later

  */


 #ifndef INCLUDED_volk_32f_convert_64f_u_H

 #define INCLUDED_volk_32f_convert_64f_u_H


 #include <inttypes.h>

 #include <stdio.h>


 #ifdef LV_HAVE_AVX

 #include <immintrin.h>


 static inline void volk_32f_convert_64f_u_avx(double* outputVector,

                                               const float* inputVector,

                                               unsigned int num_points)

 {

     unsigned int number = 0;


     const unsigned int quarterPoints = num_points / 4;


     const float* inputVectorPtr = (const float*)inputVector;

     double* outputVectorPtr = outputVector;

     __m256d ret;

     __m128 inputVal;


     for (; number < quarterPoints; number++) {

         inputVal = _mm_loadu_ps(inputVectorPtr);

         inputVectorPtr += 4;


         ret = _mm256_cvtps_pd(inputVal);

         _mm256_storeu_pd(outputVectorPtr, ret);


         outputVectorPtr += 4;

     }


     number = quarterPoints * 4;

     for (; number < num_points; number++) {

         outputVector[number] = (double)(inputVector[number]);

     }

 }


 #endif /* LV_HAVE_AVX */


 #ifdef LV_HAVE_SSE2

 #include <emmintrin.h>


 static inline void volk_32f_convert_64f_u_sse2(double* outputVector,

                                                const float* inputVector,

                                                unsigned int num_points)

 {

     unsigned int number = 0;


     const unsigned int quarterPoints = num_points / 4;


     const float* inputVectorPtr = (const float*)inputVector;

     double* outputVectorPtr = outputVector;

     __m128d ret;

     __m128 inputVal;


     for (; number < quarterPoints; number++) {

         inputVal = _mm_loadu_ps(inputVectorPtr);

         inputVectorPtr += 4;


         ret = _mm_cvtps_pd(inputVal);


         _mm_storeu_pd(outputVectorPtr, ret);

         outputVectorPtr += 2;


         inputVal = _mm_movehl_ps(inputVal, inputVal);


         ret = _mm_cvtps_pd(inputVal);


         _mm_storeu_pd(outputVectorPtr, ret);

         outputVectorPtr += 2;

     }


     number = quarterPoints * 4;

     for (; number < num_points; number++) {

         outputVector[number] = (double)(inputVector[number]);

     }

 }

 #endif /* LV_HAVE_SSE2 */


 #ifdef LV_HAVE_GENERIC


 static inline void volk_32f_convert_64f_generic(double* outputVector,

                                                 const float* inputVector,

                                                 unsigned int num_points)

 {

     double* outputVectorPtr = outputVector;

     const float* inputVectorPtr = inputVector;

     unsigned int number = 0;


     for (number = 0; number < num_points; number++) {

         *outputVectorPtr++ = ((double)(*inputVectorPtr++));

     }

 }

 #endif /* LV_HAVE_GENERIC */


 #endif /* INCLUDED_volk_32f_convert_64f_u_H */


 #ifndef INCLUDED_volk_32f_convert_64f_a_H

 #define INCLUDED_volk_32f_convert_64f_a_H


 #include <inttypes.h>

 #include <stdio.h>


 #ifdef LV_HAVE_AVX

 #include <immintrin.h>


 static inline void volk_32f_convert_64f_a_avx(double* outputVector,

                                               const float* inputVector,

                                               unsigned int num_points)

 {

     unsigned int number = 0;


     const unsigned int quarterPoints = num_points / 4;


     const float* inputVectorPtr = (const float*)inputVector;

     double* outputVectorPtr = outputVector;

     __m256d ret;

     __m128 inputVal;


     for (; number < quarterPoints; number++) {

         inputVal = _mm_load_ps(inputVectorPtr);

         inputVectorPtr += 4;


         ret = _mm256_cvtps_pd(inputVal);

         _mm256_store_pd(outputVectorPtr, ret);


         outputVectorPtr += 4;

     }


     number = quarterPoints * 4;

     for (; number < num_points; number++) {

         outputVector[number] = (double)(inputVector[number]);

     }

 }

 #endif /* LV_HAVE_AVX */


 #ifdef LV_HAVE_SSE2

 #include <emmintrin.h>


 static inline void volk_32f_convert_64f_a_sse2(double* outputVector,

                                                const float* inputVector,

                                                unsigned int num_points)

 {

     unsigned int number = 0;


     const unsigned int quarterPoints = num_points / 4;


     const float* inputVectorPtr = (const float*)inputVector;

     double* outputVectorPtr = outputVector;

     __m128d ret;

     __m128 inputVal;


     for (; number < quarterPoints; number++) {

         inputVal = _mm_load_ps(inputVectorPtr);

         inputVectorPtr += 4;


         ret = _mm_cvtps_pd(inputVal);


         _mm_store_pd(outputVectorPtr, ret);

         outputVectorPtr += 2;


         inputVal = _mm_movehl_ps(inputVal, inputVal);


         ret = _mm_cvtps_pd(inputVal);


         _mm_store_pd(outputVectorPtr, ret);

         outputVectorPtr += 2;

     }


     number = quarterPoints * 4;

     for (; number < num_points; number++) {

         outputVector[number] = (double)(inputVector[number]);

     }

 }

 #endif /* LV_HAVE_SSE2 */


 #ifdef LV_HAVE_GENERIC


 static inline void volk_32f_convert_64f_a_generic(double* outputVector,

                                                   const float* inputVector,

                                                   unsigned int num_points)

 {

     double* outputVectorPtr = outputVector;

     const float* inputVectorPtr = inputVector;

     unsigned int number = 0;


     for (number = 0; number < num_points; number++) {

         *outputVectorPtr++ = ((double)(*inputVectorPtr++));

     }

 }

 #endif /* LV_HAVE_GENERIC */


 #endif /* INCLUDED_volk_32f_convert_64f_a_H */

__m128
float32x4_t __m128
Definition: sse2neon.h:235

_mm_cvtps_pd
FORCE_INLINE __m128d _mm_cvtps_pd(__m128 a)
Definition: sse2neon.h:4096

_mm_movehl_ps
FORCE_INLINE __m128 _mm_movehl_ps(__m128 __A, __m128 __B)
Definition: sse2neon.h:2132

__m128d
float32x4_t __m128d
Definition: sse2neon.h:242

_mm_storeu_pd
FORCE_INLINE void _mm_storeu_pd(double *mem_addr, __m128d a)
Definition: sse2neon.h:6003

_mm_loadu_ps
FORCE_INLINE __m128 _mm_loadu_ps(const float *p)
Definition: sse2neon.h:1941

_mm_store_pd
FORCE_INLINE void _mm_store_pd(double *mem_addr, __m128d a)
Definition: sse2neon.h:5897

_mm_load_ps
FORCE_INLINE __m128 _mm_load_ps(const float *p)
Definition: sse2neon.h:1858

volk_32f_convert_64f_a_generic
static void volk_32f_convert_64f_a_generic(double *outputVector, const float *inputVector, unsigned int num_points)
Definition: volk_32f_convert_64f.h:236

volk_32f_convert_64f_u_sse2
static void volk_32f_convert_64f_u_sse2(double *outputVector, const float *inputVector, unsigned int num_points)
Definition: volk_32f_convert_64f.h:96

volk_32f_convert_64f_a_avx
static void volk_32f_convert_64f_a_avx(double *outputVector, const float *inputVector, unsigned int num_points)
Definition: volk_32f_convert_64f.h:163

volk_32f_convert_64f_a_sse2
static void volk_32f_convert_64f_a_sse2(double *outputVector, const float *inputVector, unsigned int num_points)
Definition: volk_32f_convert_64f.h:196

volk_32f_convert_64f_generic
static void volk_32f_convert_64f_generic(double *outputVector, const float *inputVector, unsigned int num_points)
Definition: volk_32f_convert_64f.h:136

volk_32f_convert_64f_u_avx
static void volk_32f_convert_64f_u_avx(double *outputVector, const float *inputVector, unsigned int num_points)
Definition: volk_32f_convert_64f.h:62