delibs/debase/deFloat16.c

e5c31af7Sopenharmony_ci/*-------------------------------------------------------------------------
e5c31af7Sopenharmony_ci * drawElements Base Portability Library
e5c31af7Sopenharmony_ci * -------------------------------------
e5c31af7Sopenharmony_ci *
e5c31af7Sopenharmony_ci * Copyright 2014 The Android Open Source Project
e5c31af7Sopenharmony_ci *
e5c31af7Sopenharmony_ci * Licensed under the Apache License, Version 2.0 (the "License");
e5c31af7Sopenharmony_ci * you may not use this file except in compliance with the License.
e5c31af7Sopenharmony_ci * You may obtain a copy of the License at
e5c31af7Sopenharmony_ci *
e5c31af7Sopenharmony_ci *      http://www.apache.org/licenses/LICENSE-2.0
e5c31af7Sopenharmony_ci *
e5c31af7Sopenharmony_ci * Unless required by applicable law or agreed to in writing, software
e5c31af7Sopenharmony_ci * distributed under the License is distributed on an "AS IS" BASIS,
e5c31af7Sopenharmony_ci * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
e5c31af7Sopenharmony_ci * See the License for the specific language governing permissions and
e5c31af7Sopenharmony_ci * limitations under the License.
e5c31af7Sopenharmony_ci *
e5c31af7Sopenharmony_ci *//*!
e5c31af7Sopenharmony_ci * \file
e5c31af7Sopenharmony_ci * \brief 16-bit floating-point math.
e5c31af7Sopenharmony_ci *//*--------------------------------------------------------------------*/
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci#include "deFloat16.h"
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ciDE_BEGIN_EXTERN_C
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_cideFloat16 deFloat32To16 (float val32)
e5c31af7Sopenharmony_ci{
e5c31af7Sopenharmony_ci	deUint32	sign;
e5c31af7Sopenharmony_ci	int			expotent;
e5c31af7Sopenharmony_ci	deUint32	mantissa;
e5c31af7Sopenharmony_ci	union
e5c31af7Sopenharmony_ci	{
e5c31af7Sopenharmony_ci		float		f;
e5c31af7Sopenharmony_ci		deUint32	u;
e5c31af7Sopenharmony_ci	} x;
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci	x.f			= val32;
e5c31af7Sopenharmony_ci	sign		= (x.u >> 16u) & 0x00008000u;
e5c31af7Sopenharmony_ci	expotent	= (int)((x.u >> 23u) & 0x000000ffu) - (127 - 15);
e5c31af7Sopenharmony_ci	mantissa	= x.u & 0x007fffffu;
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci	if (expotent <= 0)
e5c31af7Sopenharmony_ci	{
e5c31af7Sopenharmony_ci		if (expotent < -10)
e5c31af7Sopenharmony_ci		{
e5c31af7Sopenharmony_ci			/* Rounds to zero. */
e5c31af7Sopenharmony_ci			return (deFloat16) sign;
e5c31af7Sopenharmony_ci		}
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci		/* Converted to denormalized half, add leading 1 to significand. */
e5c31af7Sopenharmony_ci		mantissa = mantissa | 0x00800000u;
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci		/* Round mantissa to nearest (10+e) */
e5c31af7Sopenharmony_ci		{
e5c31af7Sopenharmony_ci			deUint32 t = 14u - expotent;
e5c31af7Sopenharmony_ci			deUint32 a = (1u << (t - 1u)) - 1u;
e5c31af7Sopenharmony_ci			deUint32 b = (mantissa >> t) & 1u;
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci			mantissa = (mantissa + a + b) >> t;
e5c31af7Sopenharmony_ci		}
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci		return (deFloat16) (sign | mantissa);
e5c31af7Sopenharmony_ci	}
e5c31af7Sopenharmony_ci	else if (expotent == 0xff - (127 - 15))
e5c31af7Sopenharmony_ci	{
e5c31af7Sopenharmony_ci		if (mantissa == 0u)
e5c31af7Sopenharmony_ci		{
e5c31af7Sopenharmony_ci			/* InF */
e5c31af7Sopenharmony_ci			return (deFloat16) (sign | 0x7c00u);
e5c31af7Sopenharmony_ci		}
e5c31af7Sopenharmony_ci		else
e5c31af7Sopenharmony_ci		{
e5c31af7Sopenharmony_ci			/* NaN */
e5c31af7Sopenharmony_ci			mantissa >>= 13u;
e5c31af7Sopenharmony_ci			return (deFloat16) (sign | 0x7c00u | mantissa | (mantissa == 0u));
e5c31af7Sopenharmony_ci		}
e5c31af7Sopenharmony_ci	}
e5c31af7Sopenharmony_ci	else
e5c31af7Sopenharmony_ci	{
e5c31af7Sopenharmony_ci		/* Normalized float. */
e5c31af7Sopenharmony_ci		mantissa = mantissa + 0x00000fffu + ((mantissa >> 13u) & 1u);
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci		if (mantissa & 0x00800000u)
e5c31af7Sopenharmony_ci		{
e5c31af7Sopenharmony_ci			/* Overflow in mantissa. */
e5c31af7Sopenharmony_ci			mantissa  = 0u;
e5c31af7Sopenharmony_ci			expotent += 1;
e5c31af7Sopenharmony_ci		}
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci		if (expotent > 30)
e5c31af7Sopenharmony_ci		{
e5c31af7Sopenharmony_ci			/* \todo [pyry] Cause hw fp overflow */
e5c31af7Sopenharmony_ci			return (deFloat16) (sign | 0x7c00u);
e5c31af7Sopenharmony_ci		}
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci		return (deFloat16) (sign | ((deUint32)expotent << 10u) | (mantissa >> 13u));
e5c31af7Sopenharmony_ci	}
e5c31af7Sopenharmony_ci}
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_cideFloat16 deFloat64To16 (double val64)
e5c31af7Sopenharmony_ci{
e5c31af7Sopenharmony_ci	deUint64	sign;
e5c31af7Sopenharmony_ci	long		expotent;
e5c31af7Sopenharmony_ci	deUint64	mantissa;
e5c31af7Sopenharmony_ci	union
e5c31af7Sopenharmony_ci	{
e5c31af7Sopenharmony_ci		double		f;
e5c31af7Sopenharmony_ci		deUint64	u;
e5c31af7Sopenharmony_ci	} x;
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci	x.f			= val64;
e5c31af7Sopenharmony_ci	sign		= (x.u >> 48u) & 0x00008000u;
e5c31af7Sopenharmony_ci	expotent	= (long int)((x.u >> 52u) & 0x000007ffu) - (1023 - 15);
e5c31af7Sopenharmony_ci	mantissa	= x.u & 0x00fffffffffffffu;
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci	if (expotent <= 0)
e5c31af7Sopenharmony_ci	{
e5c31af7Sopenharmony_ci		if (expotent < -10)
e5c31af7Sopenharmony_ci		{
e5c31af7Sopenharmony_ci			/* Rounds to zero. */
e5c31af7Sopenharmony_ci			return (deFloat16) sign;
e5c31af7Sopenharmony_ci		}
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci		/* Converted to denormalized half, add leading 1 to significand. */
e5c31af7Sopenharmony_ci		mantissa = mantissa | 0x0010000000000000u;
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci		/* Round mantissa to nearest (10+e) */
e5c31af7Sopenharmony_ci		{
e5c31af7Sopenharmony_ci			deUint64 t = 43u - expotent;
e5c31af7Sopenharmony_ci			deUint64 a = (1u << (t - 1u)) - 1u;
e5c31af7Sopenharmony_ci			deUint64 b = (mantissa >> t) & 1u;
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci			mantissa = (mantissa + a + b) >> t;
e5c31af7Sopenharmony_ci		}
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci		return (deFloat16) (sign | mantissa);
e5c31af7Sopenharmony_ci	}
e5c31af7Sopenharmony_ci	else if (expotent == 0x7ff - (1023 - 15))
e5c31af7Sopenharmony_ci	{
e5c31af7Sopenharmony_ci		if (mantissa == 0u)
e5c31af7Sopenharmony_ci		{
e5c31af7Sopenharmony_ci			/* InF */
e5c31af7Sopenharmony_ci			return (deFloat16) (sign | 0x7c00u);
e5c31af7Sopenharmony_ci		}
e5c31af7Sopenharmony_ci		else
e5c31af7Sopenharmony_ci		{
e5c31af7Sopenharmony_ci			/* NaN */
e5c31af7Sopenharmony_ci			mantissa >>= 42u;
e5c31af7Sopenharmony_ci			return (deFloat16) (sign | 0x7c00u | mantissa | (mantissa == 0u));
e5c31af7Sopenharmony_ci		}
e5c31af7Sopenharmony_ci	}
e5c31af7Sopenharmony_ci	else
e5c31af7Sopenharmony_ci	{
e5c31af7Sopenharmony_ci		/* Normalized float. */
e5c31af7Sopenharmony_ci		mantissa = mantissa + 0x000001ffffffffffu + ((mantissa >> 42u) & 1u);
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci		if (mantissa & 0x010000000000000u)
e5c31af7Sopenharmony_ci		{
e5c31af7Sopenharmony_ci			/* Overflow in mantissa. */
e5c31af7Sopenharmony_ci			mantissa  = 0u;
e5c31af7Sopenharmony_ci			expotent += 1;
e5c31af7Sopenharmony_ci		}
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci		if (expotent > 30)
e5c31af7Sopenharmony_ci		{
e5c31af7Sopenharmony_ci			return (deFloat16) (sign | 0x7c00u);
e5c31af7Sopenharmony_ci		}
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci		return (deFloat16) (sign | ((deUint32)expotent << 10u) | (mantissa >> 42u));
e5c31af7Sopenharmony_ci	}
e5c31af7Sopenharmony_ci}
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci/*--------------------------------------------------------------------*//*!
e5c31af7Sopenharmony_ci * \brief Round the given number `val` to nearest even by discarding
e5c31af7Sopenharmony_ci *        the last `numBitsToDiscard` bits.
e5c31af7Sopenharmony_ci * \param val value to round
e5c31af7Sopenharmony_ci * \param numBitsToDiscard number of (least significant) bits to discard
e5c31af7Sopenharmony_ci * \return The rounded value with the last `numBitsToDiscard` removed
e5c31af7Sopenharmony_ci *//*--------------------------------------------------------------------*/
e5c31af7Sopenharmony_cistatic deUint32 roundToNearestEven (deUint32 val, const deUint32 numBitsToDiscard)
e5c31af7Sopenharmony_ci{
e5c31af7Sopenharmony_ci	const deUint32	lastBits	= val & ((1 << numBitsToDiscard) - 1);
e5c31af7Sopenharmony_ci	const deUint32	headBit		= val & (1 << (numBitsToDiscard - 1));
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci	DE_ASSERT(numBitsToDiscard > 0 && numBitsToDiscard < 32);	/* Make sure no overflow. */
e5c31af7Sopenharmony_ci	val >>= numBitsToDiscard;
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci	if (headBit == 0)
e5c31af7Sopenharmony_ci	{
e5c31af7Sopenharmony_ci		return val;
e5c31af7Sopenharmony_ci	}
e5c31af7Sopenharmony_ci	else if (headBit == lastBits)
e5c31af7Sopenharmony_ci	{
e5c31af7Sopenharmony_ci		if ((val & 0x1) == 0x1)
e5c31af7Sopenharmony_ci		{
e5c31af7Sopenharmony_ci			return val + 1;
e5c31af7Sopenharmony_ci		}
e5c31af7Sopenharmony_ci		else
e5c31af7Sopenharmony_ci		{
e5c31af7Sopenharmony_ci			return val;
e5c31af7Sopenharmony_ci		}
e5c31af7Sopenharmony_ci	}
e5c31af7Sopenharmony_ci	else
e5c31af7Sopenharmony_ci	{
e5c31af7Sopenharmony_ci		return val + 1;
e5c31af7Sopenharmony_ci	}
e5c31af7Sopenharmony_ci}
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_cideFloat16 deFloat32To16Round (float val32, deRoundingMode mode)
e5c31af7Sopenharmony_ci{
e5c31af7Sopenharmony_ci	union
e5c31af7Sopenharmony_ci	{
e5c31af7Sopenharmony_ci		float		f;		/* Interpret as 32-bit float */
e5c31af7Sopenharmony_ci		deUint32	u;		/* Interpret as 32-bit unsigned integer */
e5c31af7Sopenharmony_ci	} x;
e5c31af7Sopenharmony_ci	deUint32	sign;		/* sign : 0000 0000 0000 0000 X000 0000 0000 0000 */
e5c31af7Sopenharmony_ci	deUint32	exp32;		/* exp32: biased exponent for 32-bit floats */
e5c31af7Sopenharmony_ci	int			exp16;		/* exp16: biased exponent for 16-bit floats */
e5c31af7Sopenharmony_ci	deUint32	mantissa;
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci	/* We only support these two rounding modes for now */
e5c31af7Sopenharmony_ci	DE_ASSERT(mode == DE_ROUNDINGMODE_TO_ZERO || mode == DE_ROUNDINGMODE_TO_NEAREST_EVEN);
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci	x.f			= val32;
e5c31af7Sopenharmony_ci	sign		= (x.u >> 16u) & 0x00008000u;
e5c31af7Sopenharmony_ci	exp32		= (x.u >> 23u) & 0x000000ffu;
e5c31af7Sopenharmony_ci	exp16		= (int) (exp32) - 127 + 15;	/* 15/127: exponent bias for 16-bit/32-bit floats */
e5c31af7Sopenharmony_ci	mantissa	= x.u & 0x007fffffu;
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci	/* Case: zero and denormalized floats */
e5c31af7Sopenharmony_ci	if (exp32 == 0)
e5c31af7Sopenharmony_ci	{
e5c31af7Sopenharmony_ci		/* Denormalized floats are < 2^(1-127), not representable in 16-bit floats, rounding to zero. */
e5c31af7Sopenharmony_ci		return (deFloat16) sign;
e5c31af7Sopenharmony_ci	}
e5c31af7Sopenharmony_ci	/* Case: Inf and NaN */
e5c31af7Sopenharmony_ci	else if (exp32 == 0x000000ffu)
e5c31af7Sopenharmony_ci	{
e5c31af7Sopenharmony_ci		if (mantissa == 0u)
e5c31af7Sopenharmony_ci		{
e5c31af7Sopenharmony_ci			/* Inf */
e5c31af7Sopenharmony_ci			return (deFloat16) (sign | 0x7c00u);
e5c31af7Sopenharmony_ci		}
e5c31af7Sopenharmony_ci		else
e5c31af7Sopenharmony_ci		{
e5c31af7Sopenharmony_ci			/* NaN */
e5c31af7Sopenharmony_ci			mantissa >>= 13u;	/* 16-bit floats has 10-bit for mantissa, 13-bit less than 32-bit floats. */
e5c31af7Sopenharmony_ci			/* Make sure we don't turn NaN into zero by | (mantissa == 0). */
e5c31af7Sopenharmony_ci			return (deFloat16) (sign | 0x7c00u | mantissa | (mantissa == 0u));
e5c31af7Sopenharmony_ci		}
e5c31af7Sopenharmony_ci	}
e5c31af7Sopenharmony_ci	/* The following are cases for normalized floats.
e5c31af7Sopenharmony_ci	 *
e5c31af7Sopenharmony_ci	 * * If exp16 is less than 0, we are experiencing underflow for the exponent. To encode this underflowed exponent,
e5c31af7Sopenharmony_ci	 *   we can only shift the mantissa further right.
e5c31af7Sopenharmony_ci	 *   The real exponent is exp16 - 15. A denormalized 16-bit float can represent -14 via its exponent.
e5c31af7Sopenharmony_ci	 *   Note that the most significant bit in the mantissa of a denormalized float is already -1 as for exponent.
e5c31af7Sopenharmony_ci	 *   So, we just need to right shift the mantissa -exp16 bits.
e5c31af7Sopenharmony_ci	 * * If exp16 is 0, mantissa shifting requirement is similar to the above.
e5c31af7Sopenharmony_ci	 * * If exp16 is greater than 30 (0b11110), we are experiencing overflow for the exponent of 16-bit normalized floats.
e5c31af7Sopenharmony_ci	 */
e5c31af7Sopenharmony_ci	/* Case: normalized floats -> zero */
e5c31af7Sopenharmony_ci	else if (exp16 < -10)
e5c31af7Sopenharmony_ci	{
e5c31af7Sopenharmony_ci		/* 16-bit floats have only 10 bits for mantissa. Minimal 16-bit denormalized float is (2^-10) * (2^-14). */
e5c31af7Sopenharmony_ci		/* Expecting a number < (2^-10) * (2^-14) here, not representable, round to zero. */
e5c31af7Sopenharmony_ci		return (deFloat16) sign;
e5c31af7Sopenharmony_ci	}
e5c31af7Sopenharmony_ci	/* Case: normalized floats -> zero and denormalized halfs */
e5c31af7Sopenharmony_ci	else if (exp16 <= 0)
e5c31af7Sopenharmony_ci	{
e5c31af7Sopenharmony_ci		/* Add the implicit leading 1 in mormalized float to mantissa. */
e5c31af7Sopenharmony_ci		mantissa |= 0x00800000u;
e5c31af7Sopenharmony_ci		/* We have a (23 + 1)-bit mantissa, but 16-bit floats only expect 10-bit mantissa.
e5c31af7Sopenharmony_ci		 * Need to discard the last 14-bits considering rounding mode.
e5c31af7Sopenharmony_ci		 * We also need to shift right -exp16 bits to encode the underflowed exponent.
e5c31af7Sopenharmony_ci		 */
e5c31af7Sopenharmony_ci		if (mode == DE_ROUNDINGMODE_TO_ZERO)
e5c31af7Sopenharmony_ci		{
e5c31af7Sopenharmony_ci			mantissa >>= (14 - exp16);
e5c31af7Sopenharmony_ci		}
e5c31af7Sopenharmony_ci		else
e5c31af7Sopenharmony_ci		{
e5c31af7Sopenharmony_ci			/* mantissa in the above may exceed 10-bits, in which case overflow happens.
e5c31af7Sopenharmony_ci			 * The overflowed bit is automatically carried to exponent then.
e5c31af7Sopenharmony_ci			 */
e5c31af7Sopenharmony_ci			mantissa = roundToNearestEven(mantissa, 14 - exp16);
e5c31af7Sopenharmony_ci		}
e5c31af7Sopenharmony_ci		return (deFloat16) (sign | mantissa);
e5c31af7Sopenharmony_ci	}
e5c31af7Sopenharmony_ci	/* Case: normalized floats -> normalized floats */
e5c31af7Sopenharmony_ci	else if (exp16 <= 30)
e5c31af7Sopenharmony_ci	{
e5c31af7Sopenharmony_ci		if (mode == DE_ROUNDINGMODE_TO_ZERO)
e5c31af7Sopenharmony_ci		{
e5c31af7Sopenharmony_ci			return (deFloat16) (sign | ((deUint32)exp16 << 10u) | (mantissa >> 13u));
e5c31af7Sopenharmony_ci		}
e5c31af7Sopenharmony_ci		else
e5c31af7Sopenharmony_ci		{
e5c31af7Sopenharmony_ci			mantissa	= roundToNearestEven(mantissa, 13);
e5c31af7Sopenharmony_ci			/* Handle overflow. exp16 may overflow (and become Inf) itself, but that's correct. */
e5c31af7Sopenharmony_ci			exp16		= (exp16 << 10u) + (mantissa & (1 << 10));
e5c31af7Sopenharmony_ci			mantissa	&= (1u << 10) - 1;
e5c31af7Sopenharmony_ci			return (deFloat16) (sign | ((deUint32) exp16) | mantissa);
e5c31af7Sopenharmony_ci		}
e5c31af7Sopenharmony_ci	}
e5c31af7Sopenharmony_ci	/* Case: normalized floats (too large to be representable as 16-bit floats) */
e5c31af7Sopenharmony_ci	else
e5c31af7Sopenharmony_ci	{
e5c31af7Sopenharmony_ci		/* According to IEEE Std 754-2008 Section 7.4,
e5c31af7Sopenharmony_ci		 * * roundTiesToEven and roundTiesToAway carry all overflows to Inf with the sign
e5c31af7Sopenharmony_ci		 *   of the intermediate  result.
e5c31af7Sopenharmony_ci		 * * roundTowardZero carries all overflows to the format's largest finite number
e5c31af7Sopenharmony_ci		 *   with the sign of the intermediate result.
e5c31af7Sopenharmony_ci		 */
e5c31af7Sopenharmony_ci		if (mode == DE_ROUNDINGMODE_TO_ZERO)
e5c31af7Sopenharmony_ci		{
e5c31af7Sopenharmony_ci			return (deFloat16) (sign | 0x7bffu); /* 111 1011 1111 1111 */
e5c31af7Sopenharmony_ci		}
e5c31af7Sopenharmony_ci		else
e5c31af7Sopenharmony_ci		{
e5c31af7Sopenharmony_ci			return (deFloat16) (sign | (0x1f << 10));
e5c31af7Sopenharmony_ci		}
e5c31af7Sopenharmony_ci	}
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci	/* Make compiler happy */
e5c31af7Sopenharmony_ci	return (deFloat16) 0;
e5c31af7Sopenharmony_ci}
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci/*--------------------------------------------------------------------*//*!
e5c31af7Sopenharmony_ci * \brief Round the given number `val` to nearest even by discarding
e5c31af7Sopenharmony_ci *        the last `numBitsToDiscard` bits.
e5c31af7Sopenharmony_ci * \param val value to round
e5c31af7Sopenharmony_ci * \param numBitsToDiscard number of (least significant) bits to discard
e5c31af7Sopenharmony_ci * \return The rounded value with the last `numBitsToDiscard` removed
e5c31af7Sopenharmony_ci *//*--------------------------------------------------------------------*/
e5c31af7Sopenharmony_cistatic deUint64 roundToNearestEven64 (deUint64 val, const deUint64 numBitsToDiscard)
e5c31af7Sopenharmony_ci{
e5c31af7Sopenharmony_ci	const deUint64	lastBits	= val & (((deUint64)1 << numBitsToDiscard) - 1);
e5c31af7Sopenharmony_ci	const deUint64	headBit		= val & ((deUint64)1 << (numBitsToDiscard - 1));
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci	DE_ASSERT(numBitsToDiscard > 0 && numBitsToDiscard < 64);	/* Make sure no overflow. */
e5c31af7Sopenharmony_ci	val >>= numBitsToDiscard;
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci	if (headBit == 0)
e5c31af7Sopenharmony_ci	{
e5c31af7Sopenharmony_ci		return val;
e5c31af7Sopenharmony_ci	}
e5c31af7Sopenharmony_ci	else if (headBit == lastBits)
e5c31af7Sopenharmony_ci	{
e5c31af7Sopenharmony_ci		if ((val & 0x1) == 0x1)
e5c31af7Sopenharmony_ci		{
e5c31af7Sopenharmony_ci			return val + 1;
e5c31af7Sopenharmony_ci		}
e5c31af7Sopenharmony_ci		else
e5c31af7Sopenharmony_ci		{
e5c31af7Sopenharmony_ci			return val;
e5c31af7Sopenharmony_ci		}
e5c31af7Sopenharmony_ci	}
e5c31af7Sopenharmony_ci	else
e5c31af7Sopenharmony_ci	{
e5c31af7Sopenharmony_ci		return val + 1;
e5c31af7Sopenharmony_ci	}
e5c31af7Sopenharmony_ci}
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_cideFloat16 deFloat64To16Round (double val64, deRoundingMode mode)
e5c31af7Sopenharmony_ci{
e5c31af7Sopenharmony_ci	union
e5c31af7Sopenharmony_ci	{
e5c31af7Sopenharmony_ci		double		f;		/* Interpret as 64-bit float */
e5c31af7Sopenharmony_ci		deUint64	u;		/* Interpret as 64-bit unsigned integer */
e5c31af7Sopenharmony_ci	} x;
e5c31af7Sopenharmony_ci	deUint64	sign;		/* sign : 0000 0000 0000 0000 X000 0000 0000 0000 */
e5c31af7Sopenharmony_ci	deUint64	exp64;		/* exp32: biased exponent for 64-bit floats */
e5c31af7Sopenharmony_ci	int			exp16;		/* exp16: biased exponent for 16-bit floats */
e5c31af7Sopenharmony_ci	deUint64	mantissa;
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci	/* We only support these two rounding modes for now */
e5c31af7Sopenharmony_ci	DE_ASSERT(mode == DE_ROUNDINGMODE_TO_ZERO || mode == DE_ROUNDINGMODE_TO_NEAREST_EVEN);
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci	x.f			= val64;
e5c31af7Sopenharmony_ci	sign		= (x.u >> 48u) & 0x00008000u;
e5c31af7Sopenharmony_ci	exp64		= (x.u >> 52u) & 0x000007ffu;
e5c31af7Sopenharmony_ci	exp16		= (int) (exp64) - 1023 + 15;	/* 15/127: exponent bias for 16-bit/32-bit floats */
e5c31af7Sopenharmony_ci	mantissa	= x.u & 0x00fffffffffffffu;
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci	/* Case: zero and denormalized floats */
e5c31af7Sopenharmony_ci	if (exp64 == 0)
e5c31af7Sopenharmony_ci	{
e5c31af7Sopenharmony_ci		/* Denormalized floats are < 2^(1-1023), not representable in 16-bit floats, rounding to zero. */
e5c31af7Sopenharmony_ci		return (deFloat16) sign;
e5c31af7Sopenharmony_ci	}
e5c31af7Sopenharmony_ci	/* Case: Inf and NaN */
e5c31af7Sopenharmony_ci	else if (exp64 == 0x000007ffu)
e5c31af7Sopenharmony_ci	{
e5c31af7Sopenharmony_ci		if (mantissa == 0u)
e5c31af7Sopenharmony_ci		{
e5c31af7Sopenharmony_ci			/* Inf */
e5c31af7Sopenharmony_ci			return (deFloat16) (sign | 0x7c00u);
e5c31af7Sopenharmony_ci		}
e5c31af7Sopenharmony_ci		else
e5c31af7Sopenharmony_ci		{
e5c31af7Sopenharmony_ci			/* NaN */
e5c31af7Sopenharmony_ci			mantissa >>= 42u;	/* 16-bit floats has 10-bit for mantissa, 42-bit less than 64-bit floats. */
e5c31af7Sopenharmony_ci			/* Make sure we don't turn NaN into zero by | (mantissa == 0). */
e5c31af7Sopenharmony_ci			return (deFloat16) (sign | 0x7c00u | mantissa | (mantissa == 0u));
e5c31af7Sopenharmony_ci		}
e5c31af7Sopenharmony_ci	}
e5c31af7Sopenharmony_ci	/* The following are cases for normalized floats.
e5c31af7Sopenharmony_ci	 *
e5c31af7Sopenharmony_ci	 * * If exp16 is less than 0, we are experiencing underflow for the exponent. To encode this underflowed exponent,
e5c31af7Sopenharmony_ci	 *   we can only shift the mantissa further right.
e5c31af7Sopenharmony_ci	 *   The real exponent is exp16 - 15. A denormalized 16-bit float can represent -14 via its exponent.
e5c31af7Sopenharmony_ci	 *   Note that the most significant bit in the mantissa of a denormalized float is already -1 as for exponent.
e5c31af7Sopenharmony_ci	 *   So, we just need to right shift the mantissa -exp16 bits.
e5c31af7Sopenharmony_ci	 * * If exp16 is 0, mantissa shifting requirement is similar to the above.
e5c31af7Sopenharmony_ci	 * * If exp16 is greater than 30 (0b11110), we are experiencing overflow for the exponent of 16-bit normalized floats.
e5c31af7Sopenharmony_ci	 */
e5c31af7Sopenharmony_ci	/* Case: normalized floats -> zero */
e5c31af7Sopenharmony_ci	else if (exp16 < -10)
e5c31af7Sopenharmony_ci	{
e5c31af7Sopenharmony_ci		/* 16-bit floats have only 10 bits for mantissa. Minimal 16-bit denormalized float is (2^-10) * (2^-14). */
e5c31af7Sopenharmony_ci		/* Expecting a number < (2^-10) * (2^-14) here, not representable, round to zero. */
e5c31af7Sopenharmony_ci		return (deFloat16) sign;
e5c31af7Sopenharmony_ci	}
e5c31af7Sopenharmony_ci	/* Case: normalized floats -> zero and denormalized halfs */
e5c31af7Sopenharmony_ci	else if (exp16 <= 0)
e5c31af7Sopenharmony_ci	{
e5c31af7Sopenharmony_ci		/* Add the implicit leading 1 in mormalized float to mantissa. */
e5c31af7Sopenharmony_ci		mantissa |= 0x0010000000000000u;
e5c31af7Sopenharmony_ci		/* We have a (23 + 1)-bit mantissa, but 16-bit floats only expect 10-bit mantissa.
e5c31af7Sopenharmony_ci		 * Need to discard the last 14-bits considering rounding mode.
e5c31af7Sopenharmony_ci		 * We also need to shift right -exp16 bits to encode the underflowed exponent.
e5c31af7Sopenharmony_ci		 */
e5c31af7Sopenharmony_ci		if (mode == DE_ROUNDINGMODE_TO_ZERO)
e5c31af7Sopenharmony_ci		{
e5c31af7Sopenharmony_ci			mantissa >>= (43 - exp16);
e5c31af7Sopenharmony_ci		}
e5c31af7Sopenharmony_ci		else
e5c31af7Sopenharmony_ci		{
e5c31af7Sopenharmony_ci			/* mantissa in the above may exceed 10-bits, in which case overflow happens.
e5c31af7Sopenharmony_ci			 * The overflowed bit is automatically carried to exponent then.
e5c31af7Sopenharmony_ci			 */
e5c31af7Sopenharmony_ci			mantissa = roundToNearestEven64(mantissa, 43 - exp16);
e5c31af7Sopenharmony_ci		}
e5c31af7Sopenharmony_ci		return (deFloat16) (sign | mantissa);
e5c31af7Sopenharmony_ci	}
e5c31af7Sopenharmony_ci	/* Case: normalized floats -> normalized floats */
e5c31af7Sopenharmony_ci	else if (exp16 <= 30)
e5c31af7Sopenharmony_ci	{
e5c31af7Sopenharmony_ci		if (mode == DE_ROUNDINGMODE_TO_ZERO)
e5c31af7Sopenharmony_ci		{
e5c31af7Sopenharmony_ci			return (deFloat16) (sign | ((deUint32)exp16 << 10u) | (mantissa >> 42u));
e5c31af7Sopenharmony_ci		}
e5c31af7Sopenharmony_ci		else
e5c31af7Sopenharmony_ci		{
e5c31af7Sopenharmony_ci			mantissa	= roundToNearestEven64(mantissa, 42);
e5c31af7Sopenharmony_ci			/* Handle overflow. exp16 may overflow (and become Inf) itself, but that's correct. */
e5c31af7Sopenharmony_ci			exp16		= (exp16 << 10u) + (deFloat16)(mantissa & (1 << 10));
e5c31af7Sopenharmony_ci			mantissa	&= (1u << 10) - 1;
e5c31af7Sopenharmony_ci			return (deFloat16) (sign | ((deUint32) exp16) | mantissa);
e5c31af7Sopenharmony_ci		}
e5c31af7Sopenharmony_ci	}
e5c31af7Sopenharmony_ci	/* Case: normalized floats (too large to be representable as 16-bit floats) */
e5c31af7Sopenharmony_ci	else
e5c31af7Sopenharmony_ci	{
e5c31af7Sopenharmony_ci		/* According to IEEE Std 754-2008 Section 7.4,
e5c31af7Sopenharmony_ci		 * * roundTiesToEven and roundTiesToAway carry all overflows to Inf with the sign
e5c31af7Sopenharmony_ci		 *   of the intermediate  result.
e5c31af7Sopenharmony_ci		 * * roundTowardZero carries all overflows to the format's largest finite number
e5c31af7Sopenharmony_ci		 *   with the sign of the intermediate result.
e5c31af7Sopenharmony_ci		 */
e5c31af7Sopenharmony_ci		if (mode == DE_ROUNDINGMODE_TO_ZERO)
e5c31af7Sopenharmony_ci		{
e5c31af7Sopenharmony_ci			return (deFloat16) (sign | 0x7bffu); /* 111 1011 1111 1111 */
e5c31af7Sopenharmony_ci		}
e5c31af7Sopenharmony_ci		else
e5c31af7Sopenharmony_ci		{
e5c31af7Sopenharmony_ci			return (deFloat16) (sign | (0x1f << 10));
e5c31af7Sopenharmony_ci		}
e5c31af7Sopenharmony_ci	}
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci	/* Make compiler happy */
e5c31af7Sopenharmony_ci	return (deFloat16) 0;
e5c31af7Sopenharmony_ci}
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_cifloat deFloat16To32 (deFloat16 val16)
e5c31af7Sopenharmony_ci{
e5c31af7Sopenharmony_ci	deUint32 sign;
e5c31af7Sopenharmony_ci	deUint32 expotent;
e5c31af7Sopenharmony_ci	deUint32 mantissa;
e5c31af7Sopenharmony_ci	union
e5c31af7Sopenharmony_ci	{
e5c31af7Sopenharmony_ci		float		f;
e5c31af7Sopenharmony_ci		deUint32	u;
e5c31af7Sopenharmony_ci	} x;
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci	x.u			= 0u;
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci	sign		= ((deUint32)val16 >> 15u) & 0x00000001u;
e5c31af7Sopenharmony_ci	expotent	= ((deUint32)val16 >> 10u) & 0x0000001fu;
e5c31af7Sopenharmony_ci	mantissa	= (deUint32)val16 & 0x000003ffu;
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci	if (expotent == 0u)
e5c31af7Sopenharmony_ci	{
e5c31af7Sopenharmony_ci		if (mantissa == 0u)
e5c31af7Sopenharmony_ci		{
e5c31af7Sopenharmony_ci			/* +/- 0 */
e5c31af7Sopenharmony_ci			x.u = sign << 31u;
e5c31af7Sopenharmony_ci			return x.f;
e5c31af7Sopenharmony_ci		}
e5c31af7Sopenharmony_ci		else
e5c31af7Sopenharmony_ci		{
e5c31af7Sopenharmony_ci			/* Denormalized, normalize it. */
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci			while (!(mantissa & 0x00000400u))
e5c31af7Sopenharmony_ci			{
e5c31af7Sopenharmony_ci				mantissa <<= 1u;
e5c31af7Sopenharmony_ci				expotent -=  1u;
e5c31af7Sopenharmony_ci			}
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci			expotent += 1u;
e5c31af7Sopenharmony_ci			mantissa &= ~0x00000400u;
e5c31af7Sopenharmony_ci		}
e5c31af7Sopenharmony_ci	}
e5c31af7Sopenharmony_ci	else if (expotent == 31u)
e5c31af7Sopenharmony_ci	{
e5c31af7Sopenharmony_ci		if (mantissa == 0u)
e5c31af7Sopenharmony_ci		{
e5c31af7Sopenharmony_ci			/* +/- InF */
e5c31af7Sopenharmony_ci			x.u = (sign << 31u) | 0x7f800000u;
e5c31af7Sopenharmony_ci			return x.f;
e5c31af7Sopenharmony_ci		}
e5c31af7Sopenharmony_ci		else
e5c31af7Sopenharmony_ci		{
e5c31af7Sopenharmony_ci			/* +/- NaN */
e5c31af7Sopenharmony_ci			x.u = (sign << 31u) | 0x7f800000u | (mantissa << 13u);
e5c31af7Sopenharmony_ci			return x.f;
e5c31af7Sopenharmony_ci		}
e5c31af7Sopenharmony_ci	}
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci	expotent = expotent + (127u - 15u);
e5c31af7Sopenharmony_ci	mantissa = mantissa << 13u;
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci	x.u = (sign << 31u) | (expotent << 23u) | mantissa;
e5c31af7Sopenharmony_ci	return x.f;
e5c31af7Sopenharmony_ci}
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_cidouble deFloat16To64 (deFloat16 val16)
e5c31af7Sopenharmony_ci{
e5c31af7Sopenharmony_ci	deUint64 sign;
e5c31af7Sopenharmony_ci	deUint64 expotent;
e5c31af7Sopenharmony_ci	deUint64 mantissa;
e5c31af7Sopenharmony_ci	union
e5c31af7Sopenharmony_ci	{
e5c31af7Sopenharmony_ci		double		f;
e5c31af7Sopenharmony_ci		deUint64	u;
e5c31af7Sopenharmony_ci	} x;
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci	x.u			= 0u;
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci	sign		= ((deUint32)val16 >> 15u) & 0x00000001u;
e5c31af7Sopenharmony_ci	expotent	= ((deUint32)val16 >> 10u) & 0x0000001fu;
e5c31af7Sopenharmony_ci	mantissa	= (deUint32)val16 & 0x000003ffu;
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci	if (expotent == 0u)
e5c31af7Sopenharmony_ci	{
e5c31af7Sopenharmony_ci		if (mantissa == 0u)
e5c31af7Sopenharmony_ci		{
e5c31af7Sopenharmony_ci			/* +/- 0 */
e5c31af7Sopenharmony_ci			x.u = sign << 63u;
e5c31af7Sopenharmony_ci			return x.f;
e5c31af7Sopenharmony_ci		}
e5c31af7Sopenharmony_ci		else
e5c31af7Sopenharmony_ci		{
e5c31af7Sopenharmony_ci			/* Denormalized, normalize it. */
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci			while (!(mantissa & 0x00000400u))
e5c31af7Sopenharmony_ci			{
e5c31af7Sopenharmony_ci				mantissa <<= 1u;
e5c31af7Sopenharmony_ci				expotent -=  1u;
e5c31af7Sopenharmony_ci			}
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci			expotent += 1u;
e5c31af7Sopenharmony_ci			mantissa &= ~0x00000400u;
e5c31af7Sopenharmony_ci		}
e5c31af7Sopenharmony_ci	}
e5c31af7Sopenharmony_ci	else if (expotent == 31u)
e5c31af7Sopenharmony_ci	{
e5c31af7Sopenharmony_ci		if (mantissa == 0u)
e5c31af7Sopenharmony_ci		{
e5c31af7Sopenharmony_ci			/* +/- InF */
e5c31af7Sopenharmony_ci			x.u = (sign << 63u) | 0x7ff0000000000000u;
e5c31af7Sopenharmony_ci			return x.f;
e5c31af7Sopenharmony_ci		}
e5c31af7Sopenharmony_ci		else
e5c31af7Sopenharmony_ci		{
e5c31af7Sopenharmony_ci			/* +/- NaN */
e5c31af7Sopenharmony_ci			x.u = (sign << 63u) | 0x7ff0000000000000u | (mantissa << 42u);
e5c31af7Sopenharmony_ci			return x.f;
e5c31af7Sopenharmony_ci		}
e5c31af7Sopenharmony_ci	}
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci	expotent = expotent + (1023u - 15u);
e5c31af7Sopenharmony_ci	mantissa = mantissa << 42u;
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ci	x.u = (sign << 63u) | (expotent << 52u) | mantissa;
e5c31af7Sopenharmony_ci	return x.f;
e5c31af7Sopenharmony_ci}
e5c31af7Sopenharmony_ci
e5c31af7Sopenharmony_ciDE_END_EXTERN_C