C#, C++ - double의 Infinity, NaN 표현 방식
Raymond Chen의 글에 따르면,
What does -1.#IND mean?: A survey of how the Visual C runtime library prints special floating point values
; https://blogs.msdn.microsoft.com/oldnewthing/20130221-00/?p=5183
다음과 같은 특별한 double 값들이 있습니다.
1#INF Positive infinity
-1#INF Negative infinity
1#SNAN Positive signaling NaN
-1#SNAN Negative signaling NaN
1#QNAN Positive quiet NaN
-1#QNAN Negative quiet NaN
1#IND Positive indefinite NaN
-1#IND Negative indefinite NaN
우선, 가장 쉬운 infinity에 대해 볼까요? ^^ 대표적인 재현 코드로는 0이 아닌 수를 0으로 나누는 것인데, 말 그대로 무한대의 값을 표현하는 것으로 부호에 따라 양의 무한대, 음의 무한대를 표현합니다. C#으로는 다음과 같이 표현할 수 있습니다.
using System;
using System.Runtime.CompilerServices;
class Program
{
static unsafe void Main(string[] args)
{
WriteValue(double.PositiveInfinity, nameof(double.PositiveInfinity));
WriteValue(double.NegativeInfinity, nameof(double.NegativeInfinity));
}
private static unsafe void WriteValue(double value, string title)
{
byte* pBytes = (byte*)&value;
ulong* pLong = (ulong*)pBytes;
Console.WriteLine(title + ": 0x" + (*pLong).ToString("x"));
}
}
/* 출력 결과
PositiveInfinity: 0x7ff0000000000000
NegativeInfinity: 0xfff0000000000000
*/
이것을 double의 메모리 표현과 엮어 볼까요? ^^
/* C++ 코드 */
typedef union tagDoubleExt
{
struct
{
unsigned int mantisaPart2 : 32;
unsigned int mantisaPart1 : 20;
unsigned int exponent : 11;
unsigned int sign : 1;
} d;
double value;
} DoubleExt;
Infinity의 경우에는 위의 코드에서 지수부 11비트가 모두 1 (0x7ff)이고 가수부 52비트가 모두 0인 값을 의미합니다.
exponent = 0x7ff
mantisa == 0
단지, sign == 0이면 PositiveInfinity, 1이면 NegativeInfinity입니다.
다음으로 NaN의 경우에는 제법 복잡합니다. 문서에 의하면, signaling, quiet, indefinite 유형으로 나뉘는데 C#의 경우에는 단일하게 무조건 double.NaN의 출력으로 처리하므로 다른 점을 찾을 수 없습니다. 대신 C/C++ 코드로는 확인할 수 있습니다.
C/C++의 경우에는 double (인 경우 8 바이트) 내용이 초기화되지 않은 메모리인 경우 말 그대로 적절한 IEEE 부동 소수점 포맷에 맞지 않는 값일 때 "Not a Number"라는 의미로 NaN 값을 가지게 됩니다. 물론 약간의 운이 따라야만 초기화되지 않은 double 값이 NaN 값을 가지게 되는데요, IEEE 표준에 의하면 NaN은 지수부 11비트가 전부 1(0x7ff)이면서 가수부는 최소 1비트 이상이 설정된 경우라고 합니다. 따라서 이 값은 Infinity와는 달리 가수부 경우의 수만큼 NaN 바이트 표현이 존재합니다. 가령, 아래의 경우 모두 NaN에 해당합니다.
#include <math.h>
#include <stdio.h>
#include <string>
#include <numeric>
using namespace std;
//double 형식의 메모리를 확인하기 위한 공용체 정의
typedef union tagDoubleExt
{
struct
{
unsigned int mantisaPart2 : 32;
unsigned int mantisaPart1 : 20;
unsigned int exponent : 11;
unsigned int sign : 1;
} d;
unsigned char buf[8];
double value;
} DoubleExt;
void print(string title, DoubleExt t)
{
printf("[%s] %lf is \t", title.c_str(), t.value);
// little endian
for (int i = 7; i >= 0; i--)
{
printf("%02X ", t.buf[i]);
}
printf("\n");
}
int main(void)
{
DoubleExt dblValue;
{
memset(&dblValue, 0, sizeof(dblValue));
dblValue.d.exponent = 0x7ff;
dblValue.d.mantisaPart1 = 101;
print("sign = 0, exp = 0x7ff, mantisaPart1 = 101", dblValue);
dblValue.d.sign = 1;
print("sign = 1, exp = 0x7ff, mantisaPart1 = 101", dblValue);
}
{
memset(&dblValue, 0, sizeof(dblValue));
dblValue.d.exponent = 0x7ff;
dblValue.d.mantisaPart2 = 1;
print("sign = 0, exp = 0x7ff, mantisaPart2 = 1", dblValue);
dblValue.d.sign = 1;
print("sign = 1, exp = 0x7ff, mantisaPart2 = 1", dblValue);
}
return 0;
}
/* 출력 결과
[sign = 0, exp = 0x7ff, mantisaPart1 = 101] nan(snan) is 7F F0 00 65 00 00 00 00
[sign = 1, exp = 0x7ff, mantisaPart1 = 101] -nan(snan) is FF F0 00 65 00 00 00 00
[sign = 0, exp = 0x7ff, mantisaPart2 = 1] nan(snan) is 7F F0 00 00 00 00 00 01
[sign = 1, exp = 0x7ff, mantisaPart2 = 1] -nan(snan) is FF F0 00 00 00 00 00 01
*/
보는 바와 같이 출력값에서 "(snan)"이 나오는데 바로 이 경우가 부호에 따라 1#SNAN, -1#SNAN으로 표현되는 값입니다.
1#SNAN Positive signaling NaN
-1#SNAN Negative signaling NaN
그다음 quiet NaN은 mantisa 가수부의 최상위 1비트가 1이면서 나머지 가수부가 최소 1 이상의 값인 경우에 해당합니다. 즉, 다음과 같이 double을 구성하면 재현할 수 있습니다.
/*
How to get the sign, mantissaand exponent of a floating point number
; https://stackoverflow.com/questions/15685181/how-to-get-the-sign-mantissa-and-exponent-of-a-floating-point-number
*/
typedef union tagDoubleExt
{
struct
{
unsigned int mantisaPart2 : 32;
unsigned int mantisaPart1 : 19;
unsigned int quiet_nan : 1;
unsigned int exponent : 11;
unsigned int sign : 1;
} d;
unsigned char buf[8];
double value;
} DoubleExt;
{
memset(&dblValue, 0, sizeof(dblValue));
dblValue.d.exponent = 0x7ff;
dblValue.d.quiet_nan = 1;
dblValue.d.mantisaPart1 = 101;
print("sign = 0, exp = 0x7ff, quiet=1, mantisaPart1 = 101", dblValue);
dblValue.d.sign = 1;
print("sign = 1, exp = 0x7ff, quiet=1, mantisaPart1 = 101", dblValue);
}
{
memset(&dblValue, 0, sizeof(dblValue));
dblValue.d.exponent = 0x7ff;
dblValue.d.quiet_nan = 1;
dblValue.d.mantisaPart2 = 1;
print("sign = 0, exp = 0x7ff, quiet=1, mantisaPart2 = 1", dblValue);
dblValue.d.sign = 1;
print("sign = 1, exp = 0x7ff, quiet=1, mantisaPart2 = 1", dblValue);
}
/* 출력 결과
[sign = 0, exp = 0x7ff, quiet=1, mantisaPart1 = 101] nan is 7F F8 00 65 00 00 00 00
[sign = 1, exp = 0x7ff, quiet=1, mantisaPart1 = 101] -nan is FF F8 00 65 00 00 00 00
[sign = 0, exp = 0x7ff, quiet=1, mantisaPart2 = 1] nan is 7F F8 00 00 00 00 00 01
[sign = 1, exp = 0x7ff, quiet=1, mantisaPart2 = 1] -nan is FF F8 00 00 00 00 00 01
*/
그런데, 이번에는 보는 바와 같이 "quiet"를 식별하는 출력 없이 그냥 "nan"으로만 찍힙니다. 이제 남은 것은, "indefinite NaN"인데요.
1#IND Positive indefinite NaN
-1#IND Negative indefinite NaN
이것은 위의 quiet nan에서 quiet 비트를 제외한 다른 가수부의 값을 0으로 만들면 됩니다.
{
memset(&dblValue, 0, sizeof(dblValue));
dblValue.d.exponent = 0x7ff;
dblValue.d.quiet_nan = 1;
print("sign = 0, exp = 0x7ff, quiet=1, mantisa = 0", dblValue);
dblValue.d.sign = 1;
print("sign = 1, exp = 0x7ff, quiet=1, mantisa = 0", dblValue);
}
/* 출력 결과
[sign = 0, exp = 0x7ff, quiet=1, mantisa = 0] nan is 7F F8 00 00 00 00 00 00
[sign = 1, exp = 0x7ff, quiet=1, mantisa = 0] -nan(ind) is FF F8 00 00 00 00 00 00
*/
단지, "-nan(ind)"의 경우에는 구분이 되는 반면 "nan(ind)"인 듯한 값은 C/C++도 그냥 "nan"으로 출력합니다. (혹시 "Positive indefinite NaN"에 관한 정확한 정보를 아시는 분은 덧글 부탁드립니다. ^^)
여기까지 해서 각각의 nan/inf에 대해 정리해 보면 다음과 같습니다.
1#INF Positive infinity
exponent = 0x7ff
mantisa == 0
sign = 0
-1#INF Negative infinity
exponent = 0x7ff
mantisa == 0
sign = 1
1#SNAN Positive signaling NaN
exponent = 0x7ff
mantisa == (1이 아닌 값)
sign = 0
-1#SNAN Negative signaling NaN
exponent = 0x7ff
mantisa == (1이 아닌 값)
sign = 1
1#QNAN Positive quiet NaN
exponent = 0x7ff
mantisa == 최상위 비트가 1, 나머지 가수부에는 1이 아닌 값
sign = 0
-1#QNAN Negative quiet NaN
exponent = 0x7ff
mantisa == 최상위 비트가 1, 나머지 가수부에는 1이 아닌 값
sign = 1
1#IND Positive indefinite NaN
(출력은 안되지만, 아마도)
exponent = 0x7ff
mantisa == 최상위 비트만 1
sign = 0
-1#IND Negative indefinite NaN
exponent = 0x7ff
mantisa == 최상위 비트만 1
sign = 1
알아본 김에, C++의 NaN 관련 값/함수들을 알아볼까요? ^^
우선 NAN(매크로 상수)는,
dblValue.value = NAN;
print("NAN", dblValue); // == -1#IND
dblValue.value = -NAN;
print("-NAN\t", dblValue); // == 1#IND
/* 출력 결과
[NAN] -nan(ind) is FF F8 00 00 00 00 00 00
[-NAN ] nan is 7F F8 00 00 00 00 00 00
*/
보는 바와 같이 NAN 값이 "-1#IND"에 해당하는 비트 값을 가집니다. 그다음, std::numeric_limits
::signaling_NaN()은,
dblValue.value = std::numeric_limits<double>::signaling_NaN();
print("signaling_NaN", dblValue); // == 1#QNAN
dblValue.value = -std::numeric_limits<double>::signaling_NaN();
print("-signaling_NaN", dblValue); // == -1#QNAN
/* 출력 결과
[signaling_NaN] nan is 7F F8 00 00 00 00 00 01
[-signaling_NaN] -nan is FF F8 00 00 00 00 00 01
*/
signaling이라는 단어가 무색하게 "quiet" 비트가 1로 설정된 1#QNAN, -1#QNAN에 해당하는 비트 값을 가집니다. 반면 std::numeric_limits::quiet_NaN()은,
dblValue.value = std::numeric_limits<double>::quiet_NaN();
print("quiet_NaN", dblValue); // == -NAN == 1#IND
dblValue.value = -std::numeric_limits<double>::quiet_NaN();
print("quiet_NaN", dblValue); // == NAN == -1#IND
/* 출력 결과
[quiet_NaN] nan is 7F F8 00 00 00 00 00 00
[quiet_NaN] -nan(ind) is FF F8 00 00 00 00 00 00
*/
(어쨌든 "quiet" 비트가 1이지만) 1#IND, -1#IND의 값을 가집니다. 마지막으로 nan("...") 함수는,
dblValue.value = nan(nullptr);
print("nan(nullptr)", dblValue);
dblValue.value = nan("");
print("nan(empty)", dblValue);
dblValue.value = nan("test");
print("nan(test)", dblValue);
/* 출력 결과
[nan(nullptr)] nan is 7F F8 00 00 00 00 00 00
[nan(empty)] nan is 7F F8 00 00 00 00 00 00
[nan(test)] nan is 7F F8 00 00 00 00 00 00
*/
"1#IND"에 해당하는 값을 반환합니다. 따라서 위의 값/함수들로는 C++에서 "nan(snan)"으로 출력되는 nan 값을 가질 수는 없습니다.
아래의 문서에 보면,
std::numeric_limits::signaling_NaN
; https://en.cppreference.com/w/cpp/types/numeric_limits/signaling_NaN
signaling_NaN 값을 다른 값과 연산하면 "quiet NaN"이 결괏값으로 나온다고 합니다.
#include <iostream>
#include <limits>
#include <cfenv>
#pragma STDC_FENV_ACCESS on
void show_fe_exceptions()
{
int n = std::fetestexcept(FE_ALL_EXCEPT);
if(n & FE_INVALID) std::cout << "FE_INVALID is raised\n";
else if(n == 0) std::cout << "no exceptions are raised\n";
std::feclearexcept(FE_ALL_EXCEPT);
}
int main()
{
double snan = std::numeric_limits<double>::signaling_NaN();
std::cout << "After sNaN was obtained ";
show_fe_exceptions();
double qnan = snan * 2.0;
std::cout << "After sNaN was multiplied by 2 ";
show_fe_exceptions();
double qnan2 = qnan * 2.0;
std::cout << "After the quieted NaN was multiplied by 2 ";
show_fe_exceptions();
std::cout << "The result is " << qnan2 << '\n';
}
/* 출력 결과
After sNaN was obtained no exceptions are raised
After sNaN was multiplied by 2 FE_INVALID is raised
After the quieted NaN was multiplied by 2 no exceptions are raised
The result is nan
*/
위의 소스 코드를 Visual C++로 옮기려면 "#pragma STDC_FENV_ACCESS on" 대신 "#pragma fenv_access(on)"으로 바꿔야 합니다. (이 설정을 하면 부동 소수점 최적화를 하지 않습니다.)
그런데 실제로 snan과 qnan, qnan2의 값이 다를까요? 이것은 환경마다 다른 것 같습니다. 왜냐하면 Visual C++의 경우 다음과 같이 출력하기 때문입니다.
#pragma fenv_access(on)
#include <iostream>
#include <limits>
#include <cfenv>
void show_fe_exceptions()
{
int n = std::fetestexcept(FE_ALL_EXCEPT);
if (n & FE_INVALID) std::cout << "FE_INVALID is raised\n";
else if (n & _EM_ZERODIVIDE) std::cout << "_EM_ZERODIVIDE is raised\n";
else if (n == 0) std::cout << "no exceptions are raised\n";
std::feclearexcept(FE_ALL_EXCEPT);
}
int test_nan()
{
std::cout << endl;
DoubleExt dblValue;
double snan = std::numeric_limits<double>::signaling_NaN();
dblValue.value = snan;
print("snan", dblValue);
std::cout << "1) After sNaN was obtained ";
show_fe_exceptions();
std::cout << endl;
double qnan = snan * 2.0;
dblValue.value = qnan;
print("qnan", dblValue);
std::cout << "2) After sNaN was multiplied by 2 ";
show_fe_exceptions();
std::cout << endl;
double qnan2 = qnan * 2.0;
dblValue.value = qnan2;
print("qnan2", dblValue);
std::cout << "3) After the quieted NaN was multiplied by 2 ";
show_fe_exceptions();
return 0;
}
/*
[snan] nan is 7F F8 00 00 00 00 00 01
1) After sNaN was obtained FE_INVALID is raised
[qnan] nan is 7F F8 00 00 00 00 00 01
2) After sNaN was multiplied by 2 no exceptions are raised
[qnan2] nan is 7F F8 00 00 00 00 00 01
3) After the quieted NaN was multiplied by 2 no exceptions are raised
*/
보는 바와 같이 모든 변수의 값에 변함이 없습니다. 단지 결과적으로 봤을 때 signaling, quiet라는 의미에서 이해를 시도해 볼 수 있습니다. 즉, 처음 signaling_NaN을 생성하는 경우 부동 소수점 오류가 발생해 FE_INVALID 값이 설정되는 것입니다. 이후 해당 nan 값에 대해 연산을 시도하는 경우 quiet nan 처리가 된다는 의미에서 부동 소수점 연산에 예외가 발생하지 않는 것입니다.
휴~~~ 어렵군요. ^^; 일단, 정리는 해놨으니 이론적으로 출중하신 분이 이 글을 우연히 읽으신다면 더 좋은 덧글이 달릴 것으로 기대합니다. ^^ 참고로, C#의 경우 아래와 같이 확인을 할 수 있고,
static unsafe void Main(string[] args)
{
{
DoubleExp t = new DoubleExp { Value = double.PositiveInfinity };
WriteValue(double.PositiveInfinity, "1#INF: " + nameof(double.PositiveInfinity));
}
{
DoubleExp t = new DoubleExp { Value = double.NegativeInfinity };
WriteValue(double.NegativeInfinity, "-1#INF: " + nameof(double.NegativeInfinity));
}
Console.WriteLine();
{
DoubleExp nanType1 = new DoubleExp();
nanType1.SetBits(false, 0x7ff, false, 101);
WriteValue(nanType1.Value, "1#SNAN: false, 0x7ff, false, 101");
}
{
DoubleExp nanType2 = new DoubleExp();
nanType2.SetBits(true, 0x7ff, false, 101);
WriteValue(nanType2.Value, "-1#SNAN: true, 0x7ff, false, 101");
}
Console.WriteLine();
{
DoubleExp nanType1 = new DoubleExp();
nanType1.SetBits(false, 0x7ff, true, 101);
WriteValue(nanType1.Value, "1#QNAN: false, 0x7ff, true, 101");
}
{
DoubleExp nanType2 = new DoubleExp();
nanType2.SetBits(true, 0x7ff, true, 101);
WriteValue(nanType2.Value, "-1#QNAN: true, 0x7ff, true, 101");
}
Console.WriteLine();
{
DoubleExp nanType1 = new DoubleExp();
nanType1.SetBits(false, 0x7ff, true, 0);
WriteValue(nanType1.Value, "1#IND: false, 0x7ff, true, 0");
}
{
DoubleExp nanType2 = new DoubleExp();
nanType2.SetBits(true, 0x7ff, true, 0);
WriteValue(nanType2.Value, "-1#IND: true, 0x7ff, true, 0");
}
Console.WriteLine();
WriteValue(double.NaN, nameof(double.NaN));
}
출력 결과를 놓고 보면,
1#INF: PositiveInfinity(∞): 0x7ff0000000000000
-1#INF: NegativeInfinity(-∞): 0xfff0000000000000
1#SNAN: false, 0x7ff, false, 101(NaN): 0x7ff0000000000065
-1#SNAN: true, 0x7ff, false, 101(NaN): 0xfff0000000000065
1#QNAN: false, 0x7ff, true, 101(NaN): 0x7ff8000000000065
-1#QNAN: true, 0x7ff, true, 101(NaN): 0xfff8000000000065
1#IND: false, 0x7ff, true, 0(NaN): 0x7ff8000000000000
-1#IND: true, 0x7ff, true, 0(NaN): 0xfff8000000000000
NaN(NaN): 0xfff8000000000000
INF를 제외하고는 모든 NAN이 아무런 구별 없이 "NAN"으로 출력되는 것을 볼 수 있습니다. 또한 "double.NaN" 상수는 메모리 표현상으로 보면 "-1#IND" 값과 동일합니다. 즉, C++의 NAN 매크로 상숫값과 같습니다.
(첨부 파일은 이 글의 소스 코드를 포함합니다.)
[https://twitter.com/PR0GRAMMERHUM0R/status/1699530441399636325]
[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]