逆数の近似命令と精度補正について (その1)
小清水 (@curekoshimizu) です。
久しぶりの投稿になります。
長期にわたり転職活動をしており、 かなり投稿に時間が空いてしまいました。
今回の記事は
逆数の近似から精度を高めたい!!!
の近似値
が与えられたときに
精度を高めたいということありませんでしょうか?
このモチベーションは色んな場面で登場します。
それはなぜか?
これは、 ハードウェア が 逆数の近似を行う命令 を持っていることが多く、 それを利用したいためです。
例えばこちらのブログでは
AVX-512 の vrcp28pd 命令 を使って
の近似値 を得た際のお話が書かれています。
AVX-512 サポートしていれば vrcp28pd命令・vrcp14命令 などの逆数近似命令をサポートしています。
AVX-512 をサポートしているプロセッサはかなり限られていますが、 AVX をサポートしているだけでも rcpps という逆数近似命令を持っています。
また、もう今は死んでいると言っても過言ではない IA-64 にも frcpa 命令 (Floating-Point Reciprocal Approximation) という逆数近似命令があります。
ちなみに IA-64 は Hardware として普通の除算命令をもっておらず (IEEE-754準拠した除算の意)、 この近似逆数命令からうまく精度を高めて IEEE-754 に適合した 除算に変える必要がありました。
その点では IA-64 ユーザーからすれば、 モチベーションである「逆数の近似から精度を高めたい!」ということは普通に行われていました。
ここでは代表的な逆数近似命令を4つ挙げてみました。 あくまでも近似ではありますが、 きちんと誤差保証もついています。
その対応表は例えば次です:
要求 | 命令 | 最大相対誤差 |
---|---|---|
IA-64 | frcpa | |
AVX | rcpss | |
AVX-512 | vrcp14pd | |
AVX-512 | vrcp28pd | |
こうした話は CPU だけでなく、 NVIDIA GPU では fdivdef などで検索してみていただければと思います。
参考文献:
- vrcp28pd・vrcp14pd・rcpss の精度について:https://www.intel.com/content/dam/www/public/us/en/documents/manuals/64-ia-32-architectures-software-developer-instruction-set-reference-manual-325383.pdf
- frcpa の精度について: https://www.intel.co.jp/content/dam/www/public/ijkk/jp/ja/documents/developer/adag_j.pdf
これらは ハードウェアの制約からきまった精度 であり、
IEEE754-2008 が規定するような精度は不要なものの、 もう少し精度を高めたい。そして それに保証をつけたい!
こういう時に役立つ記事を目指します。
精度を高める前に重要な事実
逆数の近似において
という式は重要な意味をもちます。
(証明)
と
の(符号付き)相対誤差を記し、そのまま計算すると、
となることから証明完了。
また、この は
FMA (Fused-Multiply-ADD)
の1命令 で計算できる点も
注目したい事実です。
FMA をご存知ない方はこちらの記事をご覧ください:
精度を高めるアルゴリズム紹介
精度を高めるアルゴリズムはいくつか知られております。 そのうちの3つを紹介します。
(証明)
(証明) 同様.
(証明) 同様.
上の証明は証明になっているか?
一般的な書物には、上の内容だけが書かれているのですが、
証明としてこれでいいのでしょうか?
実数世界であれば上の証明で正しいのですが、
2・3命令であっても丸め誤差が生じる演算が数回発生した結果、
得られた結果は などの結果と比べて近い結果になるのでしょうか。
本ブログではここについて踏み込みたいと思っています。
丸めの影響も含めた証明
ここで丸め関数として RN (x の 最近接偶数方向丸め) のみを取り上げることにします。
他の RU・RD・UZ についても同様に証明できますので割愛します。
また、丸めについては下の記事を参考ください:
これについて 2つの方針で考えていきたいと思います。
この評価は本などに書かれていなかったため、計算間違いをしている可能性もあり、 間違っている場合にはご指摘いただけると助かります。
前者が大変、後者が簡単な式変形になります。
アルゴリズムその1 – 丸め誤差評価気合編
気合で三角不等式でなんとか結果をだした評価式がこちらになります。
わかりやすいように、次のように記号を定義します:
(方針) : の相対誤差を出す前に 先に
の評価を試みる。
と
の相対誤差
丸め誤差 RN の性質より ( 以前の記事Proposition2より)
と良い評価式を得る。
最後に
と
の相対誤差
丸め誤差 RN の性質より ( 以前の記事Proposition2より)
丸め誤差 RN の性質より ( 以前の記事Proposition2より)
この結果に 先ほど計算した の評価式を使って
という結果を得る。
この方針で得られた
と に比べて少し大きくなっています。
2命令しかないのにこんなに評価が長くなってしまいました…。
同じような話が アルゴリズムその2, その3 にも適用できるとは思うのですが…。正直やりたくないです…。
そこで次のような式変形を思いついてみました!
アルゴリズムその1 – 丸め誤差評価数式処理編
ここで重要な性質である次の性質を利用してみたいと思います。
2進p桁精度環境とする。このとき、
(丸め可能な)実数
(証明)
丸め誤差 RN の性質より ( 以前の記事Proposition2より)
ここで > 0 とすると
なので
となる。 < 0 の場合も同様にすると
となる。すなわち で
とできる。
それでは評価に移ります。
再びわかりやすいように、変数を次のように定義します:
ここで上の 相対誤差に関する性質 を使い、
で
となるもので
とできる。
と
の相対誤差
これをすべて展開して を使って
を削除すると
ここで を利用して
となる。
よって この方針で得られた
となりました。先ほどの評価より、式変形は簡単になりましたが、少しだけ結果が悪くなりました。
アルゴリズムその1 丸め誤差を含む評価まとめ
ここで得られる は
に対する相対誤差は
の2種類が得られた。
ただし、 は、この浮動小数点環境の精度であり、
は、もとの
の
との相対誤差である。
2命令の誤差評価だけでもここまで大変 ということがわかった…。
前者の方針のほうが評価はよいのだが、
後者の方が式はあっさりしており、同じ方針で アルゴリズムその2・その3 についても評価を出すことができた。
しかしこれは長すぎるので、番外編で公開するか公開しないかもう少し時間がたってから考えることにする。
もし他のよい方法、よい近似式が得られた方は是非教えてください!
このブログはこういう、あまり誰もやりたがらない式評価に積極的に戦っていこうと思います。
次回考えたいこと
精度向上アルゴリズムを実施することで、
その丸め誤差の影響にも打ち勝ち、
その環境のFULL精度まで出すことができるのだろうか?
これについてはいくつか有名な事実があり、
上の精度向上アルゴリズム以外の事実を利用するのが一般的です。
これらについてまとまったら「逆数の近似命令と精度補正について (その2)」 を公開しようと思います。
たとえばこちらのブログの方は、精度向上アルゴリズムを3回かけても2回目と同じになりさらにずれが生じると述べており、 FULL 精度を出すのに失敗しているように見えます:
こうした内容にも助言できるよう目指したいと思います。
ちなみにですが
これら上の2つのQiitaブログは精度向上に
という Newton 法の式を用いていますが、
このブログのアルゴリズムと本質的に一緒です。
であり、 に このブログでは
と名前をつけているだけです。
ただし、どちらのブログも3命令で実行していますが FMA があれば 2命令で実行でき、丸め誤差的にもそのほうがよいです。
この関係からもわかります通り、
今回の精度向上アルゴリズムは Newton法が元になっております。
この事実については以前次のブログでご紹介させていただきました(実数だけでなく整数版についても言及、数学的な証明付き。)
興味がありましたらご覧ください。
それでは、この記事をここまで読まれた方で、本当に興味のある方は次回をお待ちください。
よろしくお願いします。