restrict
は、ポインターが基になるオブジェクトにアクセスする唯一のものであると述べています。ポインターのエイリアシングの可能性を排除し、コンパイラーによる最適化を改善します。
たとえば、メモリ内の数値のベクトルを乗算できる特殊な命令を備えたマシンがあり、次のコードがあるとします:
void MultiplyArrays(int* dest, int* src1, int* src2, int n)
{
for(int i = 0; i < n; i++)
{
dest[i] = src1[i]*src2[i];
}
}
dest
の場合、コンパイラは適切に処理する必要があります 、 src1
、および src2
つまり、最初から最後まで、一度に 1 つの乗算を実行する必要があります。 restrict
を持つことで 、コンパイラはベクトル命令を使用してこのコードを自由に最適化できます。
ウィキペディアに restrict
に関するエントリがあります 、別の例をここに。
ウィキペディアの例はとても
1 つのアセンブリ命令を保存できる方法を明確に示しています .
制限なし:
void f(int *a, int *b, int *x) {
*a += *x;
*b += *x;
}
疑似アセンブリ:
load R1 ← *x ; Load the value of x pointer
load R2 ← *a ; Load the value of a pointer
add R2 += R1 ; Perform Addition
set R2 → *a ; Update the value of a pointer
; Similarly for b, note that x is loaded twice,
; because x may point to a (a aliased by x) thus
; the value of x will change when the value of a
; changes.
load R1 ← *x
load R2 ← *b
add R2 += R1
set R2 → *b
制限あり:
void fr(int *restrict a, int *restrict b, int *restrict x);
疑似アセンブリ:
load R1 ← *x
load R2 ← *a
add R2 += R1
set R2 → *a
; Note that x is not reloaded,
; because the compiler knows it is unchanged
; "load R1 ← *x" is no longer needed.
load R2 ← *b
add R2 += R1
set R2 → *b
GCC は本当にそれを行うのですか?
GCC 4.8 Linux x86-64:
gcc -g -std=c99 -O0 -c main.c
objdump -S main.o
-O0
で 、それらは同じです。
-O3
で :
void f(int *a, int *b, int *x) {
*a += *x;
0: 8b 02 mov (%rdx),%eax
2: 01 07 add %eax,(%rdi)
*b += *x;
4: 8b 02 mov (%rdx),%eax
6: 01 06 add %eax,(%rsi)
void fr(int *restrict a, int *restrict b, int *restrict x) {
*a += *x;
10: 8b 02 mov (%rdx),%eax
12: 01 07 add %eax,(%rdi)
*b += *x;
14: 01 06 add %eax,(%rsi)
初心者向けの呼び出し規約は次のとおりです。
rdi
=最初のパラメータrsi
=2 番目のパラメーターrdx
=3 番目のパラメーター
GCC の出力は、wiki の記事よりもさらに明確でした:4 つの命令と 3 つの命令.
配列
これまでのところ、1 つの命令を節約できましたが、ポインターがループする配列を表している場合 (一般的な使用例)、supercat で言及されているように、一連の命令を節約できます。
例を考えてみましょう:
void f(char *restrict p1, char *restrict p2) {
for (int i = 0; i < 50; i++) {
p1[i] = 4;
p2[i] = 9;
}
}
restrict
のせいで 、賢いコンパイラ (または人間) は、それを次のように最適化できます:
memset(p1, 4, 50);
memset(p2, 9, 50);
これは、適切な libc 実装 (glibc など) でアセンブリ最適化される可能性があるため、はるかに効率的である可能性があります:パフォーマンスに関しては、std::memcpy() または std::copy() を使用する方が良いですか?
GCC は本当にそれを行うのですか?
GCC 5.2.1.Linux x86-64 Ubuntu 15.10:
gcc -g -std=c99 -O0 -c main.c
objdump -dr main.o
-O0
で 、どちらも同じです。
-O3
で :
- <リ>
制限あり:
3f0: 48 85 d2 test %rdx,%rdx
3f3: 74 33 je 428 <fr+0x38>
3f5: 55 push %rbp
3f6: 53 push %rbx
3f7: 48 89 f5 mov %rsi,%rbp
3fa: be 04 00 00 00 mov $0x4,%esi
3ff: 48 89 d3 mov %rdx,%rbx
402: 48 83 ec 08 sub $0x8,%rsp
406: e8 00 00 00 00 callq 40b <fr+0x1b>
407: R_X86_64_PC32 memset-0x4
40b: 48 83 c4 08 add $0x8,%rsp
40f: 48 89 da mov %rbx,%rdx
412: 48 89 ef mov %rbp,%rdi
415: 5b pop %rbx
416: 5d pop %rbp
417: be 09 00 00 00 mov $0x9,%esi
41c: e9 00 00 00 00 jmpq 421 <fr+0x31>
41d: R_X86_64_PC32 memset-0x4
421: 0f 1f 80 00 00 00 00 nopl 0x0(%rax)
428: f3 c3 repz retq
2 つの memset
制限なし:stdlib 呼び出しはなく、ここで再現するつもりはない 16 回の反復ワイド ループ展開だけです :-)
それらをベンチマークする忍耐力はありませんでしたが、restrict バージョンの方が高速になると思います。
C99
完全を期すために標準を見てみましょう。
restrict
は、2 つのポインタが重複するメモリ領域を指すことはできないと述べています。最も一般的な使用法は、関数の引数です。
これにより、関数の呼び出し方法が制限されますが、コンパイル時の最適化が可能になります。
発信者が restrict
に従わない場合 契約、未定義の動作。
C99 N1256 ドラフト 6.7.3/7 「型修飾子」には次のように記載されています。
および 6.7.3.1「restrict の正式な定義」では、悲惨な詳細が示されています。
厳密なエイリアシング ルール
restrict
キーワードは、互換性のある型のポインターにのみ影響します (例:2 つの int*
) 厳密なエイリアシング ルールでは、互換性のない型のエイリアシングは既定では未定義の動作であると規定されているため、コンパイラはそれが発生しないと想定して最適化を除外できます。
参照:厳密なエイリアシング規則とは?
こちらもご覧ください
- C++14 にはまだ
restrict
の類似物がありません 、しかしGCCには__restrict__
があります 拡張として:C++ での restrict キーワードの意味は? - 多くの質問があります:詳細な情報によると、このコードは UB ですか?
- restrict 修飾子を例で理解する
- 限定的なポインターの質問
- 制限されたポインタを別のポインタに割り当て、2 番目のポインタを使用して値を変更することは合法ですか?
- 「いつ使用するか」の質問:いつ restrict を使用し、いつ使用しないか
- 関連する GCC
__attribute__((malloc))
、これは、関数の戻り値が何にもエイリアスされていないことを示しています:GCC:__attribute__((malloc))