Re: Use of vector instructions in memmov/memset expanding

Jan Hubicka Sun, 06 Nov 2011 05:05:02 -0800

> 
> There is rolled loop algorithm, that doesn't use SSE-modes - such
> architectures could use it instead of unrolled_loop. I think the
> performance wouldn't suffer much from that.
> For the most of modern processors, SSE-moves are faster than several
> word-sized moves, so this change in unrolled_loop implementation seems
> reasonable to me, but, of course, if you think introducing
> sse_unrolled_move is worth doing, it could be done.


This don't seem to be quite true for AMD chips.  With your change I get on
amdfam10 hardware:
memset
                   libcall   rep1   noalg    rep4   noalg    rep8   noalg    
loop   noalg    unrl   noalg    byte profiled dynamic
block size 8192000 0:00.62 0:00.55 0:00.54 0:00.54 0:00.60 0:00.54 0:00.57 
0:00.54 0:00.57 0:00.54 0:00.60 0:03.63 0:00.62 0:00.62 best: 0:00.54 loop
block size  819200 0:00.65 0:00.64 0:00.64 0:00.64 0:00.63 0:00.64 0:00.62 
0:00.64 0:00.66 0:00.66 0:00.69 0:04.10 0:00.66 0:00.66 best: 0:00.62 
rep8noalign
block size   81920 0:00.21 0:00.21 0:00.21 0:00.21 0:00.27 0:00.21 0:00.21 
0:00.20 0:00.27 0:00.20 0:00.25 0:04.18 0:00.21 0:00.21 best: 0:00.20 loop
block size   20480 0:00.18 0:00.18 0:00.18 0:00.18 0:00.24 0:00.18 0:00.20 
0:00.20 0:00.28 0:00.17 0:00.23 0:04.29 0:00.18 0:00.18 best: 0:00.17 unrl
block size    8192 0:00.15 0:00.15 0:00.15 0:00.15 0:00.21 0:00.15 0:00.17 
0:00.25 0:00.28 0:00.14 0:00.20 0:01.26 0:00.14 0:00.15 best: 0:00.14 unrl
block size    4096 0:00.15 0:00.15 0:00.16 0:00.15 0:00.21 0:00.14 0:00.16 
0:00.25 0:00.23 0:00.14 0:00.19 0:01.24 0:00.15 0:00.15 best: 0:00.14 rep8
block size    2048 0:00.16 0:00.18 0:00.18 0:00.17 0:00.23 0:00.16 0:00.18 
0:00.26 0:00.21 0:00.17 0:00.21 0:01.25 0:00.16 0:00.16 best: 0:00.16 libcall
block size    1024 0:00.19 0:00.24 0:00.24 0:00.20 0:00.25 0:00.17 0:00.19 
0:00.28 0:00.23 0:00.21 0:00.26 0:01.26 0:00.17 0:00.16 best: 0:00.17 rep8
block size     512 0:00.23 0:00.34 0:00.33 0:00.23 0:00.26 0:00.20 0:00.22 
0:00.31 0:00.27 0:00.27 0:00.29 0:01.29 0:00.20 0:00.19 best: 0:00.20 rep8
block size     256 0:00.29 0:00.51 0:00.51 0:00.28 0:00.30 0:00.25 0:00.26 
0:00.38 0:00.35 0:00.39 0:00.38 0:01.33 0:00.24 0:00.25 best: 0:00.25 rep8
block size     128 0:00.39 0:00.76 0:00.76 0:00.40 0:00.42 0:00.38 0:00.40 
0:00.52 0:00.51 0:00.55 0:00.52 0:01.41 0:00.37 0:00.38 best: 0:00.38 rep8
block size      64 0:00.72 0:00.95 0:00.95 0:00.70 0:00.73 0:00.65 0:00.72 
0:00.75 0:00.75 0:00.74 0:00.76 0:01.48 0:00.64 0:00.65 best: 0:00.65 rep8
block size      48 0:00.89 0:00.98 0:01.12 0:00.86 0:00.72 0:00.83 0:00.88 
0:00.94 0:00.92 0:00.92 0:00.91 0:01.71 0:00.93 0:00.67 best: 0:00.72 
rep4noalign
block size      32 0:01.18 0:01.30 0:01.30 0:01.11 0:01.13 0:01.11 0:01.13 
0:01.20 0:01.19 0:01.13 0:01.19 0:01.79 0:01.15 0:01.11 best: 0:01.11 rep4
block size      24 0:01.57 0:01.71 0:01.71 0:01.52 0:01.51 0:01.52 0:01.52 
0:01.57 0:01.56 0:01.49 0:01.52 0:02.30 0:01.46 0:01.53 best: 0:01.49 unrl
block size      16 0:02.53 0:02.61 0:02.61 0:02.63 0:02.52 0:02.64 0:02.61 
0:02.56 0:02.52 0:02.25 0:02.50 0:03.08 0:02.26 0:02.63 best: 0:02.25 unrl
block size      14 0:02.73 0:02.77 0:02.77 0:02.62 0:02.58 0:02.64 0:02.59 
0:02.60 0:02.61 Command terminated by signal 11 0:00.00 Command terminated by 
signal 11 0:00.00 0:03.58 0:02.48 0:02.67 best: 0:02.58 rep4noalign
block size      12 0:03.29 0:03.09 0:03.08 0:03.02 0:02.98 0:03.06 0:02.96 
0:02.89 0:02.96 Command terminated by signal 11 0:00.00 Command terminated by 
signal 11 0:00.00 0:03.89 0:02.70 0:03.05 best: 0:02.89 loop
block size      10 0:03.58 0:03.64 0:03.60 0:03.58 0:03.31 0:03.52 0:03.38 
0:03.36 0:03.38 Command terminated by signal 11 0:00.00 Command terminated by 
signal 11 0:00.00 0:04.42 0:03.10 0:03.43 best: 0:03.31 rep4noalign
block size       8 0:04.19 0:03.76 0:03.75 0:03.98 0:03.83 0:03.82 0:03.70 
0:03.70 0:03.80 Command terminated by signal 11 0:00.00 Command terminated by 
signal 11 0:00.00 0:04.68 Command terminated by signal 11 0:00.00 0:03.87 best: 
0:03.70 loop
block size       6 0:06.20 0:05.66 0:05.67 0:05.69 0:05.60 0:05.73 0:05.53 
0:05.56 0:05.46 Command terminated by signal 11 0:00.00 Command terminated by 
signal 11 0:00.00 0:06.23 0:05.60 0:05.65 best: 0:05.46 loopnoalign
block size       4 0:09.58 0:06.93 0:06.94 0:07.13 0:07.30 0:07.05 0:06.94 
0:07.05 0:07.28 Command terminated by signal 11 0:00.00 Command terminated by 
signal 11 0:00.00 0:07.37 Command terminated by signal 11 0:00.00 0:07.46 best: 
0:06.93 rep1
block size       1 0:38.46 0:17.27 0:17.27 0:15.14 0:15.11 0:16.34 0:15.10 
0:16.38 0:15.11 Command terminated by signal 11 0:00.00 0:15.22 0:16.33 0:14.87 
0:16.31 best: 0:15.10 rep8noalign

The ICEs for SSE loop < 16 bytes needs to be solved.
memset
                   libcall   rep1   noalg    rep4   noalg    rep8   noalg    
loop   noalg    unrl   noalg    byte profiled dynamic
block size 8192000 0:00.62 0:00.55 0:00.55 0:00.55 0:00.60 0:00.55 0:00.57 
0:00.54 0:00.59 0:00.55 0:00.57 0:03.60 0:00.61 0:00.61 best: 0:00.54 loop
block size  819200 0:00.62 0:00.61 0:00.62 0:00.61 0:00.40 0:00.63 0:00.40 
0:00.65 0:00.50 0:00.65 0:00.40 0:03.84 0:00.35 0:00.65 best: 0:00.40 
rep4noalign
block size   81920 0:00.21 0:00.21 0:00.21 0:00.21 0:00.27 0:00.21 0:00.22 
0:00.27 0:00.40 0:00.21 0:00.22 0:04.47 0:00.21 0:00.21 best: 0:00.21 libcall
block size   20480 0:00.18 0:00.18 0:00.18 0:00.18 0:00.24 0:00.18 0:00.20 
0:00.28 0:00.30 0:00.17 0:00.20 0:04.07 0:00.18 0:00.18 best: 0:00.17 unrl
block size    8192 0:00.15 0:00.15 0:00.15 0:00.15 0:00.21 0:00.15 0:00.16 
0:00.17 0:00.18 0:00.14 0:00.17 0:01.27 0:00.15 0:00.15 best: 0:00.14 unrl
block size    4096 0:00.15 0:00.16 0:00.16 0:00.15 0:00.21 0:00.15 0:00.17 
0:00.18 0:00.17 0:00.14 0:00.17 0:01.24 0:00.15 0:00.15 best: 0:00.14 unrl
block size    2048 0:00.16 0:00.18 0:00.19 0:00.17 0:00.23 0:00.16 0:00.18 
0:00.19 0:00.19 0:00.16 0:00.19 0:01.25 0:00.16 0:00.16 best: 0:00.16 libcall
block size    1024 0:00.19 0:00.24 0:00.24 0:00.21 0:00.26 0:00.17 0:00.19 
0:00.22 0:00.21 0:00.21 0:00.22 0:01.27 0:00.17 0:00.17 best: 0:00.17 rep8
block size     512 0:00.22 0:00.34 0:00.33 0:00.23 0:00.26 0:00.20 0:00.22 
0:00.25 0:00.25 0:00.28 0:00.28 0:01.29 0:00.20 0:00.21 best: 0:00.20 rep8
block size     256 0:00.29 0:00.51 0:00.51 0:00.29 0:00.31 0:00.25 0:00.27 
0:00.35 0:00.33 0:00.39 0:00.37 0:01.33 0:00.25 0:00.25 best: 0:00.25 rep8
block size     128 0:00.39 0:00.76 0:00.76 0:00.40 0:00.42 0:00.38 0:00.41 
0:00.50 0:00.50 0:00.60 0:00.54 0:01.41 0:00.38 0:00.33 best: 0:00.38 rep8
block size      64 0:00.54 0:00.86 0:00.86 0:00.55 0:00.57 0:00.53 0:00.58 
0:00.73 0:00.71 0:00.95 0:00.84 0:01.47 0:00.54 0:00.53 best: 0:00.53 rep8
block size      48 0:00.71 0:00.98 0:00.98 0:00.69 0:00.72 0:00.69 0:00.75 
0:00.91 0:00.87 0:01.28 0:01.07 0:01.69 0:01.11 0:00.69 best: 0:00.69 rep4
block size      32 0:00.97 0:01.14 0:01.14 0:00.89 0:00.91 0:00.87 0:00.93 
0:01.08 0:01.10 0:01.47 0:01.37 0:01.70 0:01.36 0:00.87 best: 0:00.87 rep8
block size      24 0:01.55 0:01.41 0:01.72 0:01.52 0:01.53 0:01.56 0:01.27 
0:01.65 0:01.60 0:02.13 0:02.05 0:02.29 0:01.98 0:01.56 best: 0:01.27 
rep8noalign
block size      16 0:02.51 0:02.60 0:02.59 0:02.63 0:02.34 0:02.61 0:02.73 
0:02.63 0:02.55 0:02.86 0:03.33 0:03.09 0:03.26 0:02.65 best: 0:02.34 
rep4noalign
block size      14 0:02.18 0:02.24 0:02.24 0:02.09 0:02.08 0:02.19 0:02.16 
0:02.15 0:02.17 0:02.99 0:03.06 0:02.96 0:02.74 0:02.76 best: 0:02.08 
rep4noalign
block size      12 0:03.28 0:03.08 0:03.07 0:02.92 0:02.93 0:03.12 0:03.10 
0:02.92 0:02.98 0:03.72 0:03.60 0:03.77 0:03.64 0:02.92 best: 0:02.92 loop
block size      10 0:03.49 0:03.56 0:03.56 0:03.60 0:03.39 0:03.80 0:03.73 
0:03.51 0:03.65 0:04.59 0:04.50 0:04.53 0:04.55 0:03.72 best: 0:03.39 
rep4noalign
block size       8 0:04.31 0:04.26 0:04.26 0:04.31 0:04.46 0:04.15 0:04.14 
0:04.23 0:04.13 0:05.00 0:04.59 0:05.07 0:04.99 0:04.18 best: 0:04.13 
loopnoalign
block size       6 0:06.69 0:06.06 0:06.05 0:06.26 0:05.83 0:06.09 0:05.93 
0:05.91 0:05.75 0:06.42 0:06.27 0:06.39 0:06.75 0:05.94 best: 0:05.75 
loopnoalign
block size       4 0:10.18 0:07.51 0:07.51 0:07.69 0:07.51 0:07.39 0:07.41 
0:07.35 0:07.41 0:07.38 0:07.39 0:07.39 0:07.34 0:07.37 best: 0:07.35 loop
block size       1 0:37.06 0:15.82 0:15.82 0:14.65 0:11.15 0:14.57 0:14.48 
0:14.48 0:14.46 0:14.35 0:14.31 0:15.17 0:14.19 0:14.66 best: 0:11.15 
rep4noalign

> It didn't hurt performance - quite the contrary, it was done to avoid
> performance problems.
> The point of this is following. If we generated an unrolled loop with
> SSE moves and a prologue with alignment checks, then we wouldn't know,
> how much bytes will left after the main loop. So in epilogue we'll
> generate a loop with unknown at compile time trip count. In previous
> implementation such loop simply used byte-moves, so in worst case we'd
> have (UnrollFactor*VectorWidth-1) byte moves. Now before such
> byte-loop we generate a rolled loop with SSE-moves. This loop would
> iterate at most (UnrollFactor-1) times, but that still would greatly
> improve performance.
> 
> Finally, we would have something like this:
> main_loop:
>    sse_move
>    sse_move
>    sse_move
>    sse_move
>    iter += 4*vector_size
>    if (iter < count ) goto main_loop
> epilogue_sse_loop:
>    sse_move
>    iter += vector_size
>    if (iter < count ) goto epilogue_sse_loop
> epilogue_byte_loop:
>    byte_move
>    iter ++
>    if (iter < count ) goto epilogue_byte_loop

Hmm, OK.  Imisremembered how we generate the epilogue now - it is quite a while 
since
I looked into this last time.
> > This seems quite dubious.  The instruction pattern representing the move 
> > should
> > refuse the constants via its condition or predicates.
> 
> It does, but it can't generate efficient code if such constants are
> propagated. Take a look at the next example.
> Suppose we'd generate something like this:
>     v4si_reg = (0 | 0 | 0 | 0)
>     sse_mov [mem], v4si_reg
>     sse_mov [mem+16], v4si_reg
> 
> After constant propagation we'd have:
>     v4si_reg = (0 | 0 | 0 | 0)
>     sse_mov [mem], (0 | 0 | 0 | 0)
>     sse_mov [mem+16], (0 | 0 | 0 | 0)

Well, if instruction predicate of sse_mov would reject the immediate operand
for memory destination, the propagation will not happen.

Lets work out what breaks with the small blocks and I will look into the 
patterns
to prevent th propagation.

Honza

Re: Use of vector instructions in memmov/memset expanding

Reply via email to