[cvs] / xvidcore / src / dct / x86_asm / idct_sse2_dmitry.asm Repository:
ViewVC logotype

Diff of /xvidcore/src/dct/x86_asm/idct_sse2_dmitry.asm

Parent Directory Parent Directory | Revision Log Revision Log | View Patch Patch

revision 1.1, Sun Nov 2 23:02:52 2003 UTC revision 1.1.2.1, Sun Nov 2 23:02:52 2003 UTC
# Line 0  Line 1 
1    ;/****************************************************************************
2    ; *
3    ; *  XVID MPEG-4 VIDEO CODEC
4    ; *  - SSE2 inverse discrete cosine transform -
5    ; *
6    ; *  Copyright(C) 2002 Dmitry Rozhdestvensky
7    ; *
8    ; *  This program is free software; you can redistribute it and/or modify it
9    ; *  under the terms of the GNU General Public License as published by
10    ; *  the Free Software Foundation; either version 2 of the License, or
11    ; *  (at your option) any later version.
12    ; *
13    ; *  This program is distributed in the hope that it will be useful,
14    ; *  but WITHOUT ANY WARRANTY; without even the implied warranty of
15    ; *  MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
16    ; *  GNU General Public License for more details.
17    ; *
18    ; *  You should have received a copy of the GNU General Public License
19    ; *  along with this program; if not, write to the Free Software
20    ; *  Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307 USA
21    ; *
22    ; * $Id$
23    ; *
24    ; ***************************************************************************/
25    
26    BITS 32
27    
28    ;=============================================================================
29    ; Macros and other preprocessor constants
30    ;=============================================================================
31    
32    %macro cglobal 1
33            %ifdef PREFIX
34                    global _%1
35                    %define %1 _%1
36            %else
37                    global %1
38            %endif
39    %endmacro
40    
41    %define BITS_INV_ACC    5                           ; 4 or 5 for IEEE
42    %define SHIFT_INV_ROW   16 - BITS_INV_ACC
43    %define SHIFT_INV_COL   1 + BITS_INV_ACC
44    %define RND_INV_ROW     1024 * (6 - BITS_INV_ACC)   ; 1 << (SHIFT_INV_ROW-1)
45    %define RND_INV_COL     16 * (BITS_INV_ACC - 3)     ; 1 << (SHIFT_INV_COL-1)
46    %define RND_INV_CORR    RND_INV_COL - 1             ; correction -1.0 and round
47    
48    %define BITS_FRW_ACC    3                           ; 2 or 3 for accuracy
49    %define SHIFT_FRW_COL   BITS_FRW_ACC
50    %define SHIFT_FRW_ROW   BITS_FRW_ACC + 17
51    %define RND_FRW_ROW     262144 * (BITS_FRW_ACC - 1) ; 1 << (SHIFT_FRW_ROW-1)
52    
53    ;=============================================================================
54    ; Local Data (Read Only)
55    ;=============================================================================
56    
57    SECTION .rodata
58    
59    ALIGN 16
60    tab_i_04:
61      dw  16384,  21407,  16384,   8867 ; movq-> w05 w04 w01 w00
62      dw  16384,  -8867,  16384, -21407 ; w13 w12 w09 w08
63      dw  16384,   8867, -16384, -21407 ; w07 w06 w03 w02
64      dw -16384,  21407,  16384,  -8867 ; w15 w14 w11 w10
65      dw  22725,  19266,  19266,  -4520 ; w21 w20 w17 w16
66      dw  12873, -22725,   4520, -12873 ; w29 w28 w25 w24
67      dw  12873,   4520, -22725, -12873 ; w23 w22 w19 w18
68      dw   4520,  19266,  19266, -22725 ; w31 w30 w27 w26
69    
70    ; Table for rows 1,7 - constants are multiplied by cos_1_16
71    tab_i_17:
72      dw  22725,  29692,  22725,  12299 ; movq-> w05 w04 w01 w00
73      dw  22725, -12299,  22725, -29692 ; w13 w12 w09 w08
74      dw  22725,  12299, -22725, -29692 ; w07 w06 w03 w02
75      dw -22725,  29692,  22725, -12299 ; w15 w14 w11 w10
76      dw  31521,  26722,  26722,  -6270 ; w21 w20 w17 w16
77      dw  17855, -31521,   6270, -17855 ; w29 w28 w25 w24
78      dw  17855,   6270, -31521, -17855 ; w23 w22 w19 w18
79      dw   6270,  26722,  26722, -31521 ; w31 w30 w27 w26
80    
81    ; Table for rows 2,6 - constants are multiplied by cos_2_16
82    tab_i_26:
83      dw  21407,  27969,  21407,  11585 ; movq-> w05 w04 w01 w00
84      dw  21407, -11585,  21407, -27969 ; w13 w12 w09 w08
85      dw  21407,  11585, -21407, -27969 ; w07 w06 w03 w02
86      dw -21407,  27969,  21407, -11585 ; w15 w14 w11 w10
87      dw  29692,  25172,  25172,  -5906 ; w21 w20 w17 w16
88      dw  16819, -29692,   5906, -16819 ; w29 w28 w25 w24
89      dw  16819,   5906, -29692, -16819 ; w23 w22 w19 w18
90      dw   5906,  25172,  25172, -29692 ; w31 w30 w27 w26
91    
92    ; Table for rows 3,5 - constants are multiplied by cos_3_16
93    tab_i_35:
94      dw  19266,  25172,  19266,  10426 ; movq-> w05 w04 w01 w00
95      dw  19266, -10426,  19266, -25172 ; w13 w12 w09 w08
96      dw  19266,  10426, -19266, -25172 ; w07 w06 w03 w02
97      dw -19266,  25172,  19266, -10426 ; w15 w14 w11 w10
98      dw  26722,  22654,  22654,  -5315 ; w21 w20 w17 w16
99      dw  15137, -26722,   5315, -15137 ; w29 w28 w25 w24
100      dw  15137,   5315, -26722, -15137 ; w23 w22 w19 w18
101      dw   5315,  22654,  22654, -26722 ; w31 w30 w27 w26
102    
103    %if SHIFT_INV_ROW == 12   ; assume SHIFT_INV_ROW == 12
104    rounder_2_0: dd  65536, 65536
105                 dd  65536, 65536
106    rounder_2_4: dd      0,     0
107                 dd      0,     0
108    rounder_2_1: dd   7195,  7195
109                 dd   7195,  7195
110    rounder_2_7: dd   1024,  1024
111                 dd   1024,  1024
112    rounder_2_2: dd   4520,  4520
113                 dd   4520,  4520
114    rounder_2_6: dd   1024,  1024
115                 dd   1024,  1024
116    rounder_2_3: dd   2407,  2407
117                 dd   2407,  2407
118    rounder_2_5: dd    240,   240
119                 dd    240,   240
120    
121    %elif SHIFT_INV_ROW == 11   ; assume SHIFT_INV_ROW == 11
122    rounder_2_0: dd  65536, 65536
123                 dd  65536, 65536
124    rounder_2_4: dd      0,     0
125                 dd      0,     0
126    rounder_2_1: dd   3597,  3597
127                 dd   3597,  3597
128    rounder_2_7: dd    512,   512
129                 dd    512,   512
130    rounder_2_2: dd   2260,  2260
131                 dd   2260,  2260
132    rounder_2_6: dd    512,   512
133                 dd    512,   512
134    rounder_2_3: dd   1203,  1203
135                 dd   1203,  1203
136    rounder_2_5: dd    120,   120
137                 dd    120,   120
138    %else
139    
140    %error Invalid SHIFT_INV_ROW specified
141    
142    %endif
143    
144    tg_1_16: dw  13036,  13036,  13036,  13036      ; tg * (2<<16) + 0.5
145             dw  13036,  13036,  13036,  13036
146    tg_2_16: dw  27146,  27146,  27146,  27146      ; tg * (2<<16) + 0.5
147             dw  27146,  27146,  27146,  27146
148    tg_3_16: dw -21746, -21746, -21746, -21746      ; tg * (2<<16) + 0.5
149             dw -21746, -21746, -21746, -21746
150    ocos_4_16: dw  23170,  23170,  23170,  23170    ; cos * (2<<15) + 0.5
151               dw  23170,  23170,  23170,  23170
152    
153    ;=============================================================================
154    ; Code
155    ;=============================================================================
156    
157    SECTION .text
158    
159    cglobal idct_sse2_dmitry
160    
161    ;-----------------------------------------------------------------------------
162    ; Helper macro - ROW iDCT
163    ;-----------------------------------------------------------------------------
164    
165    %macro DCT_8_INV_ROW_1_SSE2  4
166      pshufhw xmm1, [%1], 11011000b     ;x 75643210
167      pshuflw xmm1, xmm1, 11011000b     ;x 75643120
168      pshufd xmm0, xmm1, 00000000b      ;x 20202020
169      pmaddwd xmm0, [%3]                ;w 13 12 9 8 5410
170    
171      ;a 3210 first part
172      pshufd xmm2, xmm1, 10101010b      ;x 64646464
173      pmaddwd xmm2, [%3+16]             ;w 15 14 11 10 7632
174    
175      ;a 3210 second part
176      paddd xmm2, xmm0                  ;a 3210 ready
177      paddd xmm2, [%4]                  ;must be 4 dwords long, not 2 as for sse1
178      movdqa xmm5, xmm2
179    
180      pshufd xmm3, xmm1, 01010101b      ;x 31313131
181      pmaddwd xmm3, [%3+32]             ;w 29 28 25 24 21 20 17 16
182    
183      ;b 3210 first part
184      pshufd xmm4, xmm1, 11111111b      ;x 75757575
185      pmaddwd xmm4, [%3+48]             ;w 31 30 27 26 23 22 19 18
186    
187      ;b 3210 second part
188      paddd xmm3,xmm4                   ;b 3210 ready
189    
190      paddd xmm2, xmm3                  ;will be y 3210
191      psubd xmm5, xmm3                  ;will be y 4567
192      psrad xmm2, SHIFT_INV_ROW
193      psrad xmm5, SHIFT_INV_ROW
194      packssdw xmm2, xmm5               ;y 45673210
195      pshufhw xmm6, xmm2, 00011011b     ;y 76543210
196      movdqa [%2], xmm6
197    %endmacro
198    
199    ;-----------------------------------------------------------------------------
200    ; Helper macro - Columns iDCT
201    ;-----------------------------------------------------------------------------
202    
203    %macro DCT_8_INV_COL_4_SSE2 2
204      movdqa xmm0, [%1+16*0]                ;x0 (all columns)
205      movdqa xmm2, [%1+16*4]                ;x4
206      movdqa xmm1, xmm0
207    
208      movdqa xmm4, [%1+16*2]                ;x2
209      movdqa xmm5, [%1+16*6]                ;x6
210      movdqa xmm6, [tg_2_16]
211      movdqa xmm7, xmm6
212    
213      paddsw xmm0, xmm2                  ;u04=x0+x4
214      psubsw xmm1, xmm2                  ;v04=x0-x4
215      movdqa xmm3, xmm0
216      movdqa xmm2, xmm1
217    
218      pmulhw xmm6, xmm4
219      pmulhw xmm7, xmm5
220      psubsw xmm6, xmm5                  ;v26=x2*T2-x6
221      paddsw xmm7, xmm4                  ;u26=x6*T2+x2
222    
223      paddsw xmm1, xmm6                  ;a1=v04+v26
224      paddsw xmm0, xmm7                  ;a0=u04+u26
225      psubsw xmm2, xmm6                  ;a2=v04-v26
226      psubsw xmm3, xmm7                  ;a3=u04-u26
227    
228      movdqa [%2+16*0], xmm0                ;store a3-a0 to
229      movdqa [%2+16*6], xmm1                ;free registers
230      movdqa [%2+16*2], xmm2
231      movdqa [%2+16*4], xmm3
232    
233      movdqa xmm0, [%1+16*1]                ;x1
234      movdqa xmm1, [%1+16*7]                ;x7
235      movdqa xmm2, [tg_1_16]
236      movdqa xmm3, xmm2
237    
238      movdqa xmm4, [%1+16*3]                ;x3
239      movdqa xmm5, [%1+16*5]                ;x5
240      movdqa xmm6, [tg_3_16]
241      movdqa xmm7, xmm6
242    
243      pmulhw xmm2, xmm0
244      pmulhw xmm3, xmm1
245      psubsw xmm2, xmm1                  ;v17=x1*T1-x7
246      paddsw xmm3, xmm0                  ;u17=x7*T1+x1
247      movdqa xmm0, xmm3                  ;u17
248      movdqa xmm1, xmm2                  ;v17
249    
250      pmulhw xmm6, xmm4                  ;x3*(t3-1)
251      pmulhw xmm7, xmm5                  ;x5*(t3-1)
252      paddsw xmm6, xmm4
253      paddsw xmm7, xmm5
254      psubsw xmm6, xmm5                  ;v35=x3*T3-x5
255      paddsw xmm7, xmm4                  ;u35=x5*T3+x3
256    
257      movdqa xmm4, [ocos_4_16]
258    
259      paddsw xmm0, xmm7                 ;b0=u17+u35
260      psubsw xmm1, xmm6                 ;b3=v17-v35
261      psubsw xmm3, xmm7                 ;u12=u17-v35
262      paddsw xmm2, xmm6                 ;v12=v17+v35
263    
264      movdqa xmm5, xmm3
265      paddsw xmm3, xmm2                 ;tb1
266      psubsw xmm5, xmm2                 ;tb2
267      pmulhw xmm5, xmm4
268      pmulhw xmm4, xmm3
269      paddsw xmm5, xmm5
270      paddsw xmm4, xmm4
271    
272      movdqa xmm6, [%2+16*0]                ;a0
273      movdqa xmm7, xmm6
274      movdqa xmm2, [%2+16*4]                ;a3
275      movdqa xmm3, xmm2
276    
277      paddsw xmm6, xmm0
278      psubsw xmm7, xmm0
279      psraw xmm6, SHIFT_INV_COL             ;y0=a0+b0
280      psraw xmm7, SHIFT_INV_COL             ;y7=a0-b0
281      movdqa [%2+16*0], xmm6
282      movdqa [%2+16*7], xmm7
283    
284      paddsw xmm2, xmm1
285      psubsw xmm3, xmm1
286      psraw xmm2, SHIFT_INV_COL             ;y3=a3+b3
287      psraw xmm3, SHIFT_INV_COL             ;y4=a3-b3
288      movdqa [%2+16*3], xmm2
289      movdqa [%2+16*4], xmm3
290    
291      movdqa xmm0, [%2+16*6]                ;a1
292      movdqa xmm1, xmm0
293      movdqa xmm6, [%2+16*2]                ;a2
294      movdqa xmm7, xmm6
295    
296    
297      paddsw xmm0, xmm4
298      psubsw xmm1, xmm4
299      psraw xmm0, SHIFT_INV_COL             ;y1=a1+b1
300      psraw xmm1, SHIFT_INV_COL             ;y6=a1-b1
301      movdqa [%2+16*1], xmm0
302      movdqa [%2+16*6], xmm1
303    
304      paddsw xmm6, xmm5
305      psubsw xmm7, xmm5
306      psraw xmm6, SHIFT_INV_COL             ;y2=a2+b2
307      psraw xmm7, SHIFT_INV_COL             ;y5=a2-b2
308      movdqa [%2+16*2], xmm6
309      movdqa [%2+16*5], xmm7
310    %endmacro
311    
312    ;-----------------------------------------------------------------------------
313    ; void idct_sse2_dmitry(int16_t coeff[64]);
314    ;-----------------------------------------------------------------------------
315    
316    ALIGN 16
317    idct_sse2_dmitry:
318    
319      mov eax, [esp + 4]
320    
321      DCT_8_INV_ROW_1_SSE2 eax+  0, eax+  0, tab_i_04, rounder_2_0
322      DCT_8_INV_ROW_1_SSE2 eax+ 16, eax+ 16, tab_i_17, rounder_2_1
323      DCT_8_INV_ROW_1_SSE2 eax+ 32, eax+ 32, tab_i_26, rounder_2_2
324      DCT_8_INV_ROW_1_SSE2 eax+ 48, eax+ 48, tab_i_35, rounder_2_3
325      DCT_8_INV_ROW_1_SSE2 eax+ 64, eax+ 64, tab_i_04, rounder_2_4
326      DCT_8_INV_ROW_1_SSE2 eax+ 80, eax+ 80, tab_i_35, rounder_2_5
327      DCT_8_INV_ROW_1_SSE2 eax+ 96, eax+ 96, tab_i_26, rounder_2_6
328      DCT_8_INV_ROW_1_SSE2 eax+112, eax+112, tab_i_17, rounder_2_7
329    
330      DCT_8_INV_COL_4_SSE2 eax, eax
331    
332      ret

Legend:
Removed from v.1.1  
changed lines
  Added in v.1.1.2.1

No admin address has been configured
ViewVC Help
Powered by ViewVC 1.0.4