[cvs] / xvidcore / src / motion / x86_asm / sad_xmm.asm Repository:
ViewVC logotype

Annotation of /xvidcore/src/motion/x86_asm/sad_xmm.asm

Parent Directory Parent Directory | Revision Log Revision Log


Revision 1.15 - (view) (download)

1 : edgomez 1.7 ;/****************************************************************************
2 : Isibaar 1.1 ; *
3 : edgomez 1.7 ; * XVID MPEG-4 VIDEO CODEC
4 :     ; * - K7 optimized SAD operators -
5 : Isibaar 1.1 ; *
6 : edgomez 1.7 ; * Copyright(C) 2001 Peter Ross <pross@xvid.org>
7 : Isibaar 1.13 ; * 2001-2008 Michael Militzer <michael@xvid.org>
8 : edgomez 1.7 ; * 2002 Pascal Massimino <skal@planet-d.net>
9 : edgomez 1.6 ; *
10 : edgomez 1.7 ; * This program is free software; you can redistribute it and/or modify it
11 :     ; * under the terms of the GNU General Public License as published by
12 :     ; * the Free Software Foundation; either version 2 of the License, or
13 :     ; * (at your option) any later version.
14 : edgomez 1.6 ; *
15 : edgomez 1.7 ; * This program is distributed in the hope that it will be useful,
16 :     ; * but WITHOUT ANY WARRANTY; without even the implied warranty of
17 :     ; * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
18 :     ; * GNU General Public License for more details.
19 : edgomez 1.6 ; *
20 : edgomez 1.7 ; * You should have received a copy of the GNU General Public License
21 :     ; * along with this program; if not, write to the Free Software
22 :     ; * Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA 02111-1307 USA
23 : Isibaar 1.1 ; *
24 : Isibaar 1.15 ; * $Id: sad_xmm.asm,v 1.14 2008/12/04 14:41:50 Isibaar Exp $
25 : Isibaar 1.1 ; *
26 : edgomez 1.7 ; ***************************************************************************/
27 : Isibaar 1.1
28 : Isibaar 1.13 %include "nasm.inc"
29 : Isibaar 1.1
30 : edgomez 1.7 ;=============================================================================
31 :     ; Read only data
32 :     ;=============================================================================
33 :    
34 : Isibaar 1.13 DATA
35 : edgomez 1.7
36 : Isibaar 1.13 ALIGN SECTION_ALIGN
37 : edgomez 1.7 mmx_one: times 4 dw 1
38 :    
39 :     ;=============================================================================
40 :     ; Helper macros
41 :     ;=============================================================================
42 :    
43 :     %macro SAD_16x16_SSE 0
44 : Isibaar 1.13 movq mm0, [_EAX]
45 :     psadbw mm0, [TMP1]
46 :     movq mm1, [_EAX+8]
47 :     add _EAX, TMP0
48 :     psadbw mm1, [TMP1+8]
49 : edgomez 1.7 paddusw mm5, mm0
50 : Isibaar 1.13 add TMP1, TMP0
51 : edgomez 1.7 paddusw mm6, mm1
52 :     %endmacro
53 :    
54 :     %macro SAD_8x8_SSE 0
55 : Isibaar 1.13 movq mm0, [_EAX]
56 :     movq mm1, [_EAX+TMP0]
57 :     psadbw mm0, [TMP1]
58 :     psadbw mm1, [TMP1+TMP0]
59 :     add _EAX, _EBX
60 :     add TMP1, _EBX
61 : edgomez 1.7 paddusw mm5, mm0
62 :     paddusw mm6, mm1
63 :     %endmacro
64 :    
65 :     %macro SADBI_16x16_SSE 0
66 : Isibaar 1.13 movq mm0, [_EAX]
67 :     movq mm1, [_EAX+8]
68 :     movq mm2, [TMP1]
69 :     movq mm3, [TMP1+8]
70 :     pavgb mm2, [_EBX]
71 :     add TMP1, TMP0
72 :     pavgb mm3, [_EBX+8]
73 :     add _EBX, TMP0
74 : edgomez 1.7 psadbw mm0, mm2
75 : Isibaar 1.13 add _EAX, TMP0
76 : edgomez 1.7 psadbw mm1, mm3
77 :     paddusw mm5, mm0
78 :     paddusw mm6, mm1
79 :     %endmacro
80 :    
81 :     %macro SADBI_8x8_XMM 0
82 : Isibaar 1.13 movq mm0, [_EAX]
83 :     movq mm1, [_EAX+TMP0]
84 :     movq mm2, [TMP1]
85 :     movq mm3, [TMP1+TMP0]
86 :     pavgb mm2, [_EBX]
87 :     lea TMP1, [TMP1+2*TMP0]
88 :     pavgb mm3, [_EBX+TMP0]
89 :     lea _EBX, [_EBX+2*TMP0]
90 : edgomez 1.7 psadbw mm0, mm2
91 : Isibaar 1.13 lea _EAX, [_EAX+2*TMP0]
92 : edgomez 1.7 psadbw mm1, mm3
93 :     paddusw mm5, mm0
94 :     paddusw mm6, mm1
95 :     %endmacro
96 : Isibaar 1.1
97 : edgomez 1.7 %macro MEAN_16x16_SSE 0
98 : Isibaar 1.13 movq mm0, [_EAX]
99 :     movq mm1, [_EAX+8]
100 : edgomez 1.7 psadbw mm0, mm7
101 :     psadbw mm1, mm7
102 : Isibaar 1.13 add _EAX, TMP0
103 : edgomez 1.7 paddw mm5, mm0
104 :     paddw mm6, mm1
105 :     %endmacro
106 : Isibaar 1.1
107 : edgomez 1.7 %macro ABS_16x16_SSE 0
108 : Isibaar 1.13 movq mm0, [_EAX]
109 :     movq mm1, [_EAX+8]
110 : edgomez 1.7 psadbw mm0, mm4
111 :     psadbw mm1, mm4
112 : Isibaar 1.13 lea _EAX, [_EAX+TMP0]
113 : edgomez 1.7 paddw mm5, mm0
114 :     paddw mm6, mm1
115 :     %endmacro
116 : Isibaar 1.1
117 : edgomez 1.7 ;=============================================================================
118 :     ; Code
119 :     ;=============================================================================
120 :    
121 : Isibaar 1.14 TEXT
122 : edgomez 1.7
123 :     cglobal sad16_xmm
124 :     cglobal sad8_xmm
125 :     cglobal sad16bi_xmm
126 :     cglobal sad8bi_xmm
127 :     cglobal dev16_xmm
128 :     cglobal sad16v_xmm
129 : Isibaar 1.1
130 : edgomez 1.7 ;-----------------------------------------------------------------------------
131 : Isibaar 1.1 ;
132 :     ; uint32_t sad16_xmm(const uint8_t * const cur,
133 :     ; const uint8_t * const ref,
134 : suxen_drol 1.2 ; const uint32_t stride,
135 : Isibaar 1.1 ; const uint32_t best_sad);
136 : suxen_drol 1.2 ;
137 : edgomez 1.7 ;-----------------------------------------------------------------------------
138 : Isibaar 1.1
139 : Isibaar 1.13 ALIGN SECTION_ALIGN
140 : Isibaar 1.1 sad16_xmm:
141 :    
142 : Isibaar 1.13 mov _EAX, prm1 ; Src1
143 :     mov TMP1, prm2 ; Src2
144 :     mov TMP0, prm3 ; Stride
145 : edgomez 1.7
146 :     pxor mm5, mm5 ; accum1
147 :     pxor mm6, mm6 ; accum2
148 :    
149 :     SAD_16x16_SSE
150 :     SAD_16x16_SSE
151 :     SAD_16x16_SSE
152 :     SAD_16x16_SSE
153 :     SAD_16x16_SSE
154 :     SAD_16x16_SSE
155 :     SAD_16x16_SSE
156 :     SAD_16x16_SSE
157 :    
158 :     SAD_16x16_SSE
159 :     SAD_16x16_SSE
160 :     SAD_16x16_SSE
161 :     SAD_16x16_SSE
162 :     SAD_16x16_SSE
163 :     SAD_16x16_SSE
164 :     SAD_16x16_SSE
165 :     SAD_16x16_SSE
166 :    
167 :     paddusw mm6,mm5
168 :     movd eax, mm6
169 :     ret
170 : Isibaar 1.12 ENDFUNC
171 : Isibaar 1.1
172 :    
173 : edgomez 1.7 ;-----------------------------------------------------------------------------
174 : Isibaar 1.1 ;
175 :     ; uint32_t sad8_xmm(const uint8_t * const cur,
176 :     ; const uint8_t * const ref,
177 :     ; const uint32_t stride);
178 :     ;
179 : edgomez 1.7 ;-----------------------------------------------------------------------------
180 : Isibaar 1.1
181 : Isibaar 1.13 ALIGN SECTION_ALIGN
182 : edgomez 1.7 sad8_xmm:
183 : suxen_drol 1.2
184 : Isibaar 1.13 mov _EAX, prm1 ; Src1
185 :     mov TMP1, prm2 ; Src2
186 :     mov TMP0, prm3 ; Stride
187 :     push _EBX
188 :     lea _EBX, [TMP0+TMP0]
189 : suxen_drol 1.2
190 : edgomez 1.7 pxor mm5, mm5 ; accum1
191 :     pxor mm6, mm6 ; accum2
192 : suxen_drol 1.2
193 : edgomez 1.7 SAD_8x8_SSE
194 :     SAD_8x8_SSE
195 :     SAD_8x8_SSE
196 : suxen_drol 1.2
197 : Isibaar 1.13 movq mm0, [_EAX]
198 :     movq mm1, [_EAX+TMP0]
199 :     psadbw mm0, [TMP1]
200 :     psadbw mm1, [TMP1+TMP0]
201 : suxen_drol 1.2
202 : Isibaar 1.13 pop _EBX
203 : suxen_drol 1.2
204 : edgomez 1.7 paddusw mm5,mm0
205 :     paddusw mm6,mm1
206 : suxen_drol 1.2
207 : edgomez 1.7 paddusw mm6,mm5
208 :     movd eax, mm6
209 : suxen_drol 1.2
210 : edgomez 1.7 ret
211 : Isibaar 1.12 ENDFUNC
212 : suxen_drol 1.2
213 :    
214 : edgomez 1.7 ;-----------------------------------------------------------------------------
215 : suxen_drol 1.2 ;
216 :     ; uint32_t sad16bi_xmm(const uint8_t * const cur,
217 :     ; const uint8_t * const ref1,
218 :     ; const uint8_t * const ref2,
219 :     ; const uint32_t stride);
220 :     ;
221 : edgomez 1.7 ;-----------------------------------------------------------------------------
222 : suxen_drol 1.2
223 : Isibaar 1.13 ALIGN SECTION_ALIGN
224 : edgomez 1.7 sad16bi_xmm:
225 : Isibaar 1.13 mov _EAX, prm1 ; Src
226 :     mov TMP1, prm2 ; Ref1
227 :     mov TMP0, prm4 ; Stride
228 :    
229 :     push _EBX
230 :     %ifdef ARCH_IS_X86_64
231 :     mov _EBX, prm3
232 :     %else
233 :     mov _EBX, [_ESP+4+12] ; Ref2
234 :     %endif
235 : edgomez 1.7 pxor mm5, mm5 ; accum1
236 :     pxor mm6, mm6 ; accum2
237 :    
238 :     SADBI_16x16_SSE
239 :     SADBI_16x16_SSE
240 :     SADBI_16x16_SSE
241 :     SADBI_16x16_SSE
242 :     SADBI_16x16_SSE
243 :     SADBI_16x16_SSE
244 :     SADBI_16x16_SSE
245 :     SADBI_16x16_SSE
246 :    
247 :     SADBI_16x16_SSE
248 :     SADBI_16x16_SSE
249 :     SADBI_16x16_SSE
250 :     SADBI_16x16_SSE
251 :     SADBI_16x16_SSE
252 :     SADBI_16x16_SSE
253 :     SADBI_16x16_SSE
254 :     SADBI_16x16_SSE
255 :    
256 :     paddusw mm6,mm5
257 :     movd eax, mm6
258 : Isibaar 1.13 pop _EBX
259 : edgomez 1.7 ret
260 : Isibaar 1.12 ENDFUNC
261 : Isibaar 1.1
262 : edgomez 1.7 ;-----------------------------------------------------------------------------
263 :     ;
264 :     ; uint32_t sad8bi_xmm(const uint8_t * const cur,
265 :     ; const uint8_t * const ref1,
266 :     ; const uint8_t * const ref2,
267 :     ; const uint32_t stride);
268 :     ;
269 :     ;-----------------------------------------------------------------------------
270 : Isibaar 1.1
271 : Isibaar 1.13 ALIGN SECTION_ALIGN
272 : edgomez 1.7 sad8bi_xmm:
273 : Isibaar 1.13 mov _EAX, prm1 ; Src
274 :     mov TMP1, prm2 ; Ref1
275 :     mov TMP0, prm4 ; Stride
276 :    
277 :     push _EBX
278 :     %ifdef ARCH_IS_X86_64
279 :     mov _EBX, prm3
280 :     %else
281 :     mov _EBX, [_ESP+4+12] ; Ref2
282 :     %endif
283 : edgomez 1.7
284 :     pxor mm5, mm5 ; accum1
285 :     pxor mm6, mm6 ; accum2
286 : Isibaar 1.12 .Loop:
287 : edgomez 1.7 SADBI_8x8_XMM
288 :     SADBI_8x8_XMM
289 :     SADBI_8x8_XMM
290 :     SADBI_8x8_XMM
291 :    
292 :     paddusw mm6,mm5
293 :     movd eax, mm6
294 : Isibaar 1.13 pop _EBX
295 : edgomez 1.7 ret
296 : Isibaar 1.12 ENDFUNC
297 : suxen_drol 1.2
298 :    
299 : edgomez 1.7 ;-----------------------------------------------------------------------------
300 : suxen_drol 1.2 ;
301 :     ; uint32_t dev16_xmm(const uint8_t * const cur,
302 :     ; const uint32_t stride);
303 :     ;
304 : edgomez 1.7 ;-----------------------------------------------------------------------------
305 : Isibaar 1.1
306 : Isibaar 1.13 ALIGN SECTION_ALIGN
307 : Isibaar 1.1 dev16_xmm:
308 :    
309 : Isibaar 1.13 mov _EAX, prm1 ; Src
310 :     mov TMP0, prm2 ; Stride
311 : Isibaar 1.1
312 : edgomez 1.7 pxor mm7, mm7 ; zero
313 :     pxor mm5, mm5 ; mean accums
314 :     pxor mm6, mm6
315 :    
316 :     MEAN_16x16_SSE
317 :     MEAN_16x16_SSE
318 :     MEAN_16x16_SSE
319 :     MEAN_16x16_SSE
320 :     MEAN_16x16_SSE
321 :     MEAN_16x16_SSE
322 :     MEAN_16x16_SSE
323 :     MEAN_16x16_SSE
324 :    
325 :     MEAN_16x16_SSE
326 :     MEAN_16x16_SSE
327 :     MEAN_16x16_SSE
328 :     MEAN_16x16_SSE
329 :     MEAN_16x16_SSE
330 :     MEAN_16x16_SSE
331 :     MEAN_16x16_SSE
332 :     MEAN_16x16_SSE
333 :    
334 :     paddusw mm6, mm5
335 :    
336 :     movq mm4, mm6
337 :     psllq mm4, 32
338 :     paddd mm4, mm6
339 :     psrld mm4, 8 ; /= (16*16)
340 :    
341 :     packssdw mm4, mm4
342 :     packuswb mm4, mm4
343 :    
344 :     ; mm4 contains the mean
345 :    
346 : Isibaar 1.13 mov _EAX, prm1 ; Src
347 : edgomez 1.7
348 :    
349 :     pxor mm5, mm5 ; sums
350 :     pxor mm6, mm6
351 :    
352 :     ABS_16x16_SSE
353 :     ABS_16x16_SSE
354 :     ABS_16x16_SSE
355 :     ABS_16x16_SSE
356 :     ABS_16x16_SSE
357 :     ABS_16x16_SSE
358 :     ABS_16x16_SSE
359 :     ABS_16x16_SSE
360 :    
361 :     ABS_16x16_SSE
362 :     ABS_16x16_SSE
363 :     ABS_16x16_SSE
364 :     ABS_16x16_SSE
365 :     ABS_16x16_SSE
366 :     ABS_16x16_SSE
367 :     ABS_16x16_SSE
368 :     ABS_16x16_SSE
369 :    
370 :     paddusw mm6, mm5
371 :     movq mm7, mm6
372 :     psllq mm7, 32
373 :     paddd mm6, mm7
374 : edgomez 1.6
375 : edgomez 1.7 movd eax, mm6
376 :     ret
377 : Isibaar 1.12 ENDFUNC
378 : edgomez 1.6
379 : edgomez 1.7 ;-----------------------------------------------------------------------------
380 : edgomez 1.6 ;int sad16v_xmm(const uint8_t * const cur,
381 :     ; const uint8_t * const ref,
382 :     ; const uint32_t stride,
383 :     ; int* sad8);
384 : edgomez 1.7 ;-----------------------------------------------------------------------------
385 :    
386 : Isibaar 1.13 ALIGN SECTION_ALIGN
387 : edgomez 1.6 sad16v_xmm:
388 : Isibaar 1.13 mov _EAX, prm1 ; Src1
389 :     mov TMP1, prm2 ; Src2
390 :     mov TMP0, prm3 ; Stride
391 :    
392 :     push _EBX
393 :     %ifdef ARCH_IS_X86_64
394 :     mov _EBX, prm4
395 :     %else
396 :     mov _EBX, [_ESP+4+16] ; sad ptr
397 :     %endif
398 : edgomez 1.7
399 :     pxor mm5, mm5 ; accum1
400 :     pxor mm6, mm6 ; accum2
401 :     pxor mm7, mm7 ; total
402 :    
403 :     SAD_16x16_SSE
404 :     SAD_16x16_SSE
405 :     SAD_16x16_SSE
406 :     SAD_16x16_SSE
407 :     SAD_16x16_SSE
408 :     SAD_16x16_SSE
409 :     SAD_16x16_SSE
410 :     SAD_16x16_SSE
411 :    
412 :     paddusw mm7, mm5
413 :     paddusw mm7, mm6
414 : Isibaar 1.13 movd [_EBX], mm5
415 :     movd [_EBX+4], mm6
416 : edgomez 1.7
417 :     pxor mm5, mm5 ; accum1
418 :     pxor mm6, mm6 ; accum2
419 :    
420 :     SAD_16x16_SSE
421 :     SAD_16x16_SSE
422 :     SAD_16x16_SSE
423 :     SAD_16x16_SSE
424 :     SAD_16x16_SSE
425 :     SAD_16x16_SSE
426 :     SAD_16x16_SSE
427 :     SAD_16x16_SSE
428 :    
429 :     paddusw mm7, mm5
430 :     paddusw mm7, mm6
431 : Isibaar 1.13 movd [_EBX+8], mm5
432 :     movd [_EBX+12], mm6
433 : edgomez 1.7
434 :     movd eax, mm7
435 : Isibaar 1.13 pop _EBX
436 : edgomez 1.7 ret
437 : Isibaar 1.12 ENDFUNC
438 : edgomez 1.10
439 : Isibaar 1.15 NON_EXEC_STACK

No admin address has been configured
ViewVC Help
Powered by ViewVC 1.0.4