Diff of /xvidcore/src/quant/x86_asm/quantize_h263_mmx.asm

-revision 1.1.2.1, Tue Oct  7 13:02:35 2003 UTC
+revision 1.15, Thu Dec  4 18:30:36 2008 UTC
 Line 1
- ;/**************************************************************************
+ ;/*****************************************************************************
  ; *
  ; *     XVID MPEG-4 VIDEO CODEC
- ; *     mmx quantization/dequantization
+ ; *  - MPEG4 Quantization H263 implementation / MMX optimized -
  ; *
- ; *     This program is an implementation of a part of one or more MPEG-4
+ ; *  Copyright(C) 2001-2003 Peter Ross <pross@xvid.org>
- ; *     Video tools as specified in ISO/IEC 14496-2 standard.  Those intending
+ ; *               2002-2003 Pascal Massimino <skal@planet-d.net>
- ; *     to use this software module in hardware or software products are
+ ; *               2004      Jean-Marc Bastide <jmtest@voila.fr>
- ; *     advised that its use may infringe existing patents or copyrights, and
- ; *     any such use would be at such party's own risk.  The original
- ; *     developer of this software module and his/her company, and subsequent
- ; *     editors and their companies, will have no liability for use of this
- ; *     software or modifications or derivatives thereof.
  ; *
  ; *     This program is free software; you can redistribute it and/or modify
  ; *     it under the terms of the GNU General Public License as published by
-Line 24
+Line 19
  ; *
  ; *     You should have received a copy of the GNU General Public License
  ; *     along with this program; if not, write to the Free Software
- ; *     Foundation, Inc., 675 Mass Ave, Cambridge, MA 02139, USA.
+ ; *  Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307 USA
  ; *
- ; *************************************************************************/
+ ; * $Id$
- ;/**************************************************************************
- ; *
- ; *     History:
  ; *
- ; * 09.08.2002  sse2 dequant funcs revamped
+ ; ****************************************************************************/
- ; * 14.06.2002  mmx+xmm dequant_* funcs revamped  -Skal-
- ; * 24.02.2002  sse2 quant_intra / dequant_intra (have to use movdqu ???)
- ; * 17.04.2002  sse2 quant_inter / dequant_inter
- ; * 26.12.2001  minor bug fixes, dequant saturate, further optimization
- ; * 19.11.2001  quant_inter_mmx now returns sum of abs. coefficient values
- ; *     04.11.2001      nasm version; (c)2001 peter ross <pross@cs.rmit.edu.au>
- ; *
- ; *************************************************************************/
  ; enable dequant saturate [-2048,2047], test purposes only.
  %define SATURATE
- ; data/text alignment
+ %include "nasm.inc"
- %define ALIGN 8
- bits 32
+ ;=============================================================================
+ ; Read only Local data
+ ;=============================================================================
- section .data
+ DATA
+ ALIGN SECTION_ALIGN
+ plus_one:
+         times 8 dw 1
- %macro cglobal 1
+ ;-----------------------------------------------------------------------------
-         %ifdef PREFIX
+ ;
-                 global _%1
+ ; quant table
-                 %define %1 _%1
+ ;
-         %else
+ ;-----------------------------------------------------------------------------
-                 global %1
-         %endif
- %endmacro
- align 16
- plus_one times 8        dw       1
+ ALIGN SECTION_ALIGN
+ mmx_quant:
+ %assign quant 0
+ %rep 32
+         times 4 dw quant
+         %assign quant quant+1
+ %endrep
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
  ;
  ; subtract by Q/2 table
  ;
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
- %macro MMX_SUB  1
+ ALIGN SECTION_ALIGN
- times 4 dw %1 / 2
+ mmx_sub:
- %endmacro
+ %assign quant 1
+ %rep 31
- align 16
+         times 4 dw  quant / 2
- mmx_sub
+         %assign quant quant+1
-                 MMX_SUB 1
+ %endrep
-                 MMX_SUB 2
-                 MMX_SUB 3
-                 MMX_SUB 4
-                 MMX_SUB 5
-                 MMX_SUB 6
-                 MMX_SUB 7
-                 MMX_SUB 8
-                 MMX_SUB 9
-                 MMX_SUB 10
-                 MMX_SUB 11
-                 MMX_SUB 12
-                 MMX_SUB 13
-                 MMX_SUB 14
-                 MMX_SUB 15
-                 MMX_SUB 16
-                 MMX_SUB 17
-                 MMX_SUB 18
-                 MMX_SUB 19
-                 MMX_SUB 20
-                 MMX_SUB 21
-                 MMX_SUB 22
-                 MMX_SUB 23
-                 MMX_SUB 24
-                 MMX_SUB 25
-                 MMX_SUB 26
-                 MMX_SUB 27
-                 MMX_SUB 28
-                 MMX_SUB 29
-                 MMX_SUB 30
-                 MMX_SUB 31
+ ;-----------------------------------------------------------------------------
- ;===========================================================================
  ;
  ; divide by 2Q table
  ;
-Line 120
+Line 76
  ; for q=1, _pmulhw_ will overflow so it is treated seperately
  ; (3dnow2 provides _pmulhuw_ which wont cause overflow)
  ;
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
- %macro MMX_DIV  1
- times 4 dw  (1 << 16) / (%1 * 2) + 1
- %endmacro
- align 16
- mmx_div
-                 MMX_DIV 1
-                 MMX_DIV 2
-                 MMX_DIV 3
-                 MMX_DIV 4
-                 MMX_DIV 5
-                 MMX_DIV 6
-                 MMX_DIV 7
-                 MMX_DIV 8
-                 MMX_DIV 9
-                 MMX_DIV 10
-                 MMX_DIV 11
-                 MMX_DIV 12
-                 MMX_DIV 13
-                 MMX_DIV 14
-                 MMX_DIV 15
-                 MMX_DIV 16
-                 MMX_DIV 17
-                 MMX_DIV 18
-                 MMX_DIV 19
-                 MMX_DIV 20
-                 MMX_DIV 21
-                 MMX_DIV 22
-                 MMX_DIV 23
-                 MMX_DIV 24
-                 MMX_DIV 25
-                 MMX_DIV 26
-                 MMX_DIV 27
-                 MMX_DIV 28
-                 MMX_DIV 29
-                 MMX_DIV 30
-                 MMX_DIV 31
- ;===========================================================================
- ;
- ; add by (odd(Q) ? Q : Q - 1) table
- ;
- ;===========================================================================
- %macro MMX_ADD  1
- %if %1 % 2 != 0
- times 4 dw %1
- %else
- times 4 dw %1 - 1
- %endif
- %endmacro
- align 16
+ ALIGN SECTION_ALIGN
- mmx_add
+ mmx_div:
-                 MMX_ADD 1
+ %assign quant 1
-                 MMX_ADD 2
+ %rep 31
-                 MMX_ADD 3
+         times 4 dw  (1<<16) / (quant*2) + 1
-                 MMX_ADD 4
+         %assign quant quant+1
-                 MMX_ADD 5
+ %endrep
-                 MMX_ADD 6
-                 MMX_ADD 7
+ ;=============================================================================
-                 MMX_ADD 8
+ ; Code
-                 MMX_ADD 9
+ ;=============================================================================
-                 MMX_ADD 10
-                 MMX_ADD 11
-                 MMX_ADD 12
-                 MMX_ADD 13
-                 MMX_ADD 14
-                 MMX_ADD 15
-                 MMX_ADD 16
-                 MMX_ADD 17
-                 MMX_ADD 18
-                 MMX_ADD 19
-                 MMX_ADD 20
-                 MMX_ADD 21
-                 MMX_ADD 22
-                 MMX_ADD 23
-                 MMX_ADD 24
-                 MMX_ADD 25
-                 MMX_ADD 26
-                 MMX_ADD 27
-                 MMX_ADD 28
-                 MMX_ADD 29
-                 MMX_ADD 30
-                 MMX_ADD 31
- ;===========================================================================
- ;
- ; multiple by 2Q table
- ;
- ;===========================================================================
- %macro MMX_MUL  1
- times 4 dw %1 * 2
- %endmacro
- align 16
- mmx_mul
-                 MMX_MUL 1
-                 MMX_MUL 2
-                 MMX_MUL 3
-                 MMX_MUL 4
-                 MMX_MUL 5
-                 MMX_MUL 6
-                 MMX_MUL 7
-                 MMX_MUL 8
-                 MMX_MUL 9
-                 MMX_MUL 10
-                 MMX_MUL 11
-                 MMX_MUL 12
-                 MMX_MUL 13
-                 MMX_MUL 14
-                 MMX_MUL 15
-                 MMX_MUL 16
-                 MMX_MUL 17
-                 MMX_MUL 18
-                 MMX_MUL 19
-                 MMX_MUL 20
-                 MMX_MUL 21
-                 MMX_MUL 22
-                 MMX_MUL 23
-                 MMX_MUL 24
-                 MMX_MUL 25
-                 MMX_MUL 26
-                 MMX_MUL 27
-                 MMX_MUL 28
-                 MMX_MUL 29
-                 MMX_MUL 30
-                 MMX_MUL 31
- ;===========================================================================
- ;
- ; saturation limits
- ;
- ;===========================================================================
- align 16
- sse2_2047       times 8 dw 2047
- align 16
- mmx_2047        times 4 dw 2047
- align 8
- mmx_32768_minus_2048                            times 4 dw (32768-2048)
- mmx_32767_minus_2047                            times 4 dw (32767-2047)
+ TEXT
- section .text
+ cglobal quant_h263_intra_mmx
+ cglobal quant_h263_intra_sse2
+ cglobal quant_h263_inter_mmx
+ cglobal quant_h263_inter_sse2
+ cglobal dequant_h263_intra_mmx
+ cglobal dequant_h263_intra_xmm
+ cglobal dequant_h263_intra_sse2
+ cglobal dequant_h263_inter_mmx
+ cglobal dequant_h263_inter_xmm
+ cglobal dequant_h263_inter_sse2
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
  ;
- ; void quant_intra_mmx(int16_t * coeff,
+ ; uint32_t quant_h263_intra_mmx(int16_t * coeff,
  ;                                       const int16_t const * data,
  ;                                       const uint32_t quant,
- ;                                       const uint32_t dcscalar);
+ ;                               const uint32_t dcscalar,
+ ;                               const uint16_t *mpeg_matrices);
  ;
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
- align ALIGN
+ ALIGN SECTION_ALIGN
- cglobal quant_h263_intra_mmx
  quant_h263_intra_mmx:
-                 push    ecx
+   mov _EAX, prm2     ; data
-                 push    esi
+   mov TMP0, prm4     ; dcscalar
-                 push    edi
+   movsx _EAX, word [_EAX]  ; data[0]
-                 mov     edi, [esp + 12 + 4]             ; coeff
+   sar TMP0, 1              ; dcscalar /2
-                 mov     esi, [esp + 12 + 8]             ; data
+   mov TMP1, _EAX
-                 mov     eax, [esp + 12 + 12]            ; quant
+   sar TMP1, 31             ; sgn(data[0])
+   xor TMP0,TMP1            ; *sgn(data[0])
-                 xor ecx, ecx
+   sub _EAX,TMP1
-                 cmp     al, 1
+   add _EAX,TMP0            ; + (dcscalar/2)*sgn(data[0])
-                 jz      .q1loop
+   mov TMP0, prm3     ; quant
-                 movq    mm7, [mmx_div + eax * 8 - 8]
+   lea TMP1, [mmx_div]
- align ALIGN
+   movq mm7, [TMP1+TMP0 * 8 - 8]
- .loop
+ %ifdef ARCH_IS_X86_64
-                 movq    mm0, [esi + 8*ecx]              ; mm0 = [1st]
+ %ifdef WINDOWS
-                 movq    mm3, [esi + 8*ecx + 8]  ;
+   mov TMP1, prm2
-                 pxor    mm1, mm1                ; mm1 = 0
+ %endif
-                 pxor    mm4, mm4                ;
+ %endif
-                 pcmpgtw mm1, mm0                ; mm1 = (0 > mm0)
+   cdq
-                 pcmpgtw mm4, mm3                ;
+   idiv prm4d         ; dcscalar
-                 pxor    mm0, mm1                ; mm0 = |mm0|
+ %ifdef ARCH_IS_X86_64
-                 pxor    mm3, mm4                ;
+ %ifdef WINDOWS
-                 psubw   mm0, mm1                ; displace
+   mov prm2, TMP1
-                 psubw   mm3, mm4                ;
+ %endif
-                 pmulhw  mm0, mm7                ; mm0 = (mm0 / 2Q) >> 16
+ %endif
-                 pmulhw  mm3, mm7                ;
+   cmp TMP0, 1
-                 pxor    mm0, mm1                ; mm0 *= sign(mm0)
+   mov TMP1, prm1     ; coeff
-                 pxor    mm3, mm4                ;
+   je .low
-                 psubw   mm0, mm1                ; undisplace
-                 psubw   mm3, mm4                ;
+   mov TMP0, prm2     ; data
-                 movq    [edi + 8*ecx], mm0
+   push _EAX          ; DC
-                 movq    [edi + 8*ecx + 8], mm3
+   mov _EAX, TMP0
-                 add ecx,2
-                 cmp ecx,16
-                 jnz     .loop
- .done
+   mov TMP0,4
-         ; caclulate  data[0] // (int32_t)dcscalar)
-                 mov     ecx, [esp + 12 + 16]    ; dcscalar
+ .loop:
-                 mov     edx, ecx
+   movq mm0, [_EAX]           ; data
-                 movsx   eax, word [esi] ; data[0]
+   pxor mm4,mm4
-                 shr     edx, 1                  ; edx = dcscalar /2
+   movq mm1, [_EAX + 8]
-                 cmp             eax, 0
+   pcmpgtw mm4,mm0           ; (data<0)
-                 jg              .gtzero
+   pxor mm5,mm5
+   pmulhw mm0,mm7            ; /(2*quant)
-                 sub             eax, edx
+   pcmpgtw mm5,mm1
-                 jmp             short .mul
+   movq mm2, [_EAX+16]
- .gtzero
+   psubw mm0,mm4             ;  +(data<0)
-                 add             eax, edx
+   pmulhw mm1,mm7
- .mul
+   pxor mm4,mm4
-                 cdq                             ; expand eax -> edx:eax
+   movq mm3,[_EAX+24]
-                 idiv    ecx                     ; eax = edx:eax / dcscalar
+   pcmpgtw mm4,mm2
+   psubw mm1,mm5
-                 mov     [edi], ax               ; coeff[0] = ax
+   pmulhw mm2,mm7
+   pxor mm5,mm5
-                 pop     edi
+   pcmpgtw mm5,mm3
-                 pop     esi
+   pmulhw mm3,mm7
-                 pop     ecx
+   psubw mm2,mm4
+   psubw mm3,mm5
+   movq [TMP1], mm0
+   lea _EAX, [_EAX+32]
+   movq [TMP1 + 8], mm1
+   movq [TMP1 + 16], mm2
+   movq [TMP1 + 24], mm3
+   dec TMP0
+   lea TMP1, [TMP1+32]
+   jne .loop
+   jmp .end
+ .low:
+   movd mm7,TMP0d
+   mov TMP0, prm2
+   push _EAX
+   mov _EAX, TMP0
+   mov TMP0,4
+ .loop_low:
+   movq mm0, [_EAX]
+   pxor mm4,mm4
+   movq mm1, [_EAX + 8]
+   pcmpgtw mm4,mm0
+   pxor mm5,mm5
+   psubw mm0,mm4
+   pcmpgtw mm5,mm1
+   psraw mm0,mm7
+   psubw mm1,mm5
+   movq mm2,[_EAX+16]
+   pxor mm4,mm4
+   psraw mm1,mm7
+   pcmpgtw mm4,mm2
+   pxor mm5,mm5
+   psubw mm2,mm4
+   movq mm3,[_EAX+24]
+   pcmpgtw mm5,mm3
+   psraw mm2,mm7
+   psubw mm3,mm5
+   movq [TMP1], mm0
+   psraw mm3,mm7
+   movq [TMP1 + 8], mm1
+   movq [TMP1+16],mm2
+   lea _EAX, [_EAX+32]
+   movq [TMP1+24],mm3
+   dec TMP0
+   lea TMP1, [TMP1+32]
+   jne .loop_low
+ .end:
+   pop _EAX
+   mov TMP1, prm1     ; coeff
+   mov [TMP1],ax
+   xor _EAX,_EAX       ; return 0
                  ret
+ ENDFUNC
- align ALIGN
- .q1loop
-                 movq    mm0, [esi + 8*ecx]              ; mm0 = [1st]
-                 movq    mm3, [esi + 8*ecx + 8]  ;
-                 pxor    mm1, mm1                ; mm1 = 0
-                 pxor    mm4, mm4                ;
-                 pcmpgtw mm1, mm0                ; mm1 = (0 > mm0)
-                 pcmpgtw mm4, mm3                ;
-                 pxor    mm0, mm1                ; mm0 = |mm0|
-                 pxor    mm3, mm4                ;
-                 psubw   mm0, mm1                ; displace
-                 psubw   mm3, mm4                ;
-                 psrlw   mm0, 1                  ; mm0 >>= 1   (/2)
-                 psrlw   mm3, 1                  ;
-                 pxor    mm0, mm1                ; mm0 *= sign(mm0)
-                 pxor    mm3, mm4        ;
-                 psubw   mm0, mm1                ; undisplace
-                 psubw   mm3, mm4                ;
-                 movq    [edi + 8*ecx], mm0
-                 movq    [edi + 8*ecx + 8], mm3
-                 add ecx,2
-                 cmp ecx,16
-                 jnz     .q1loop
-                 jmp     short .done
+ ;-----------------------------------------------------------------------------
- ;===========================================================================
  ;
- ; void quant_intra_sse2(int16_t * coeff,
+ ; uint32_t quant_h263_intra_sse2(int16_t * coeff,
  ;                                       const int16_t const * data,
  ;                                       const uint32_t quant,
- ;                                       const uint32_t dcscalar);
+ ;                                const uint32_t dcscalar,
+ ;                                const uint16_t *mpeg_matrices);
  ;
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
- align ALIGN
+ ALIGN SECTION_ALIGN
- cglobal quant_h263_intra_sse2
  quant_h263_intra_sse2:
+   PUSH_XMM6_XMM7
+   mov _EAX, prm2     ; data
-                 push    esi
+   movsx _EAX, word [_EAX]      ; data[0]
-                 push    edi
-                 mov             edi, [esp + 8 + 4]                      ; coeff
-                 mov             esi, [esp + 8 + 8]                      ; data
-                 mov             eax, [esp + 8 + 12]                     ; quant
-                 xor             ecx, ecx
+   mov TMP0,prm4     ; dcscalar
-                 cmp             al, 1
+   mov TMP1, _EAX
-                 jz              near .qas2_q1loop
+   sar TMP0,1
+   add _EAX,TMP0
+   sub TMP1,TMP0
+   cmovl _EAX,TMP1              ; +/- dcscalar/2
+   mov TMP0, prm3    ; quant
+   lea TMP1, [mmx_div]
+   movq xmm7, [TMP1+TMP0 * 8 - 8]
+ %ifdef ARCH_IS_X86_64
+ %ifdef WINDOWS
+   mov TMP1, prm2
+ %endif
+ %endif
+   cdq
+   idiv prm4d  ; dcscalar
+ %ifdef ARCH_IS_X86_64
+ %ifdef WINDOWS
+   mov prm2, TMP1
+ %endif
+ %endif
+   cmp TMP0, 1
+   mov TMP1, prm1     ; coeff
+   je near .low
+   mov TMP0, prm2
+   push _EAX ; DC
+   mov _EAX, TMP0
- .qas2_not1
+   mov TMP0,2
-                 movq    mm7, [mmx_div + eax*8 - 8]
-                 movq2dq xmm7, mm7
                  movlhps xmm7, xmm7
- align 16
+ .loop:
- .qas2_loop
+   movdqa xmm0, [_EAX]
-                 movdqa  xmm0, [esi + ecx*8]                     ; xmm0 = [1st]
-                 movdqa  xmm3, [esi + ecx*8 + 16]        ; xmm3 = [2nd]
-                 pxor    xmm1, xmm1
                  pxor    xmm4, xmm4
-                 pcmpgtw xmm1, xmm0
+   movdqa xmm1, [_EAX + 16]
-                 pcmpgtw xmm4, xmm3
+   pcmpgtw xmm4,xmm0
-                 pxor    xmm0, xmm1
+   pxor xmm5,xmm5
-                 pxor    xmm3, xmm4
-                 psubw   xmm0, xmm1
-                 psubw   xmm3, xmm4
                  pmulhw  xmm0, xmm7
+   pcmpgtw xmm5,xmm1
+   movdqa xmm2, [_EAX+32]
+   psubw xmm0,xmm4
+   pmulhw xmm1,xmm7
+   pxor xmm4,xmm4
+   movdqa xmm3,[_EAX+48]
+   pcmpgtw xmm4,xmm2
+   psubw xmm1,xmm5
+   pmulhw xmm2,xmm7
+   pxor xmm5,xmm5
+   pcmpgtw xmm5,xmm3
                  pmulhw  xmm3, xmm7
-                 pxor    xmm0, xmm1
+   psubw xmm2,xmm4
-                 pxor    xmm3, xmm4
+   psubw xmm3,xmm5
-                 psubw   xmm0, xmm1
+   movdqa [TMP1], xmm0
-                 psubw   xmm3, xmm4
+   lea _EAX, [_EAX+64]
-                 movdqa  [edi + ecx*8], xmm0
+   movdqa [TMP1 + 16], xmm1
-                 movdqa  [edi + ecx*8 + 16], xmm3
+   movdqa [TMP1 + 32], xmm2
+   movdqa [TMP1 + 48], xmm3
-                 add             ecx, 4
-                 cmp             ecx, 16
+   dec TMP0
-                 jnz     .qas2_loop
+   lea TMP1, [TMP1+64]
+   jne .loop
- .qas2_done
+   jmp .end
-                 mov     ecx, [esp + 8 + 16]     ; dcscalar
-                 mov     edx, ecx
+ .low:
-                 movsx   eax, word [esi]
+   movd xmm7,TMP0d
-                 shr     edx, 1
-                 cmp             eax, 0
+   mov TMP0, prm2
-                 jg              .qas2_gtzero
+   push _EAX ; DC
+   mov _EAX, TMP0
-                 sub             eax, edx
-                 jmp             short .qas2_mul
+   mov TMP0,2
- .qas2_gtzero
+ .loop_low:
-                 add             eax, edx
+   movdqa xmm0, [_EAX]
- .qas2_mul
-                 cdq
-                 idiv    ecx
-                 mov             [edi], ax
-                 pop             edi
-                 pop             esi
-                 ret
- align 16
- .qas2_q1loop
-                 movdqa  xmm0, [esi + ecx*8]                     ; xmm0 = [1st]
-                 movdqa  xmm3, [esi + ecx*8 + 16]        ; xmm3 = [2nd]
-                 pxor    xmm1, xmm1
                  pxor    xmm4, xmm4
-                 pcmpgtw xmm1, xmm0
+   movdqa xmm1, [_EAX + 16]
-                 pcmpgtw xmm4, xmm3
+   pcmpgtw xmm4,xmm0
-                 pxor    xmm0, xmm1
+   pxor xmm5,xmm5
-                 pxor    xmm3, xmm4
+   psubw xmm0,xmm4
-                 psubw   xmm0, xmm1
+   pcmpgtw xmm5,xmm1
-                 psubw   xmm3, xmm4
+   psraw xmm0,xmm7
-                 psrlw   xmm0, 1
+   psubw xmm1,xmm5
-                 psrlw   xmm3, 1
+   movdqa xmm2,[_EAX+32]
-                 pxor    xmm0, xmm1
+   pxor xmm4,xmm4
-                 pxor    xmm3, xmm4
+   psraw xmm1,xmm7
-                 psubw   xmm0, xmm1
+   pcmpgtw xmm4,xmm2
-                 psubw   xmm3, xmm4
+   pxor xmm5,xmm5
-                 movdqa  [edi + ecx*8], xmm0
+   psubw xmm2,xmm4
-                 movdqa  [edi + ecx*8 + 16], xmm3
+   movdqa xmm3,[_EAX+48]
+   pcmpgtw xmm5,xmm3
-                 add             ecx, 4
+   psraw xmm2,xmm7
-                 cmp             ecx, 16
+   psubw xmm3,xmm5
-                 jnz             .qas2_q1loop
+   movdqa [TMP1], xmm0
-                 jmp             near .qas2_done
+   psraw xmm3,xmm7
+   movdqa [TMP1+16], xmm1
+   movdqa [TMP1+32],xmm2
+   lea _EAX, [_EAX+64]
+   movdqa [TMP1+48],xmm3
+   dec TMP0
+   lea TMP1, [TMP1+64]
+   jne .loop_low
+ .end:
+   pop _EAX
+   mov TMP1, prm1     ; coeff
+   mov [TMP1],ax
+   xor _EAX,_EAX            ; return 0
+   POP_XMM6_XMM7
+   ret
+ ENDFUNC
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
  ;
- ; uint32_t quant_inter_mmx(int16_t * coeff,
+ ; uint32_t quant_h263_inter_mmx(int16_t * coeff,
  ;                                       const int16_t const * data,
- ;                                       const uint32_t quant);
+ ;                               const uint32_t quant,
+ ;                               const uint16_t *mpeg_matrices);
  ;
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
- align ALIGN
+ ALIGN SECTION_ALIGN
- cglobal quant_h263_inter_mmx
  quant_h263_inter_mmx:
-                 push    ecx
+   mov TMP1, prm1           ; coeff
-                 push    esi
+   mov _EAX, prm3           ; quant
-                 push    edi
-                 mov     edi, [esp + 12 + 4]             ; coeff
-                 mov     esi, [esp + 12 + 8]             ; data
-                 mov     eax, [esp + 12 + 12]    ; quant
-                 xor ecx, ecx
                  pxor mm5, mm5                                   ; sum
-                 movq mm6, [mmx_sub + eax * 8 - 8]       ; sub
+   lea TMP0, [mmx_sub]
+   movq mm6, [TMP0 + _EAX * 8 - 8] ; sub
                  cmp     al, 1
-                 jz  .q1loop
+   jz near .q1routine
-                 movq    mm7, [mmx_div + eax * 8 - 8]    ; divider
+   lea TMP0, [mmx_div]
+   movq mm7, [TMP0 + _EAX * 8 - 8] ; divider
- align ALIGN
+   xor TMP0, TMP0
- .loop
+   mov _EAX, prm2           ; data
-                 movq    mm0, [esi + 8*ecx]              ; mm0 = [1st]
-                 movq    mm3, [esi + 8*ecx + 8]  ;
+ ALIGN SECTION_ALIGN
+ .loop:
+   movq mm0, [_EAX + 8*TMP0]           ; mm0 = [1st]
+   movq mm3, [_EAX + 8*TMP0 + 8]
                  pxor    mm1, mm1                ; mm1 = 0
                  pxor    mm4, mm4                ;
                  pcmpgtw mm1, mm0                ; mm1 = (0 > mm0)
-Line 538
+Line 417
                  pxor    mm3, mm4                ;
                  psubw   mm0, mm1                ; undisplace
                  psubw   mm3, mm4
-                 movq    [edi + 8*ecx], mm0
+   movq [TMP1 + 8*TMP0], mm0
-                 movq    [edi + 8*ecx + 8], mm3
+   movq [TMP1 + 8*TMP0 + 8], mm3
-                 add ecx, 2
+   add TMP0, 2
-                 cmp ecx, 16
+   cmp TMP0, 16
                  jnz .loop
- .done
+ .done:
                  pmaddwd mm5, [plus_one]
                  movq    mm0, mm5
                  psrlq   mm5, 32
                  paddd   mm0, mm5
-                 movd    eax, mm0                ; return sum
-                 pop     edi
+   movd eax, mm0     ; return sum
-                 pop     esi
-                 pop ecx
                  ret
- align ALIGN
+ .q1routine:
- .q1loop
+   xor TMP0, TMP0
-                 movq    mm0, [esi + 8*ecx]              ; mm0 = [1st]
+   mov _EAX, prm2           ; data
-                 movq    mm3, [esi + 8*ecx+ 8]           ;
+ ALIGN SECTION_ALIGN
+ .q1loop:
+   movq mm0, [_EAX + 8*TMP0]           ; mm0 = [1st]
+   movq mm3, [_EAX + 8*TMP0+ 8]        ;
                  pxor    mm1, mm1                ; mm1 = 0
                  pxor    mm4, mm4                ;
                  pcmpgtw mm1, mm0                ; mm1 = (0 > mm0)
-Line 580
+Line 460
                  pxor    mm3, mm4                ;
                  psubw   mm0, mm1                ; undisplace
                  psubw   mm3, mm4
-                 movq    [edi + 8*ecx], mm0
+   movq [TMP1 + 8*TMP0], mm0
-                 movq    [edi + 8*ecx + 8], mm3
+   movq [TMP1 + 8*TMP0 + 8], mm3
-                 add ecx,2
+   add TMP0, 2
-                 cmp ecx,16
+   cmp TMP0, 16
                  jnz     .q1loop
                  jmp     .done
+ ENDFUNC
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
  ;
- ; uint32_t quant_inter_sse2(int16_t * coeff,
+ ; uint32_t quant_h263_inter_sse2(int16_t * coeff,
  ;                                       const int16_t const * data,
- ;                                       const uint32_t quant);
+ ;                                const uint32_t quant,
+ ;                                const uint16_t *mpeg_matrices);
  ;
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
- align 16
+ ALIGN SECTION_ALIGN
- cglobal quant_h263_inter_sse2
  quant_h263_inter_sse2:
+   PUSH_XMM6_XMM7
-                 push    esi
+   mov TMP1, prm1      ; coeff
-                 push    edi
+   mov _EAX, prm3      ; quant
-                 mov             edi, [esp + 8 + 4]                      ; coeff
-                 mov             esi, [esp + 8 + 8]                      ; data
-                 mov             eax, [esp + 8 + 12]                     ; quant
-                 xor             ecx, ecx
                  pxor    xmm5, xmm5                                      ; sum
-                 movq    mm0, [mmx_sub + eax*8 - 8]      ; sub
+   lea TMP0, [mmx_sub]
-                 movq2dq xmm6, mm0                                       ; load into low 8 bytes
+   movq xmm6, [TMP0 + _EAX*8 - 8]             ; sub
                  movlhps xmm6, xmm6                                      ; duplicate into high 8 bytes
                  cmp             al, 1
-                 jz              near .qes2_q1loop
+   jz near .qes2_q1_routine
+ .qes2_not1:
+   lea TMP0, [mmx_div]
+   movq xmm7, [TMP0 + _EAX*8 - 8]          ; divider
+   xor TMP0, TMP0
+   mov _EAX, prm2      ; data
- .qes2_not1
-                 movq    mm0, [mmx_div + eax*8 - 8]      ; divider
-                 movq2dq xmm7, mm0
                  movlhps xmm7, xmm7
- align 16
+ ALIGN SECTION_ALIGN
- .qes2_loop
+ .qes2_loop:
-                 movdqa  xmm0, [esi + ecx*8]                     ; xmm0 = [1st]
+   movdqa xmm0, [_EAX + TMP0*8]               ; xmm0 = [1st]
-                 movdqa  xmm3, [esi + ecx*8 + 16]        ; xmm3 = [2nd]
+   movdqa xmm3, [_EAX + TMP0*8 + 16]          ; xmm3 = [2nd]
                  pxor    xmm1, xmm1
                  pxor    xmm4, xmm4
                  pcmpgtw xmm1, xmm0
-Line 648
+Line 528
                  pxor    xmm3, xmm4
                  psubw   xmm0, xmm1
                  psubw   xmm3, xmm4
-                 movdqa  [edi + ecx*8], xmm0
+   movdqa [TMP1 + TMP0*8], xmm0
-                 movdqa  [edi + ecx*8 + 16], xmm3
+   movdqa [TMP1 + TMP0*8 + 16], xmm3
-                 add             ecx, 4
+   add TMP0, 4
-                 cmp             ecx, 16
+   cmp TMP0, 16
                  jnz             .qes2_loop
- .qes2_done
+ .qes2_done:
-                 movdqu  xmm6, [plus_one]
+   movdqa xmm6, [plus_one]
                  pmaddwd xmm5, xmm6
                  movhlps xmm6, xmm5
                  paddd   xmm5, xmm6
-Line 665
+Line 545
                  movq    mm5, mm0
                  psrlq   mm5, 32
                  paddd   mm0, mm5
-                 movd    eax, mm0                                        ; return sum
-                 pop             edi
+   movd eax, mm0         ; return sum
-                 pop             esi
+   POP_XMM6_XMM7
                  ret
- align 16
+ .qes2_q1_routine:
- .qes2_q1loop
+   xor TMP0, TMP0
-                 movdqa  xmm0, [esi + ecx*8]                     ; xmm0 = [1st]
+   mov _EAX, prm2      ; data
-                 movdqa  xmm3, [esi + ecx*8 + 16]        ; xmm3 = [2nd]
+ ALIGN SECTION_ALIGN
+ .qes2_q1loop:
+   movdqa xmm0, [_EAX + TMP0*8]        ; xmm0 = [1st]
+   movdqa xmm3, [_EAX + TMP0*8 + 16]   ; xmm3 = [2nd]
                  pxor    xmm1, xmm1
                  pxor    xmm4, xmm4
                  pcmpgtw xmm1, xmm0
-Line 694
+Line 577
                  pxor    xmm3, xmm4
                  psubw   xmm0, xmm1
                  psubw   xmm3, xmm4
-                 movdqa  [edi + ecx*8], xmm0
+   movdqa [TMP1 + TMP0*8], xmm0
-                 movdqa  [edi + ecx*8 + 16], xmm3
+   movdqa [TMP1 + TMP0*8 + 16], xmm3
-                 add             ecx,4
+   add TMP0, 4
-                 cmp             ecx,16
+   cmp TMP0, 16
                  jnz             .qes2_q1loop
                  jmp             .qes2_done
+ ENDFUNC
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
  ;
- ; void dequant_intra_mmx(int16_t *data,
+ ; uint32_t dequant_h263_intra_mmx(int16_t *data,
  ;                                       const int16_t const *coeff,
  ;                                       const uint32_t quant,
- ;                                       const uint32_t dcscalar);
+ ;                                 const uint32_t dcscalar,
+ ;                                 const uint16_t *mpeg_matrices);
  ;
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
-   ; note: we only saturate to +2047 *before* restoring the sign.
-   ; Hence, final clamp really is [-2048,2047]
- align ALIGN
+ ALIGN SECTION_ALIGN
- cglobal dequant_h263_intra_mmx
  dequant_h263_intra_mmx:
-   mov    edx, [esp+ 4]        ; data
+   mov TMP0, prm3                 ; quant
-   mov    ecx, [esp+ 8]        ; coeff
+   mov _EAX, prm2                 ; coeff
-   mov    eax, [esp+12]        ; quant
+   pcmpeqw mm0,mm0
-   movq mm6, [mmx_add + eax*8 - 8]  ; quant or quant-1
+   lea TMP1, [mmx_quant]
-   movq mm7, [mmx_mul + eax*8 - 8]  ; 2*quant
+   movq mm6, [TMP1 + TMP0*8] ; quant
-   mov eax, -16
+   shl TMP0,31                    ; quant & 1 ? 0 : - 1
+   movq mm7,mm6
- align ALIGN
+   movq mm5,mm0
- .loop
+   movd mm1,TMP0d
-   movq mm0, [ecx+8*eax+8*16]      ; c  = coeff[i]
+   mov TMP1, prm1                 ; data
-   movq mm3, [ecx+8*eax+8*16 + 8]  ; c' = coeff[i+1]
+   psllw mm0,mm1
-   pxor mm1, mm1
+   paddw mm7,mm7                  ; 2*quant
+   paddw mm6,mm0                  ; quant-1
+   psllw mm5,12
+   mov TMP0,8
+   psrlw mm5,1
+ .loop:
+   movq mm0,[_EAX]
+   pxor mm2,mm2
    pxor mm4, mm4
-   pcmpgtw mm1, mm0  ; sign(c)
+   pcmpgtw mm2,mm0
-   pcmpgtw mm4, mm3  ; sign(c')
+   pcmpeqw mm4,mm0
+   pmullw mm0,mm7      ; * 2 * quant
+   movq mm1,[_EAX+8]
+   psubw mm0,mm2
+   pxor mm2,mm6
+   pxor mm3,mm3
+   pandn mm4,mm2
    pxor mm2, mm2
-   pxor mm5, mm5
+   pcmpgtw mm3,mm1
-   pcmpeqw mm2, mm0  ; c is zero
+   pcmpeqw mm2,mm1
-   pcmpeqw mm5, mm3  ; c' is zero
+   pmullw mm1,mm7
-   pandn mm2, mm6    ; offset = isZero ? 0 : quant_add
+   paddw mm0,mm4
-   pandn mm5, mm6
+   psubw mm1,mm3
-   pxor mm0, mm1     ; negate if negative
+   pxor mm3,mm6
-   pxor mm3, mm4     ; negate if negative
+   pandn mm2,mm3
-   psubw mm0, mm1
+   paddsw mm0, mm5        ; saturate
-   psubw mm3, mm4
+   paddw mm1,mm2
-   pmullw mm0, mm7 ; *= 2Q
-   pmullw mm3, mm7 ; *= 2Q
+   paddsw mm1, mm5
-   paddw mm0, mm2 ; + offset
+   psubsw mm0, mm5
-   paddw mm3, mm5 ; + offset
+   psubsw mm1, mm5
-   paddw mm0, mm1 ; negate back
+   psubsw mm0, mm5
-   paddw mm3, mm4 ; negate back
+   psubsw mm1, mm5
+   paddsw mm0, mm5
-     ; saturates to +2047
+   paddsw mm1, mm5
-   movq mm2, [mmx_32767_minus_2047]
-   add eax, 2
+   movq [TMP1],mm0
-   paddsw mm0, mm2
+   lea _EAX,[_EAX+16]
-   paddsw mm3, mm2
+   movq [TMP1+8],mm1
-   psubsw mm0, mm2
-   psubsw mm3, mm2
+   dec TMP0
+   lea TMP1,[TMP1+16]
-   pxor mm0, mm1
+   jne .loop
-   pxor mm3, mm4
-   movq [edx + 8*eax + 8*16   - 2*8], mm0
-   movq [edx + 8*eax + 8*16+8 - 2*8], mm3
-   jnz   near .loop
      ; deal with DC
+   mov _EAX, prm2               ; coeff
-   movd mm0, [ecx]
+   movd mm1,prm4d                ; dcscalar
-   pmullw mm0, [esp+16]    ; dcscalar
+   movd mm0,[_EAX]                   ; coeff[0]
-   movq mm2, [mmx_32767_minus_2047]
+   pmullw mm0,mm1                   ; * dcscalar
-   paddsw mm0, mm2
+   mov TMP1, prm1               ; data
-   psubsw mm0, mm2
+   paddsw mm0, mm5                  ; saturate +
-   movq mm3, [mmx_32768_minus_2048]
+   psubsw mm0, mm5
-   psubsw mm0, mm3
+   psubsw mm0, mm5                  ; saturate -
-   paddsw mm0, mm3
+   paddsw mm0, mm5
    movd eax, mm0
-   mov [edx], ax
+   mov [TMP1], ax
+   xor _EAX, _EAX                    ; return 0
    ret
+ ENDFUNC
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
  ;
- ; void dequant_intra_xmm(int16_t *data,
+ ; uint32_t dequant_h263_intra_xmm(int16_t *data,
  ;                                       const int16_t const *coeff,
  ;                                       const uint32_t quant,
- ;                                       const uint32_t dcscalar);
+ ;                                 const uint32_t dcscalar,
+ ;                                 const uint16_t *mpeg_matrices);
  ;
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
-   ; this is the same as dequant_inter_mmx, except that we're
-   ; saturating using 'pminsw' (saves 2 cycles/loop => ~5% faster)
- align ALIGN
+ ALIGN SECTION_ALIGN
- cglobal dequant_h263_intra_xmm
  dequant_h263_intra_xmm:
-   mov    edx, [esp+ 4]        ; data
+   mov TMP0, prm3                 ; quant
-   mov    ecx, [esp+ 8]        ; coeff
+   mov _EAX, prm2                 ; coeff
-   mov    eax, [esp+12]        ; quant
-   movq mm6, [mmx_add + eax*8 - 8]  ; quant or quant-1
+   movd mm6,TMP0d                  ; quant
-   movq mm7, [mmx_mul + eax*8 - 8]  ; 2*quant
+   pcmpeqw mm0,mm0
-   mov eax, -16
+   pshufw mm6,mm6,0               ; all quant
+   shl TMP0,31
- align ALIGN
+   movq mm5,mm0
- .loop
+   movq mm7,mm6
-   movq mm0, [ecx+8*eax+8*16]      ; c  = coeff[i]
+   movd mm1,TMP0d
-   movq mm3, [ecx+8*eax+8*16 + 8]  ; c' = coeff[i+1]
+   mov TMP1, prm1                 ; data
-   pxor mm1, mm1
+   psllw mm0,mm1                  ; quant & 1 ? 0 : - 1
-   pxor mm4, mm4
+   movq mm4,mm5
-   pcmpgtw mm1, mm0  ; sign(c)
+   paddw mm7,mm7                  ; quant*2
-   pcmpgtw mm4, mm3  ; sign(c')
+   paddw mm6,mm0                  ; quant-1
+   psrlw mm4,5                    ; mm4=2047
+   mov TMP0,8
+   pxor mm5,mm4                   ; mm5=-2048
+ .loop:
+   movq mm0,[_EAX]
    pxor mm2, mm2
-   pxor mm5, mm5
+   pxor mm3,mm3
-   pcmpeqw mm2, mm0  ; c is zero
-   pcmpeqw mm5, mm3  ; c' is zero
-   pandn mm2, mm6    ; offset = isZero ? 0 : quant_add
-   pandn mm5, mm6
-   pxor mm0, mm1     ; negate if negative
-   pxor mm3, mm4     ; negate if negative
-   psubw mm0, mm1
-   psubw mm3, mm4
-   pmullw mm0, mm7 ; *= 2Q
-   pmullw mm3, mm7 ; *= 2Q
-   paddw mm0, mm2 ; + offset
-   paddw mm3, mm5 ; + offset
-   paddw mm0, mm1 ; negate back
-   paddw mm3, mm4 ; negate back
-     ; saturates to +2047
-   movq mm2, [mmx_2047]
-   pminsw mm0, mm2
-   add eax, 2
-   pminsw mm3, mm2
-   pxor mm0, mm1
-   pxor mm3, mm4
-   movq [edx + 8*eax + 8*16   - 2*8], mm0
-   movq [edx + 8*eax + 8*16+8 - 2*8], mm3
-   jnz   near .loop
-     ; deal with DC
+   pcmpgtw mm2,mm0
+   pcmpeqw mm3,mm0     ; if coeff==0...
+   pmullw mm0,mm7      ; * 2 * quant
+   movq mm1,[_EAX+8]
+   psubw mm0,mm2
+   pxor mm2,mm6
+   pandn mm3,mm2       ; ...then data=0
+   pxor mm2,mm2
+   paddw mm0,mm3
+   pxor mm3,mm3
+   pcmpeqw mm2,mm1
+   pcmpgtw mm3,mm1
+   pmullw mm1,mm7
+   pminsw mm0,mm4
+   psubw mm1,mm3
+   pxor mm3,mm6
+   pandn mm2,mm3
+   paddw mm1,mm2
+   pmaxsw mm0,mm5
+   pminsw mm1,mm4
+   movq [TMP1],mm0
+   pmaxsw mm1,mm5
+   lea _EAX,[_EAX+16]
+   movq [TMP1+8],mm1
+   dec TMP0
+   lea TMP1,[TMP1+16]
+   jne .loop
-   movd mm0, [ecx]
+    ; deal with DC
-   pmullw mm0, [esp+16]    ; dcscalar
+   mov _EAX, prm2                ; coeff
-   movq mm2, [mmx_32767_minus_2047]
+   movd mm1,prm4d                 ; dcscalar
-   paddsw mm0, mm2
+   movd mm0, [_EAX]
-   psubsw mm0, mm2
+   pmullw mm0, mm1
-   movq mm2, [mmx_32768_minus_2048]
+   mov TMP1, prm1                ; data
-   psubsw mm0, mm2
+   pminsw mm0,mm4
-   paddsw mm0, mm2
+   pmaxsw mm0,mm5
    movd eax, mm0
-   mov [edx], ax
+   mov [TMP1], ax
+   xor _EAX, _EAX                ; return 0
    ret
+ ENDFUNC
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
  ;
- ; void dequant_intra_sse2(int16_t *data,
+ ; uint32_t dequant_h263_intra_sse2(int16_t *data,
  ;                                       const int16_t const *coeff,
  ;                                       const uint32_t quant,
- ;                                       const uint32_t dcscalar);
+ ;                                  const uint32_t dcscalar,
+ ;                                  const uint16_t *mpeg_matrices);
  ;
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
- align ALIGN
- cglobal dequant_h263_intra_sse2
+ ALIGN SECTION_ALIGN
  dequant_h263_intra_sse2:
-         mov edx, [esp+ 4]        ; data
+   PUSH_XMM6_XMM7
-         mov ecx, [esp+ 8]        ; coeff
-         mov eax, [esp+12]        ; quant
-         movq mm6, [mmx_add + eax * 8 - 8]
-         movq mm7, [mmx_mul + eax * 8 - 8]
-         movq2dq xmm6, mm6
-         movq2dq xmm7, mm7
-         movlhps xmm6, xmm6
-         movlhps xmm7, xmm7
-         mov eax, -16
- align ALIGN
+   mov TMP0, prm3                 ; quant
- .loop
+   mov _EAX, prm2                 ; coeff
-         movdqa xmm0, [ecx + 8*16 + 8*eax]      ; c  = coeff[i]
-         movdqa xmm3, [ecx + 8*16 + 8*eax+ 16]
+   movd xmm6,TMP0d                     ; quant
-         pxor xmm1, xmm1
-         pxor xmm4, xmm4
+   shl TMP0,31
-         pcmpgtw xmm1, xmm0  ; sign(c)
+   pshuflw xmm6,xmm6,0
-         pcmpgtw xmm4, xmm3
+   pcmpeqw xmm0,xmm0
+   movlhps xmm6,xmm6                 ; all quant
+   movd xmm1,TMP0d
+   movdqa xmm5,xmm0
+   movdqa xmm7,xmm6
+   mov TMP1, prm1                 ; data
+   paddw xmm7,xmm7                   ; quant *2
+   psllw xmm0,xmm1                   ; quant & 1 ? 0 : - 1
+   movdqa xmm4,xmm5
+   paddw xmm6,xmm0                   ; quant-1
+   psrlw xmm4,5                      ; 2047
+   mov TMP0,4
+   pxor xmm5,xmm4                    ; mm5=-2048
+ .loop:
+   movdqa xmm0,[_EAX]
          pxor xmm2, xmm2
-         pxor xmm5, xmm5
+   pxor xmm3,xmm3
-         pcmpeqw xmm2, xmm0  ; c is zero
-         pcmpeqw xmm5, xmm3
-         pandn xmm2, xmm6    ; offset = isZero ? 0 : quant_add
-         pandn xmm5, xmm6
-         pxor xmm0, xmm1     ; negate if negative
-         pxor xmm3, xmm4
-         psubw xmm0, xmm1
-         psubw xmm3, xmm4
-         pmullw xmm0, xmm7 ; *= 2Q
-         pmullw xmm3, xmm7
-         paddw xmm0, xmm2 ; + offset
-         paddw xmm3, xmm5
-         paddw xmm0, xmm1 ; negate back
-         paddw xmm3, xmm4
-         ; saturates to +2047
-         movdqa xmm2, [sse2_2047]
-         pminsw xmm0, xmm2
-         add eax, 4
-         pminsw xmm3, xmm2
-         pxor xmm0, xmm1
+   pcmpgtw xmm2,xmm0
-         pxor xmm3, xmm4
+   pcmpeqw xmm3,xmm0
-         movdqa [edx + 8*16 - 8*4 + 8*eax], xmm0
+   pmullw xmm0,xmm7      ; * 2 * quant
-         movdqa [edx + 8*16 - 8*4 + 8*eax + 16], xmm3
+   movdqa xmm1,[_EAX+16]
-         jnz     near .loop
+   psubw xmm0,xmm2
+   pxor xmm2,xmm6
+   pandn xmm3,xmm2
+   pxor xmm2,xmm2
+   paddw xmm0,xmm3
+   pxor xmm3,xmm3
+   pcmpeqw xmm2,xmm1
+   pcmpgtw xmm3,xmm1
+   pmullw xmm1,xmm7
+   pminsw xmm0,xmm4
+   psubw xmm1,xmm3
+   pxor xmm3,xmm6
+   pandn xmm2,xmm3
+   paddw xmm1,xmm2
+   pmaxsw xmm0,xmm5
+   pminsw xmm1,xmm4
+   movdqa [TMP1],xmm0
+   pmaxsw xmm1,xmm5
+   lea _EAX,[_EAX+32]
+   movdqa [TMP1+16],xmm1
+   dec TMP0
+   lea TMP1,[TMP1+32]
+   jne .loop
          ; deal with DC
-         movd mm0, [ecx]
-         pmullw mm0, [esp+16]    ; dcscalar
-         movq mm2, [mmx_32767_minus_2047]
-         paddsw mm0, mm2
-         psubsw mm0, mm2
-         movq mm2, [mmx_32768_minus_2048]
-         psubsw mm0, mm2
-         paddsw mm0, mm2
-         movd eax, mm0
-         mov [edx], ax
-         ret
+   mov _EAX, prm2             ; coeff
+   movsx _EAX,word [_EAX]
+   imul prm4d                 ; dcscalar
+   mov TMP1, prm1             ; data
+   movd xmm0,eax
+   pminsw xmm0,xmm4
+   pmaxsw xmm0,xmm5
+   movd eax,xmm0
+   mov [TMP1], ax
+   xor _EAX, _EAX                  ; return 0
+   POP_XMM6_XMM7
+   ret
+ ENDFUNC
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
  ;
- ; void dequant_inter_mmx(int16_t * data,
+ ; uint32t dequant_h263_inter_mmx(int16_t * data,
  ;                                       const int16_t * const coeff,
- ;                                       const uint32_t quant);
+ ;                                const uint32_t quant,
+ ;                                const uint16_t *mpeg_matrices);
  ;
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
- align ALIGN
+ ALIGN SECTION_ALIGN
- cglobal dequant_h263_inter_mmx
  dequant_h263_inter_mmx:
-   mov    edx, [esp+ 4]        ; data
+   mov TMP0, prm3                 ; quant
-   mov    ecx, [esp+ 8]        ; coeff
+   mov _EAX, prm2                 ; coeff
-   mov    eax, [esp+12]        ; quant
+   pcmpeqw mm0,mm0
-   movq mm6, [mmx_add + eax*8 - 8]  ; quant or quant-1
+   lea TMP1, [mmx_quant]
-   movq mm7, [mmx_mul + eax*8 - 8]  ; 2*quant
+   movq mm6, [TMP1 + TMP0*8]      ; quant
-   mov eax, -16
+   shl TMP0,31                    ; odd/even
+   movq mm7,mm6
- align ALIGN
+   movd mm1,TMP0d
- .loop
+   mov TMP1, prm1                 ; data
-   movq mm0, [ecx+8*eax+8*16]      ; c  = coeff[i]
+   movq mm5,mm0
-   movq mm3, [ecx+8*eax+8*16 + 8]  ; c' = coeff[i+1]
+   psllw mm0,mm1                  ; quant & 1 ? 0 : - 1
-   pxor mm1, mm1
+   paddw mm7,mm7                  ; quant*2
+   paddw mm6,mm0                  ; quant & 1 ? quant : quant - 1
+   psllw mm5,12
+   mov TMP0,8
+   psrlw mm5,1                    ; 32767-2047 (32768-2048)
+ .loop:
+   movq mm0,[_EAX]
    pxor mm4, mm4
-   pcmpgtw mm1, mm0  ; sign(c)
-   pcmpgtw mm4, mm3  ; sign(c')
    pxor mm2, mm2
-   pxor mm5, mm5
+   pcmpeqw mm4,mm0     ; if coeff==0...
-   pcmpeqw mm2, mm0  ; c is zero
+   pcmpgtw mm2,mm0
-   pcmpeqw mm5, mm3  ; c' is zero
+   pmullw mm0,mm7      ; * 2 * quant
-   pandn mm2, mm6    ; offset = isZero ? 0 : quant_add
+   pxor mm3,mm3
-   pandn mm5, mm6
+   psubw mm0,mm2
-   pxor mm0, mm1     ; negate if negative
+   movq mm1,[_EAX+8]
-   pxor mm3, mm4     ; negate if negative
+   pxor mm2,mm6
-   psubw mm0, mm1
+   pcmpgtw mm3,mm1
-   psubw mm3, mm4
+   pandn mm4,mm2      ; ... then data==0
-   pmullw mm0, mm7 ; *= 2Q
+   pmullw mm1,mm7
-   pmullw mm3, mm7 ; *= 2Q
+   pxor mm2,mm2
-   paddw mm0, mm2 ; + offset
+   pcmpeqw mm2,mm1
-   paddw mm3, mm5 ; + offset
+   psubw mm1,mm3
-   paddw mm0, mm1 ; negate back
+   pxor mm3,mm6
-   paddw mm3, mm4 ; negate back
+   pandn mm2,mm3
+   paddw mm0,mm4
-     ; saturates to +2047
+   paddw mm1,mm2
-   movq mm2, [mmx_32767_minus_2047]
-   add eax, 2
+   paddsw mm0, mm5        ; saturate
-   paddsw mm0, mm2
+   paddsw mm1, mm5
-   paddsw mm3, mm2
+   psubsw mm0, mm5
-   psubsw mm0, mm2
+   psubsw mm1, mm5
-   psubsw mm3, mm2
+   psubsw mm0, mm5
+   psubsw mm1, mm5
-   pxor mm0, mm1
+   paddsw mm0, mm5
-   pxor mm3, mm4
+   paddsw mm1, mm5
-   movq [edx + 8*eax + 8*16   - 2*8], mm0
-   movq [edx + 8*eax + 8*16+8 - 2*8], mm3
+   movq [TMP1],mm0
-   jnz   near .loop
+   lea _EAX,[_EAX+16]
+   movq [TMP1+8],mm1
+   dec TMP0
+   lea TMP1,[TMP1+16]
+   jne .loop
+   xor _EAX, _EAX              ; return 0
    ret
+ ENDFUNC
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
  ;
- ; void dequant_inter_xmm(int16_t * data,
+ ; uint32_t dequant_h263_inter_xmm(int16_t * data,
  ;                                       const int16_t * const coeff,
- ;                                       const uint32_t quant);
+ ;                                 const uint32_t quant,
+ ;                                 const uint16_t *mpeg_matrices);
  ;
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
+ ALIGN SECTION_ALIGN
-   ; this is the same as dequant_inter_mmx,
-   ; except that we're saturating using 'pminsw' (saves 2 cycles/loop)
- align ALIGN
- cglobal dequant_h263_inter_xmm
  dequant_h263_inter_xmm:
-   mov    edx, [esp+ 4]        ; data
+   mov TMP0, prm3                 ; quant
-   mov    ecx, [esp+ 8]        ; coeff
+   mov _EAX, prm2                 ; coeff
-   mov    eax, [esp+12]        ; quant
+   pcmpeqw mm0,mm0
-   movq mm6, [mmx_add + eax*8 - 8]  ; quant or quant-1
+   lea TMP1, [mmx_quant]
-   movq mm7, [mmx_mul + eax*8 - 8]  ; 2*quant
+   movq mm6, [TMP1 + TMP0*8]      ; quant
-   mov eax, -16
+   shl TMP0,31
+   movq mm5,mm0
- align ALIGN
+   movd mm1,TMP0d
- .loop
+   movq mm7,mm6
-   movq mm0, [ecx+8*eax+8*16]      ; c  = coeff[i]
+   psllw mm0,mm1
-   movq mm3, [ecx+8*eax+8*16 + 8]  ; c' = coeff[i+1]
+   mov TMP1, prm1                 ; data
-   pxor mm1, mm1
+   movq mm4,mm5
-   pxor mm4, mm4
+   paddw mm7,mm7
-   pcmpgtw mm1, mm0  ; sign(c)
+   paddw mm6,mm0                     ; quant-1
-   pcmpgtw mm4, mm3  ; sign(c')
+   psrlw mm4,5
+   mov TMP0,8
+   pxor mm5,mm4                      ; mm5=-2048
+ .loop:
+   movq mm0,[_EAX]
+   pxor mm3,mm3
    pxor mm2, mm2
-   pxor mm5, mm5
+   pcmpeqw mm3,mm0
-   pcmpeqw mm2, mm0  ; c is zero
+   pcmpgtw mm2,mm0
-   pcmpeqw mm5, mm3  ; c' is zero
+   pmullw mm0,mm7                    ; * 2 * quant
-   pandn mm2, mm6    ; offset = isZero ? 0 : quant_add
+   pandn mm3,mm6
-   pandn mm5, mm6
+   movq mm1,[_EAX+8]
-   pxor mm0, mm1     ; negate if negative
+   psubw mm0,mm2
-   pxor mm3, mm4     ; negate if negative
+   pxor mm2,mm3
-   psubw mm0, mm1
+   pxor mm3,mm3
-   psubw mm3, mm4
+   paddw mm0,mm2
-   pmullw mm0, mm7 ; *= 2Q
+   pxor mm2,mm2
-   pmullw mm3, mm7 ; *= 2Q
+   pcmpgtw mm3,mm1
-   paddw mm0, mm2 ; + offset
+   pcmpeqw mm2,mm1
-   paddw mm3, mm5 ; + offset
+   pmullw mm1,mm7
-   paddw mm0, mm1 ; start restoring sign
+   pandn mm2,mm6
-   paddw mm3, mm4 ; start restoring sign
+   psubw mm1,mm3
+   pxor mm3,mm2
-       ; saturates to +2047
+   paddw mm1,mm3
-   movq mm2, [mmx_2047]
-   pminsw mm0, mm2
+   pminsw mm0,mm4
-   add eax, 2
+   pminsw mm1,mm4
-   pminsw mm3, mm2
+   pmaxsw mm0,mm5
+   pmaxsw mm1,mm5
-   pxor mm0, mm1 ; finish restoring sign
-   pxor mm3, mm4 ; finish restoring sign
+   movq [TMP1],mm0
-   movq [edx + 8*eax + 8*16   - 2*8], mm0
+   lea _EAX,[_EAX+16]
-   movq [edx + 8*eax + 8*16+8 - 2*8], mm3
+   movq [TMP1+8],mm1
-   jnz   near .loop
+   dec TMP0
+   lea TMP1,[TMP1+16]
+   jne .loop
+   xor _EAX, _EAX              ; return 0
    ret
+ ENDFUNC
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
  ;
- ; void dequant_inter_sse2(int16_t * data,
+ ; uint32_t dequant_h263_inter_sse2(int16_t * data,
  ;                                       const int16_t * const coeff,
- ;                                       const uint32_t quant);
+ ;                                  const uint32_t quant,
+ ;                                  const uint16_t *mpeg_matrices);
  ;
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
- align ALIGN
- cglobal dequant_h263_inter_sse2
+ ALIGN SECTION_ALIGN
  dequant_h263_inter_sse2:
-         mov edx, [esp + 4]      ; data
+   PUSH_XMM6_XMM7
-         mov ecx, [esp + 8]      ; coeff
-         mov eax, [esp + 12]     ; quant
-         movq mm6, [mmx_add + eax * 8 - 8]
-         movq mm7, [mmx_mul + eax * 8 - 8]
-         movq2dq xmm6, mm6
-         movq2dq xmm7, mm7
-         movlhps xmm6, xmm6
-         movlhps xmm7, xmm7
-         mov eax, -16
- align ALIGN
+   mov TMP0, prm3                 ; quant
- .loop
+   mov _EAX, prm2                 ; coeff
-         movdqa xmm0, [ecx + 8*16 + 8*eax]  ; c  = coeff[i]
-         movdqa xmm3, [ecx + 8*16 + 8*eax + 16]
-         pxor xmm1, xmm1
+   lea TMP1, [mmx_quant]
-         pxor xmm4, xmm4
+   movq xmm6, [TMP1 + TMP0*8]    ; quant
-         pcmpgtw xmm1, xmm0  ; sign(c)
+   inc TMP0
-         pcmpgtw xmm4, xmm3
+   pcmpeqw xmm5,xmm5
+   and TMP0,1
+   movlhps xmm6,xmm6
+   movd xmm0,TMP0d
+   movdqa xmm7,xmm6
+   pshuflw xmm0,xmm0,0
+   movdqa xmm4,xmm5
+   mov TMP1, prm1                 ; data
+   movlhps xmm0,xmm0
+   paddw xmm7,xmm7
+   psubw xmm6,xmm0
+   psrlw xmm4,5   ; 2047
+   mov TMP0,4
+   pxor xmm5,xmm4 ; mm5=-2048
+ .loop:
+   movdqa xmm0,[_EAX]
+   pxor xmm3,xmm3
          pxor xmm2, xmm2
-         pxor xmm5, xmm5
+   pcmpeqw xmm3,xmm0
-         pcmpeqw xmm2, xmm0  ; c is zero
+   pcmpgtw xmm2,xmm0
-         pcmpeqw xmm5, xmm3
+   pmullw xmm0,xmm7      ; * 2 * quant
+   pandn xmm3,xmm6
+   movdqa xmm1,[_EAX+16]
+   psubw xmm0,xmm2
+   pxor xmm2,xmm3
+   pxor xmm3,xmm3
+   paddw xmm0,xmm2
+   pxor xmm2,xmm2
+   pcmpgtw xmm3,xmm1
+   pcmpeqw xmm2,xmm1
+   pmullw xmm1,xmm7
          pandn xmm2, xmm6
-         pandn xmm5, xmm6
+   psubw xmm1,xmm3
-         pxor xmm0, xmm1  ; negate if negative
+   pxor xmm3,xmm2
-         pxor xmm3, xmm4
+   paddw xmm1,xmm3
-         psubw xmm0, xmm1
-         psubw xmm3, xmm4
+   pminsw xmm0,xmm4
-         pmullw xmm0, xmm7  ; *= 2Q
+   pminsw xmm1,xmm4
-         pmullw xmm3, xmm7
+   pmaxsw xmm0,xmm5
-         paddw xmm0, xmm2  ; + offset
+   pmaxsw xmm1,xmm5
-         paddw xmm3, xmm5
+   movdqa [TMP1],xmm0
-         paddw xmm0, xmm1  ; start restoring sign
+   lea _EAX,[_EAX+32]
-         paddw xmm3, xmm4
+   movdqa [TMP1+16],xmm1
-         ; saturates to +2047
+   dec TMP0
-         movdqa xmm2, [sse2_2047]
+   lea TMP1,[TMP1+32]
-         pminsw xmm0, xmm2
+   jne .loop
-         add eax, 4
-         pminsw xmm3, xmm2
-         pxor xmm0, xmm1 ; finish restoring sign
+   xor _EAX, _EAX              ; return 0
-         pxor xmm3, xmm4
-         movdqa [edx + 8*16 - 8*4 + 8*eax], xmm0
-         movdqa [edx + 8*16 - 8*4 + 8*eax + 16], xmm3
-         jnz     near .loop
+   POP_XMM6_XMM7
          ret
+ ENDFUNC
+ %ifidn __OUTPUT_FORMAT__,elf
+ section ".note.GNU-stack" noalloc noexec nowrite progbits
+ %endif

 Legend:



Removed from v.1.1.2.1
 


changed lines


 
Added in v.1.15
 Legend:



Removed from v.1.1.2.1
 


changed lines


 
Added in v.1.15
-Removed from v.1.1.2.1
+Added in v.1.15

No admin address has been configured	ViewVC Help
Powered by ViewVC 1.0.4