Diff of /xvidcore/src/quant/x86_asm/quantize_mpeg_xmm.asm

-revision 1.1.2.5, Sun Nov 30 16:13:16 2003 UTC
+revision 1.13, Wed Sep 16 17:07:58 2009 UTC
 Line 29
  %define SATURATE
- BITS 32
+ %include "nasm.inc"
- %macro cglobal 1
-         %ifdef PREFIX
-                 global _%1
-                 %define %1 _%1
-         %else
-                 global %1
-         %endif
- %endmacro
- %macro cextern 1
-         %ifdef PREFIX
-                 extern _%1
-                 %define %1 _%1
-         %else
-                 extern %1
-         %endif
- %endmacro
  ;=============================================================================
  ; Local data
  ;=============================================================================
- %ifdef FORMAT_COFF
+ DATA
- SECTION .rodata data
- %else
- SECTION .rodata data align=16
- %endif
- ALIGN 8
+ ALIGN SECTION_ALIGN
  mmzero:
          dd 0,0
  mmx_one:
-Line 69
+Line 47
  ; divide by 2Q table
  ;-----------------------------------------------------------------------------
- ALIGN 16
+ ALIGN SECTION_ALIGN
  mmx_divs:               ;i>2
  %assign i 1
  %rep 31
-Line 77
+Line 55
          %assign i i+1
  %endrep
- ALIGN 16
+ ALIGN SECTION_ALIGN
  mmx_div:                ;quant>2
          times 4 dw 65535 ; the div by 2 formula will overflow for the case
                           ; quant=1 but we don't care much because quant=1
-Line 93
+Line 71
  dw (1 << 16) / (%1) + 1
  %endmacro
+ %ifndef ARCH_IS_X86_64
  %define nop4    db      08Dh, 074h, 026h,0
- %define nop3    add     esp, byte 0
- %define nop2    mov     esp, esp
  %define nop7    db      08dh, 02ch, 02dh,0,0,0,0
- %define nop6    add     ebp, dword 0
+ %else
+ %define nop4
+ %define nop7
+ %endif
+ %define nop3    add     _ESP, byte 0
+ %define nop2    mov     _ESP, _ESP
+ %define nop6    add     _EBP, dword 0
  ;-----------------------------------------------------------------------------
  ; quantd table
-Line 106
+Line 89
  %define VM18P   3
  %define VM18Q   4
- ALIGN 16
+ ALIGN SECTION_ALIGN
  quantd:
  %assign i 1
  %rep 31
-Line 118
+Line 101
  ; multiple by 2Q table
  ;-----------------------------------------------------------------------------
- ALIGN 16
+ ALIGN SECTION_ALIGN
  mmx_mul_quant:
  %assign i 1
  %rep 31
-Line 130
+Line 113
  ; saturation limits
  ;-----------------------------------------------------------------------------
- ALIGN 16
+ ALIGN SECTION_ALIGN
  mmx_32767_minus_2047:
          times 4 dw (32767-2047)
  mmx_32768_minus_2048:
-Line 154
+Line 137
  ; Code
  ;=============================================================================
- SECTION .text
+ TEXT
- cglobal quant_mpeg_intra_xmm
  cglobal quant_mpeg_inter_xmm
  cglobal dequant_mpeg_intra_3dne
  cglobal dequant_mpeg_inter_3dne
  ;-----------------------------------------------------------------------------
  ;
- ; uint32_t quant_mpeg_intra_xmm(int16_t * coeff,
- ;                               const int16_t const * data,
- ;                               const uint32_t quant,
- ;                               const uint32_t dcscalar,
- ;                               const uint16_t *mpeg_matrices);
- ;
- ;-----------------------------------------------------------------------------
- ALIGN 16
- quant_mpeg_intra_xmm:
-   mov eax, [esp  + 8]       ; data
-   mov ecx, [esp  + 12]      ; quant
-   mov edx, [esp  + 4]       ; coeff
-   push esi
-   push edi
-   push ebx
-   nop
-   mov edi, [esp + 12 + 20]              ; mpeg_quant_matrices
-   mov esi, -14
-   pxor mm0, mm0
-   pxor mm3, mm3
-   cmp ecx, byte 1
-   je near .q1loop
-   cmp ecx, byte 19
-   jg near .lloop
-   nop6
- ALIGN 16
- .loop
-   movq mm1, [eax + 8*esi+112]   ; mm0 = [1st]
-   psubw mm0, mm1                ;-mm1
-   movq mm4, [eax + 8*esi + 120] ;
-   psubw mm3, mm4                ;-mm4
-   pmaxsw mm0, mm1               ;|src|
-   pmaxsw mm3,mm4
-   nop2
-   psraw mm1, 15     ;sign src
-   psraw mm4, 15
-   psllw mm0, 4      ;level << 4 ;
-   psllw mm3, 4
-   paddw mm0, [edi + 128 + 8*esi+112]
-   paddw mm3, [edi + 128 + 8*esi+120]
-   movq mm5, [edi + 384 + 8*esi+112]
-   movq mm7, [edi + 384 + 8*esi+120]
-   pmulhuw mm5, mm0
-   pmulhuw mm7, mm3
-   mov esp, esp
-   movq mm2, [edi + 8*esi+112]
-   movq mm6, [edi + 8*esi+120]
-   pmullw mm2, mm5
-   pmullw mm6, mm7
-   psubw mm0, mm2
-   psubw mm3, mm6
-   nop4
-   movq mm2, [quantd + ecx * 8 - 8]
-   movq mm6, [mmx_divs + ecx * 8 - 8]
-   paddw mm5, mm2
-   paddw mm7, mm2
-   mov esp, esp
-   pmulhuw mm0, [edi + 256 + 8*esi+112]
-   pmulhuw mm3, [edi + 256 + 8*esi+120]
-   paddw mm5, mm0
-   paddw mm7, mm3
-   pxor mm0, mm0
-   pxor mm3, mm3
-   pmulhuw mm5, mm6      ; mm0 = (mm0 / 2Q) >> 16
-   pmulhuw mm7, mm6      ;  (level + quantd) / quant (0<quant<32)
-   pxor mm5, mm1         ; mm0 *= sign(mm0)
-   pxor mm7, mm4         ;
-   psubw mm5, mm1        ; undisplace
-   psubw mm7, mm4        ;
-   movq [edx + 8*esi+112], mm5
-   movq [edx + 8*esi +120], mm7
-   add esi, byte 2
-   jng near .loop
- .done
- ; calculate  data[0] // (int32_t)dcscalar)
-   mov esi, [esp + 12 + 16]  ; dcscalar
-   movsx ecx, word [eax]
-   mov edi, ecx
-   mov edx, [esp + 12 + 16]
-   shr edx, 1            ; ebx = dcscalar /2
-   sar edi, 31           ; cdq is vectorpath
-   xor edx, edi          ; ebx = eax V -eax -1
-   sub ecx, edi
-   add ecx, edx
-   mov edx, [dword esp + 12 + 4]
-   mov esi, [int_div+4*esi]
-   imul ecx, esi
-   sar ecx, 17
-   lea ebx, [byte ecx + 1]
-   cmovs ecx, ebx
-   ; idiv    cx          ; ecx = edi:ecx / dcscalar
-   mov ebx, [esp]
-   mov edi, [esp+4]
-   mov esi, [esp+8]
-   add esp, byte 12
-   mov [edx], cx     ; coeff[0] = ax
-   xor eax, eax
-   ret
- ALIGN 16
- .q1loop
-   movq mm1, [eax + 8*esi+112]               ; mm0 = [1st]
-   psubw mm0, mm1                            ;-mm1
-   movq mm4, [eax + 8*esi+120]               ;
-   psubw mm3, mm4                            ;-mm4
-   pmaxsw mm0, mm1                           ;|src|
-   pmaxsw mm3, mm4
-   nop2
-   psraw mm1, 15                             ;sign src
-   psraw mm4, 15
-   psllw mm0, 4                              ; level << 4
-   psllw mm3, 4
-   paddw mm0, [edi + 128 + 8*esi+112]    ;mm0 is to be divided
-   paddw mm3, [edi + 128 + 8*esi+120]    ;intra1 contains fix for division by 1
-   movq mm5, [edi + 384 + 8*esi+112] ;with rounding down
-   movq mm7, [edi + 384 + 8*esi+120]
-   pmulhuw mm5, mm0
-   pmulhuw mm7, mm3      ;mm7: first approx of division
-   mov esp, esp
-   movq mm2, [edi + 8*esi+112]
-   movq mm6, [edi + 8*esi+120]      ; divs for q<=16
-   pmullw mm2, mm5       ;test value <= original
-   pmullw mm6, mm7
-   psubw mm0, mm2        ;mismatch
-   psubw mm3, mm6
-   nop4
-   movq mm2, [quantd + ecx * 8 - 8]
-   paddw mm5, mm2        ;first approx with quantd
-   paddw mm7, mm2
-   mov esp, esp
-   pmulhuw mm0, [edi + 256 + 8*esi+112]   ;correction
-   pmulhuw mm3, [edi + 256 + 8*esi+120]
-   paddw mm5, mm0        ;final result with quantd
-   paddw mm7, mm3
-   pxor mm0, mm0
-   pxor mm3, mm3
-   mov esp, esp
-   psrlw mm5, 1          ;  (level + quantd) /2  (quant = 1)
-   psrlw mm7, 1
-   pxor mm5, mm1         ; mm0 *= sign(mm0)
-   pxor mm7, mm4         ;
-   psubw mm5, mm1        ; undisplace
-   psubw mm7, mm4        ;
-   movq [edx + 8*esi+112], mm5
-   movq [edx + 8*esi +120], mm7
-   add esi, byte 2
-   jng near .q1loop
-   jmp near .done
- ALIGN 8
- .lloop
-   movq mm1, [eax + 8*esi+112]       ; mm0 = [1st]
-   psubw mm0, mm1        ;-mm1
-   movq mm4, [eax + 8*esi+120]
-   psubw mm3, mm4        ;-mm4
-   pmaxsw mm0, mm1       ;|src|
-   pmaxsw mm3, mm4
-   nop2
-   psraw mm1, 15         ;sign src
-   psraw mm4, 15
-   psllw mm0, 4          ; level << 4
-   psllw mm3, 4          ;
-   paddw mm0, [edi + 128 + 8*esi+112] ;mm0 is to be divided intra1 contains fix for division by 1
-   paddw mm3, [edi + 128 + 8*esi+120]
-   movq mm5, [edi + 384 + 8*esi+112]
-   movq mm7, [edi + 384 + 8*esi+120]
-   pmulhuw mm5, mm0
-   pmulhuw mm7, mm3      ;mm7: first approx of division
-   mov esp, esp
-   movq mm2, [edi + 8*esi+112]
-   movq mm6, [edi + 8*esi+120]
-   pmullw mm2, mm5       ;test value <= original
-   pmullw mm6, mm7
-   psubw mm0, mm2        ;mismatch
-   psubw mm3, mm6
-   nop4
-   movq mm2, [quantd + ecx * 8 - 8]
-   movq mm6, [mmx_div + ecx * 8 - 8] ; divs for q<=16
-   paddw mm5, mm2        ;first approx with quantd
-   paddw mm7, mm2
-   mov esp, esp
-   pmulhuw mm0, [edi + 256 + 8*esi+112] ;correction
-   pmulhuw mm3, [edi + 256 + 8*esi+120]
-   paddw mm5, mm0        ;final result with quantd
-   paddw mm7, mm3
-   pxor mm0, mm0
-   pxor mm3, mm3
-   mov esp, esp
-   pmulhuw mm5, mm6      ; mm0 = (mm0 / 2Q) >> 16
-   pmulhuw mm7, mm6      ;  (level + quantd) / quant (0<quant<32)
-   psrlw mm5, 1          ; (level + quantd) / (2*quant)
-   psrlw mm7, 1
-   pxor mm5, mm1         ; mm0 *= sign(mm0)
-   pxor mm7, mm4         ;
-   psubw mm5, mm1        ; undisplace
-   psubw mm7, mm4        ;
-   movq [edx + 8*esi+112], mm5
-   movq [edx + 8*esi +120], mm7
-   add esi,byte 2
-   jng near .lloop
-   jmp near .done
- ;-----------------------------------------------------------------------------
- ;
  ; uint32_t quant_mpeg_inter_xmm(int16_t * coeff,
  ;                               const int16_t const * data,
  ;                               const uint32_t quant,
-Line 379
+Line 152
  ;
  ;-----------------------------------------------------------------------------
- ALIGN 16
+ ALIGN SECTION_ALIGN
  quant_mpeg_inter_xmm:
-   mov eax, [esp  + 8]       ; data
+   mov _EAX, prm2       ; data
-   mov ecx, [esp  + 12]      ; quant
+   mov TMP0, prm3       ; quant
-   mov edx, [esp  + 4]       ; coeff
+   mov TMP1, prm1       ; coeff
-   push esi
+   push _ESI
-   push edi
+   push _EDI
-   push ebx
+   push _EBX
    nop
-   mov edi, [esp + 12 + 16]
+ %ifdef ARCH_IS_X86_64
-   mov esi, -14
+   mov _EDI, prm4
-   mov ebx, esp
+ %else
-   sub esp, byte 24
+   mov _EDI, [_ESP + 12 + 16]
-   lea ebx, [esp+8]
+ %endif
-   and ebx, byte -8 ;ALIGN 8
+   mov _ESI, -14
+   mov _EBX, _ESP
+   sub _ESP, byte 24
+   lea _EBX, [_ESP+8]
+   and _EBX, byte -8 ;ALIGN 8
    pxor mm0, mm0
    pxor mm3, mm3
-   movq [byte ebx],mm0
+   movq [byte _EBX],mm0
-   db 0Fh, 7Fh, 44h, 23h, 8 ;movq [ebx+8],mm0
+   movq [_EBX+8],mm0
-   cmp ecx, byte 1
+   cmp TMP0, byte 1
    je near .q1loop
-   cmp ecx, byte 19
+   cmp TMP0, byte 19
    jg near .lloop
    nop
- ALIGN 16
+ ALIGN SECTION_ALIGN
- .loop
+ .loop:
-   movq mm1, [eax + 8*esi+112]       ; mm0 = [1st]
+   movq mm1, [_EAX + 8*_ESI+112]       ; mm0 = [1st]
    psubw mm0, mm1 ;-mm1
-   movq mm4, [eax + 8*esi + 120] ;
+   movq mm4, [_EAX + 8*_ESI + 120] ;
    psubw mm3, mm4 ;-mm4
    pmaxsw mm0, mm1 ;|src|
    pmaxsw mm3, mm4
-Line 417
+Line 196
    psraw mm4, 15
    psllw mm0, 4          ; level << 4
    psllw mm3, 4          ;
-   paddw mm0, [edi + 640 + 8*esi+112]
+   paddw mm0, [_EDI + 640 + 8*_ESI+112]
-   paddw mm3, [edi + 640 + 8*esi+120]
+   paddw mm3, [_EDI + 640 + 8*_ESI+120]
-   movq mm5, [edi + 896 + 8*esi+112]
+   movq mm5, [_EDI + 896 + 8*_ESI+112]
-   movq mm7, [edi + 896 + 8*esi+120]
+   movq mm7, [_EDI + 896 + 8*_ESI+120]
    pmulhuw mm5, mm0
    pmulhuw mm7, mm3
-   mov esp, esp
+   mov _ESP, _ESP
-   movq mm2, [edi + 512 + 8*esi+112]
+   movq mm2, [_EDI + 512 + 8*_ESI+112]
-   movq mm6, [edi + 512 + 8*esi+120]
+   movq mm6, [_EDI + 512 + 8*_ESI+120]
    pmullw mm2, mm5
    pmullw mm6, mm7
    psubw mm0, mm2
    psubw mm3, mm6
-   movq mm2, [byte ebx]
+   movq mm2, [byte _EBX]
-   movq mm6, [mmx_divs + ecx * 8 - 8]
+ %ifdef ARCH_IS_X86_64
-   pmulhuw mm0, [edi + 768 + 8*esi+112]
+   lea r9, [mmx_divs]
-   pmulhuw mm3, [edi + 768 + 8*esi+120]
+   movq mm6, [r9 + TMP0 * 8 - 8]
-   paddw mm2, [ebx+8]    ;sum
+ %else
+   movq mm6, [mmx_divs + TMP0 * 8 - 8]
+ %endif
+   pmulhuw mm0, [_EDI + 768 + 8*_ESI+112]
+   pmulhuw mm3, [_EDI + 768 + 8*_ESI+120]
+   paddw mm2, [_EBX+8]    ;sum
    paddw mm5, mm0
    paddw mm7, mm3
    pxor mm0, mm0
    pxor mm3, mm3
    pmulhuw mm5, mm6      ; mm0 = (mm0 / 2Q) >> 16
    pmulhuw mm7, mm6      ;  (level ) / quant (0<quant<32)
-   add esi, byte 2
+   add _ESI, byte 2
    paddw mm2, mm5        ;sum += x1
-   movq [ebx], mm7       ;store x2
+   movq [_EBX], mm7       ;store x2
    pxor mm5, mm1         ; mm0 *= sign(mm0)
    pxor mm7, mm4         ;
    psubw mm5, mm1        ; undisplace
    psubw mm7, mm4        ;
-   db 0Fh, 7Fh, 54h, 23h, 08 ;movq   [ebx+8],mm2 ;store sum
+   movq [_EBX+8],mm2 ;store sum
-   movq [edx + 8*esi+112-16], mm5
+   movq [TMP1 + 8*_ESI+112-16], mm5
-   movq [edx + 8*esi +120-16], mm7
+   movq [TMP1 + 8*_ESI +120-16], mm7
    jng near .loop
- .done
+ .done:
  ; calculate  data[0] // (int32_t)dcscalar)
-   paddw mm2, [ebx]
+   paddw mm2, [_EBX]
-   mov ebx, [esp+24]
+   mov _EBX, [_ESP+24]
-   mov edi, [esp+4+24]
+   mov _EDI, [_ESP+PTR_SIZE+24]
-   mov esi, [esp+8+24]
+   mov _ESI, [_ESP+2*PTR_SIZE+24]
-   add esp, byte 12+24
+   add _ESP, byte 3*PTR_SIZE+24
    pmaddwd mm2, [mmx_one]
    punpckldq mm0, mm2 ;get low dw to mm0:high
    paddd mm0,mm2
-Line 468
+Line 252
    ret
- ALIGN 16
+ ALIGN SECTION_ALIGN
- .q1loop
+ .q1loop:
-   movq mm1, [eax + 8*esi+112]       ; mm0 = [1st]
+   movq mm1, [_EAX + 8*_ESI+112]       ; mm0 = [1st]
    psubw mm0, mm1                    ;-mm1
-   movq mm4, [eax + 8*esi+120]
+   movq mm4, [_EAX + 8*_ESI+120]
    psubw mm3, mm4                    ;-mm4
    pmaxsw mm0, mm1                   ;|src|
    pmaxsw mm3, mm4
-Line 481
+Line 265
    psraw mm4, 15
    psllw mm0, 4                              ; level << 4
    psllw mm3, 4
-   paddw mm0, [edi + 640 + 8*esi+112]    ;mm0 is to be divided
+   paddw mm0, [_EDI + 640 + 8*_ESI+112]    ;mm0 is to be divided
-   paddw mm3, [edi + 640 + 8*esi+120]    ; inter1 contains fix for division by 1
+   paddw mm3, [_EDI + 640 + 8*_ESI+120]    ; inter1 contains fix for division by 1
-   movq mm5, [edi + 896 + 8*esi+112] ;with rounding down
+   movq mm5, [_EDI + 896 + 8*_ESI+112] ;with rounding down
-   movq mm7, [edi + 896 + 8*esi+120]
+   movq mm7, [_EDI + 896 + 8*_ESI+120]
    pmulhuw mm5, mm0
    pmulhuw mm7, mm3                          ;mm7: first approx of division
-   mov esp, esp
+   mov _ESP, _ESP
-   movq mm2, [edi + 512 + 8*esi+112]
+   movq mm2, [_EDI + 512 + 8*_ESI+112]
-   movq mm6, [edi + 512 + 8*esi+120]      ; divs for q<=16
+   movq mm6, [_EDI + 512 + 8*_ESI+120]      ; divs for q<=16
    pmullw mm2, mm5                           ;test value <= original
    pmullw mm6, mm7
    psubw mm0, mm2                            ;mismatch
    psubw mm3, mm6
-   movq mm2, [byte ebx]
+   movq mm2, [byte _EBX]
-   pmulhuw mm0, [edi + 768 + 8*esi+112]  ;correction
+   pmulhuw mm0, [_EDI + 768 + 8*_ESI+112]  ;correction
-   pmulhuw mm3, [edi + 768 + 8*esi+120]
+   pmulhuw mm3, [_EDI + 768 + 8*_ESI+120]
-   paddw mm2, [ebx+8]    ;sum
+   paddw mm2, [_EBX+8]    ;sum
    paddw mm5, mm0        ;final result
    paddw mm7, mm3
    pxor mm0, mm0
    pxor mm3, mm3
    psrlw mm5, 1          ;  (level ) /2  (quant = 1)
    psrlw mm7, 1
-   add esi, byte 2
+   add _ESI, byte 2
    paddw mm2, mm5        ;sum += x1
-   movq [ebx], mm7       ;store x2
+   movq [_EBX], mm7      ;store x2
    pxor mm5, mm1         ; mm0 *= sign(mm0)
    pxor mm7, mm4         ;
    psubw mm5, mm1        ; undisplace
    psubw mm7, mm4        ;
-   movq [ebx+8], mm2     ;store sum
+   movq [_EBX+8], mm2    ;store sum
-   movq [edx + 8*esi+112-16], mm5
+   movq [TMP1 + 8*_ESI+112-16], mm5
-   movq [edx + 8*esi +120-16], mm7
+   movq [TMP1 + 8*_ESI +120-16], mm7
    jng near .q1loop
    jmp near .done
- ALIGN 8
+ ALIGN SECTION_ALIGN
- .lloop
+ .lloop:
-   movq mm1, [eax + 8*esi+112]       ; mm0 = [1st]
+   movq mm1, [_EAX + 8*_ESI+112]       ; mm0 = [1st]
    psubw mm0,mm1         ;-mm1
-   movq mm4, [eax + 8*esi+120]
+   movq mm4, [_EAX + 8*_ESI+120]
    psubw mm3,mm4         ;-mm4
    pmaxsw mm0,mm1        ;|src|
    pmaxsw mm3,mm4
-Line 530
+Line 314
    psraw mm4,15
    psllw mm0, 4          ; level << 4
    psllw mm3, 4          ;
-   paddw mm0, [edi + 640 + 8*esi+112] ;mm0 is to be divided inter1 contains fix for division by 1
+   paddw mm0, [_EDI + 640 + 8*_ESI+112] ;mm0 is to be divided inter1 contains fix for division by 1
-   paddw mm3, [edi + 640 + 8*esi+120]
+   paddw mm3, [_EDI + 640 + 8*_ESI+120]
-   movq mm5,[edi + 896 + 8*esi+112]
+   movq mm5,[_EDI + 896 + 8*_ESI+112]
-   movq mm7,[edi + 896 + 8*esi+120]
+   movq mm7,[_EDI + 896 + 8*_ESI+120]
    pmulhuw mm5,mm0
    pmulhuw mm7,mm3       ;mm7: first approx of division
-   mov esp,esp
+   mov _ESP,_ESP
-   movq mm2,[edi + 512 + 8*esi+112]
+   movq mm2,[_EDI + 512 + 8*_ESI+112]
-   movq mm6,[edi + 512 + 8*esi+120]
+   movq mm6,[_EDI + 512 + 8*_ESI+120]
    pmullw mm2,mm5        ;test value <= original
    pmullw mm6,mm7
    psubw mm0,mm2         ;mismatch
    psubw mm3,mm6
-   movq mm2,[byte ebx]
+   movq mm2,[byte _EBX]
-   movq mm6,[mmx_div + ecx * 8 - 8]  ; divs for q<=16
+ %ifdef ARCH_IS_X86_64
-   pmulhuw mm0,[edi + 768 + 8*esi+112] ;correction
+   lea r9, [mmx_div]
-   pmulhuw mm3,[edi + 768 + 8*esi+120]
+   movq mm6, [r9 + TMP0 * 8 - 8]
-   paddw mm2,[ebx+8]     ;sum
+ %else
+   movq mm6,[mmx_div + TMP0 * 8 - 8]  ; divs for q<=16
+ %endif
+   pmulhuw mm0,[_EDI + 768 + 8*_ESI+112] ;correction
+   pmulhuw mm3,[_EDI + 768 + 8*_ESI+120]
+   paddw mm2,[_EBX+8]    ;sum
    paddw mm5,mm0         ;final result
    paddw mm7,mm3
    pxor mm0,mm0
    pxor mm3,mm3
    pmulhuw mm5, mm6      ; mm0 = (mm0 / 2Q) >> 16
    pmulhuw mm7, mm6      ;  (level ) / quant (0<quant<32)
-   add esi,byte 2
+   add _ESI,byte 2
    psrlw mm5, 1          ; (level ) / (2*quant)
    paddw mm2,mm5         ;sum += x1
    psrlw mm7, 1
-   movq [ebx],mm7        ;store x2
+   movq [_EBX],mm7       ;store x2
    pxor mm5, mm1         ; mm0 *= sign(mm0)
    pxor mm7, mm4         ;
    psubw mm5, mm1        ; undisplace
    psubw mm7, mm4        ;
-   db 0Fh, 7Fh, 54h, 23h, 08 ;movq   [ebx+8],mm2 ;store sum
+   movq [_EBX+8], mm2    ;store sum
-   movq [edx + 8*esi+112-16], mm5
+   movq [TMP1 + 8*_ESI+112-16], mm5
-   movq [edx + 8*esi +120-16], mm7
+   movq [TMP1 + 8*_ESI +120-16], mm7
    jng near .lloop
    jmp near .done
+ ENDFUNC
  ;-----------------------------------------------------------------------------
-Line 591
+Line 381
    ;
  %macro DEQUANT4INTRAMMX 1
-   movq mm1, [byte ecx+ 16 * %1] ; mm0 = c  = coeff[i]
+   movq mm1, [byte TMP0+ 16 * %1] ; mm0 = c  = coeff[i]
-   movq mm4, [ecx+ 16 * %1 +8]   ; mm3 = c' = coeff[i+1]
+   movq mm4, [TMP0+ 16 * %1 +8]   ; mm3 = c' = coeff[i+1]
    psubw mm0, mm1
    psubw mm3, mm4
    pmaxsw mm0, mm1
-Line 600
+Line 390
    psraw mm1, 15
    psraw mm4, 15
  %if %1
-   movq mm2, [eax+8] ;preshifted quant
+   movq mm2, [_EAX+8] ;preshifted quant
-   movq mm7, [eax+8]
+   movq mm7, [_EAX+8]
  %endif
-   pmullw mm2, [edi + 16 * %1 ]     ; matrix[i]*quant
+   pmullw mm2, [TMP1 + 16 * %1 ]     ; matrix[i]*quant
-   pmullw mm7, [edi + 16 * %1 +8]   ; matrix[i+1]*quant
+   pmullw mm7, [TMP1 + 16 * %1 +8]   ; matrix[i+1]*quant
    movq mm5, mm0
    movq mm6, mm3
    pmulhw mm0, mm2   ; high of coeff*(matrix*quant)
    pmulhw mm3, mm7   ; high of coeff*(matrix*quant)
    pmullw mm2, mm5   ; low  of coeff*(matrix*quant)
    pmullw mm7, mm6   ; low  of coeff*(matrix*quant)
-   pcmpgtw mm0, [eax]
+   pcmpgtw mm0, [_EAX]
-   pcmpgtw mm3, [eax]
+   pcmpgtw mm3, [_EAX]
    paddusw mm2, mm0
    paddusw mm7, mm3
    psrlw mm2, 5
-Line 621
+Line 411
    pxor mm7, mm4     ; start negating back
    psubusw mm1, mm0
    psubusw mm4, mm3
-   movq mm0, [eax]   ;zero
+   movq mm0, [_EAX]   ;zero
-   movq mm3, [eax]   ;zero
+   movq mm3, [_EAX]   ;zero
    psubw mm2, mm1    ; finish negating back
    psubw mm7, mm4    ; finish negating back
-   movq [byte edx + 16 * %1], mm2   ; data[i]
+   movq [byte _EDI + 16 * %1], mm2   ; data[i]
-   movq [edx + 16 * %1  +8], mm7   ; data[i+1]
+   movq [_EDI + 16 * %1  +8], mm7   ; data[i+1]
  %endmacro
- ALIGN 16
+ ALIGN SECTION_ALIGN
  dequant_mpeg_intra_3dne:
-   mov eax, [esp+12] ; quant
+   mov _EAX, prm3  ; quant
-   mov ecx, [esp+8]  ; coeff
+ %ifdef ARCH_IS_X86_64
-   movq mm7, [mmx_mul_quant  + eax*8 - 8]
+   lea TMP0, [mmx_mul_quant]
+   movq mm7, [TMP0 + _EAX*8 - 8]
+ %else
+   movq mm7, [mmx_mul_quant  + _EAX*8 - 8]
+ %endif
+   mov TMP0, prm2  ; coeff
    psllw mm7, 2      ; << 2. See comment.
-   mov edx, [esp+4]  ; data
+   mov TMP1, prm5 ; mpeg_quant_matrices
-   push ebx
+   push _EBX
-   movsx ebx, word [ecx]
+   movsx _EBX, word [TMP0]
    pxor mm0, mm0
    pxor mm3, mm3
-   push esi
+   push _ESI
-   lea eax, [esp-28]
+   lea _EAX, [_ESP-28]
-   sub esp, byte 32
+   sub _ESP, byte 32
-   and eax, byte -8  ;points to qword ALIGNed space on stack
+   and _EAX, byte -8  ;points to qword ALIGNed space on stack
-   movq [eax], mm0
+   movq [_EAX], mm0
-   movq [eax+8], mm7
+   movq [_EAX+8], mm7
-   imul ebx, [esp+16+8+32]    ; dcscalar
+ %ifdef ARCH_IS_X86_64
+   imul _EBX, prm4    ; dcscalar
+ %else
+   imul _EBX, [_ESP+16+8+32]    ; dcscalar
+ %endif
    movq mm2, mm7
-   push edi
+   push _EDI
-   mov edi, [esp + 32 + 12 + 20] ; mpeg_quant_matrices
- ALIGN 4
+ %ifdef ARCH_IS_X86_64
+   mov _EDI, prm1  ; data
+ %else
+   mov _EDI, [_ESP+4+12+32]
+ %endif
+ ALIGN SECTION_ALIGN
    DEQUANT4INTRAMMX 0
-   mov esi, -2048
+   mov _ESI, -2048
    nop
-   cmp ebx, esi
+   cmp _EBX, _ESI
    DEQUANT4INTRAMMX 1
-   cmovl ebx, esi
+   cmovl _EBX, _ESI
-   neg esi
+   neg _ESI
-   sub esi, byte 1 ;2047
+   sub _ESI, byte 1 ;2047
    DEQUANT4INTRAMMX 2
-   cmp ebx, esi
+   cmp _EBX, _ESI
-   cmovg ebx, esi
+   cmovg _EBX, _ESI
-   lea ebp, [byte ebp]
+   lea _EBP, [byte _EBP]
    DEQUANT4INTRAMMX 3
-   mov esi, [esp+36]
+   mov _ESI, [_ESP+32+PTR_SIZE]
-   mov [byte edx], bx
+   mov [byte _EDI], bx
-   mov ebx, [esp+36+4]
+   mov _EBX, [_ESP+32+2*PTR_SIZE]
    DEQUANT4INTRAMMX 4
    DEQUANT4INTRAMMX 5
    DEQUANT4INTRAMMX 6
    DEQUANT4INTRAMMX 7
-   pop edi
+   pop _EDI
-   add esp, byte 32+8
+   add _ESP, byte 32+2*PTR_SIZE
-   xor eax, eax
+   xor _EAX, _EAX
    ret
+ ENDFUNC
  ;-----------------------------------------------------------------------------
  ;
-Line 702
+Line 508
      ; sgn(x) is the result of 'pcmpgtw 0,x':  0 if x>=0, -1 if x<0.
      ; It's mixed with the extraction of the absolute value.
- ALIGN 16
+ ALIGN SECTION_ALIGN
  dequant_mpeg_inter_3dne:
-   mov edx, [esp+ 4]        ; data
+   mov _EAX, prm3        ; quant
-   mov ecx, [esp+ 8]        ; coeff
+ %ifdef ARCH_IS_X86_64
-   mov eax, [esp+12]        ; quant
+   lea TMP0, [mmx_mul_quant]
-   movq mm7, [mmx_mul_quant  + eax*8 - 8]
+   movq mm7, [TMP0  + _EAX*8 - 8]
-   mov eax, -14
+ %else
+   movq mm7, [mmx_mul_quant  + _EAX*8 - 8]
+ %endif
+   mov TMP1, prm1        ; data
+   mov TMP0, prm2        ; coeff
+   mov _EAX, -14
    paddw mm7, mm7    ; << 1
    pxor mm6, mm6     ; mismatch sum
-   push esi
+   push _ESI
-   push edi
+   push _EDI
-   mov esi, mmzero
+   lea _ESI, [mmzero]
    pxor mm1, mm1
    pxor mm3, mm3
-   mov edi, [esp + 8 + 16] ; mpeg_quant_matrices
+ %ifdef ARCH_IS_X86_64
+   mov _EDI, prm4
+ %else
+   mov _EDI, [_ESP + 8 + 16] ; mpeg_quant_matrices
+ %endif
    nop
    nop4
- ALIGN 16
+ ALIGN SECTION_ALIGN
- .loop
+ .loop:
-   movq mm0, [ecx+8*eax + 7*16   ]   ; mm0 = coeff[i]
+   movq mm0, [TMP0+8*_EAX + 7*16   ]   ; mm0 = coeff[i]
    pcmpgtw mm1, mm0  ; mm1 = sgn(c)    (preserved)
-   movq mm2, [ecx+8*eax + 7*16 +8]   ; mm2 = coeff[i+1]
+   movq mm2, [TMP0+8*_EAX + 7*16 +8]   ; mm2 = coeff[i+1]
    pcmpgtw mm3, mm2  ; mm3 = sgn(c')   (preserved)
    paddsw mm0, mm1   ; c += sgn(c)
    paddsw mm2, mm3   ; c += sgn(c')
    paddw mm0, mm0    ; c *= 2
    paddw mm2, mm2    ; c'*= 2
-   movq mm4, [esi]
+   movq mm4, [_ESI]
-   movq mm5, [esi]
+   movq mm5, [_ESI]
    psubw mm4, mm0    ; -c
    psubw mm5, mm2    ; -c'
-Line 747
+Line 562
    movq mm4, mm7     ; (matrix*quant)
    nop
-   pmullw mm4, [edi + 512 + 8*eax + 7*16]
+   pmullw mm4, [_EDI + 512 + 8*_EAX + 7*16]
    movq mm5, mm4
    pmulhw mm5, mm0   ; high of c*(matrix*quant)
    pmullw mm0, mm4   ; low  of c*(matrix*quant)
    movq mm4, mm7     ; (matrix*quant)
-   pmullw mm4, [edi + 512 + 8*eax + 7*16 + 8]
+   pmullw mm4, [_EDI + 512 + 8*_EAX + 7*16 + 8]
-   add eax, byte 2
+   add _EAX, byte 2
-   pcmpgtw mm5, [esi]
+   pcmpgtw mm5, [_ESI]
    paddusw mm0, mm5
    psrlw mm0, 5
    pxor mm0, mm1     ; start restoring sign
-Line 767
+Line 582
    pmullw mm2, mm4   ; low  of c*(matrix*quant)
    psubw mm0, mm1    ; finish restoring sign
-   pcmpgtw mm5, [esi]
+   pcmpgtw mm5, [_ESI]
    paddusw mm2, mm5
    psrlw mm2, 5
    pxor mm2, mm3     ; start restoring sign
    psubusw mm3, mm5
    psubw mm2, mm3    ; finish restoring sign
-   movq mm1, [esi]
+   movq mm1, [_ESI]
-   movq mm3, [byte esi]
+   movq mm3, [byte _ESI]
    pxor mm6, mm0                             ; mismatch control
-   movq [edx + 8*eax + 7*16 -2*8   ], mm0    ; data[i]
+   movq [TMP1 + 8*_EAX + 7*16 -2*8   ], mm0    ; data[i]
    pxor mm6, mm2                             ; mismatch control
-   movq [edx + 8*eax + 7*16 -2*8 +8], mm2    ; data[i+1]
+   movq [TMP1 + 8*_EAX + 7*16 -2*8 +8], mm2    ; data[i+1]
    jng .loop
    nop
-Line 792
+Line 607
    pxor mm1, mm2
    pxor mm6, mm1
    movd eax, mm6
-   pop edi
+   pop _EDI
-   and eax, byte 1
+   and _EAX, byte 1
-   xor eax, byte 1
+   xor _EAX, byte 1
-   mov esi, [esp]
+   mov _ESI, [_ESP]
-   add esp, byte 4
+   add _ESP, byte PTR_SIZE
-   xor word [edx + 2*63], ax
+   xor word [TMP1 + 2*63], ax
-   xor eax, eax
+   xor _EAX, _EAX
    ret
+ ENDFUNC
+ NON_EXEC_STACK

 Legend:



Removed from v.1.1.2.5
 


changed lines


 
Added in v.1.13
 Legend:



Removed from v.1.1.2.5
 


changed lines


 
Added in v.1.13
-Removed from v.1.1.2.5
+Added in v.1.13

No admin address has been configured	ViewVC Help
Powered by ViewVC 1.0.4