Diff of /xvidcore/src/quant/x86_asm/quantize_mpeg_mmx.asm

-revision 1.1.2.3, Tue Oct 28 22:23:03 2003 UTC
+revision 1.7, Tue Jul 11 10:01:27 2006 UTC
 Line 31
  %macro cglobal 1
          %ifdef PREFIX
+                 %ifdef MARK_FUNCS
+                         global _%1:function %1.endfunc-%1
+                         %define %1 _%1:function %1.endfunc-%1
+                 %else
                  global _%1
                  %define %1 _%1
+                 %endif
+         %else
+                 %ifdef MARK_FUNCS
+                         global %1:function %1.endfunc-%1
          %else
                  global %1
          %endif
+         %endif
  %endmacro
  %macro cextern 1
-Line 51
+Line 60
  ; Local data (Read Only)
  ;=============================================================================
+ %ifdef FORMAT_COFF
  SECTION .rodata
+ %else
+ SECTION .rodata align=16
+ %endif
  mmx_one:
          times 4 dw       1
-Line 72
+Line 85
          %assign quant quant+1
  %endrep
- ;-----------------------------------------------------------------------------
- ; intra matrix
- ;-----------------------------------------------------------------------------
- cextern intra_matrix
- cextern intra_matrix_fix
- ;-----------------------------------------------------------------------------
- ; inter matrix
- ;-----------------------------------------------------------------------------
- cextern inter_matrix
- cextern inter_matrix_fix
  %define VM18P 3
  %define VM18Q 4
-Line 131
+Line 129
          times 4 dw 0
  ;=============================================================================
+ ; rounding
+ ;=============================================================================
+ mmx_rounding:
+         dw (1<<13)
+         dw 0
+         dw (1<<13)
+         dw 0
+ ;=============================================================================
  ; Code
  ;=============================================================================
-Line 141
+Line 149
  cglobal dequant_mpeg_intra_mmx
  cglobal dequant_mpeg_inter_mmx
+ %macro QUANT_MMX        1
+         movq    mm0, [eax + 16*(%1)]                    ; data
+         movq    mm2, [ecx + 16*(%1) + 128]              ; intra_matrix_rec
+         movq    mm4, [eax + 16*(%1) + 8]                ; data
+         movq    mm6, [ecx + 16*(%1) + 128 + 8]  ; intra_matrix_rec
+         movq    mm1, mm0
+         movq    mm5, mm4
+         pmullw  mm0, mm2                                        ; low results
+         pmulhw  mm1, mm2                                        ; high results
+         pmullw  mm4, mm6                                        ; low results
+         pmulhw  mm5, mm6                                        ; high results
+         movq    mm2, mm0
+         movq    mm6, mm4
+         punpckhwd mm0, mm1
+         punpcklwd mm2, mm1
+         punpckhwd mm4, mm5
+         punpcklwd mm6, mm5
+         paddd   mm2, mm7
+         paddd   mm0, mm7
+         paddd   mm6, mm7
+         paddd   mm4, mm7
+         psrad   mm2, 14
+         psrad   mm0, 14
+         psrad   mm6, 14
+         psrad   mm4, 14
+         packssdw mm2, mm0
+         packssdw mm6, mm4
+         movq    [edi + 16*(%1)], mm2
+         movq    [edi + 16*(%1)+8], mm6
+ %endmacro
  ;-----------------------------------------------------------------------------
  ;
  ; uint32_t quant_mpeg_intra_mmx(int16_t * coeff,
  ;                               const int16_t const * data,
  ;                               const uint32_t quant,
- ;                               const uint32_t dcscalar);
+ ;                               const uint32_t dcscalar,
+ ;                               const uint16_t *mpeg_matrices);
  ;
  ;-----------------------------------------------------------------------------
  ALIGN 16
  quant_mpeg_intra_mmx:
-   push ecx
-   push esi
    push edi
+   movq mm7, [mmx_rounding]
-   mov edi, [esp + 12 + 4]       ; coeff
+   mov eax, [esp + 4 + 8]                ; data
-   mov esi, [esp + 12 + 8]       ; data
+   mov ecx, [esp + 4 + 20]               ; mpeg_quant_matrices
-   mov eax, [esp + 12 + 12]      ; quant
+   mov edi, [esp + 4 + 4]                ; coeff
-   movq mm5, [quantd + eax * 8 - 8] ; quantd -> mm5
+   QUANT_MMX(0)
+   QUANT_MMX(1)
-   xor ecx, ecx
+   QUANT_MMX(2)
-   cmp al, 1
+   QUANT_MMX(3)
-   jz near .q1loop
+   QUANT_MMX(4)
+   QUANT_MMX(5)
-   cmp al, 2
+   QUANT_MMX(6)
-   jz near .q2loop
+   QUANT_MMX(7)
-   movq mm7, [mmx_div + eax * 8 - 8] ; multipliers[quant] -> mm7
+   ; calculate DC
+   movsx eax, word [eax]     ; data[0]
- ALIGN 16
+   mov ecx, [esp + 4 + 16]   ; dcscalar
- .loop
-   movq mm0, [esi + 8*ecx]       ; mm0 = [1st]
-   movq mm3, [esi + 8*ecx + 8]   ;
-   pxor mm1, mm1                 ; mm1 = 0
-   pxor mm4, mm4
-   pcmpgtw mm1, mm0              ; mm1 = (0 > mm0)
-   pcmpgtw mm4, mm3
-   pxor mm0, mm1                 ; mm0 = |mm0|
-   pxor mm3, mm4                 ;
-   psubw mm0, mm1                ; displace
-   psubw mm3, mm4                ;
-   psllw mm0, 4                  ; level << 4
-   psllw mm3, 4
-   movq mm2, [intra_matrix + 8*ecx]
-   psrlw mm2, 1                  ; intra_matrix[i]>>1
-   paddw mm0, mm2
-   movq mm2, [intra_matrix_fix + ecx*8]
-   pmulhw mm0, mm2                       ; (level<<4 + intra_matrix[i]>>1) / intra_matrix[i]
-   movq mm2, [intra_matrix + 8*ecx + 8]
-   psrlw mm2, 1
-   paddw mm3, mm2
-   movq mm2, [intra_matrix_fix + ecx*8 + 8]
-   pmulhw mm3, mm2
-   paddw mm0, mm5                ; + quantd
-   paddw mm3, mm5
-   pmulhw mm0, mm7               ; mm0 = (mm0 / 2Q) >> 16
-   pmulhw mm3, mm7               ;
-   psrlw mm0, 1                  ; additional shift by 1 => 16 + 1 = 17
-   psrlw mm3, 1
-   pxor mm0, mm1                 ; mm0 *= sign(mm0)
-   pxor mm3, mm4                 ;
-   psubw mm0, mm1                ; undisplace
-   psubw mm3, mm4                ;
-   movq [edi + 8*ecx], mm0
-   movq [edi + 8*ecx + 8], mm3
-   add ecx,2
-   cmp ecx,16
-   jnz near .loop
- .done
-   ; caclulate  data[0] // (int32_t)dcscalar)
-   mov ecx, [esp + 12 + 16]  ; dcscalar
    mov edx, ecx
-   movsx eax, word [esi]     ; data[0]
    shr edx, 1                ; edx = dcscalar /2
-   cmp eax, 0
+   mov edi, edx
-   jg .gtzero
+   neg edi
+   cmp eax, 0
+   cmovg edx, edi
    sub eax, edx
-   jmp short .mul
- .gtzero
+   mov edi, [esp + 4 + 4]        ; coeff again
-   add eax, edx
- .mul
    cdq                       ; expand eax -> edx:eax
    idiv ecx                  ; eax = edx:eax / dcscalar
    mov [edi], ax             ; coeff[0] = ax
    pop edi
-   pop esi
-   pop ecx
    xor eax, eax              ; return(0);
    ret
+ .endfunc
- ALIGN 16
- .q1loop
-   movq mm0, [esi + 8*ecx]       ; mm0 = [1st]
-   movq mm3, [esi + 8*ecx + 8]   ;
-   pxor mm1, mm1                 ; mm1 = 0
-   pxor mm4, mm4                 ;
-   pcmpgtw mm1, mm0              ; mm1 = (0 > mm0)
-   pcmpgtw mm4, mm3              ;
-   pxor mm0, mm1                 ; mm0 = |mm0|
-   pxor mm3, mm4                 ;
-   psubw mm0, mm1                ; displace
-   psubw mm3, mm4                ;
-   psllw mm0, 4
-   psllw mm3, 4
-   movq mm2, [intra_matrix + 8*ecx]
-   psrlw mm2, 1
-   paddw mm0, mm2
-   movq mm2, [intra_matrix_fix + ecx*8]
-   pmulhw mm0, mm2                       ; (level<<4 + intra_matrix[i]>>1) / intra_matrix[i]
-   movq mm2, [intra_matrix + 8*ecx + 8]
-   psrlw mm2, 1
-   paddw mm3, mm2
-   movq mm2, [intra_matrix_fix + ecx*8 + 8]
-   pmulhw mm3, mm2
-   paddw mm0, mm5
-   paddw mm3, mm5
-   psrlw mm0, 1              ; mm0 >>= 1   (/2)
-   psrlw mm3, 1              ;
-   pxor mm0, mm1             ; mm0 *= sign(mm0)
-   pxor mm3, mm4             ;
-   psubw mm0, mm1            ; undisplace
-   psubw mm3, mm4            ;
-   movq [edi + 8*ecx], mm0
-   movq [edi + 8*ecx + 8], mm3
-   add ecx, 2
-   cmp ecx, 16
-   jnz near .q1loop
-   jmp near .done
- ALIGN 16
- .q2loop
-   movq mm0, [esi + 8*ecx]       ; mm0 = [1st]
-   movq mm3, [esi + 8*ecx + 8]   ;
-   pxor mm1, mm1                 ; mm1 = 0
-   pxor mm4, mm4                 ;
-   pcmpgtw mm1, mm0              ; mm1 = (0 > mm0)
-   pcmpgtw mm4, mm3              ;
-   pxor mm0, mm1                 ; mm0 = |mm0|
-   pxor mm3, mm4                 ;
-   psubw mm0, mm1                ; displace
-   psubw mm3, mm4                ;
-   psllw mm0, 4
-   psllw mm3, 4
-   movq mm2, [intra_matrix + 8*ecx]
-   psrlw mm2, 1
-   paddw mm0, mm2
-   movq mm2, [intra_matrix_fix + ecx*8]
-   pmulhw mm0, mm2                       ; (level<<4 + intra_matrix[i]>>1) / intra_matrix[i]
-   movq mm2, [intra_matrix + 8*ecx + 8]
-   psrlw mm2, 1
-   paddw mm3, mm2
-   movq mm2, [intra_matrix_fix + ecx*8 + 8]
-   pmulhw mm3, mm2
-   paddw mm0, mm5
-   paddw mm3, mm5
-   psrlw mm0, 2                  ; mm0 >>= 1   (/4)
-   psrlw mm3, 2                  ;
-   pxor mm0, mm1                 ; mm0 *= sign(mm0)
-   pxor mm3, mm4                 ;
-   psubw mm0, mm1                ; undisplace
-   psubw mm3, mm4            ;
-   movq [edi + 8*ecx], mm0
-   movq [edi + 8*ecx + 8], mm3
-   add ecx,2
-   cmp ecx,16
-   jnz near .q2loop
-   jmp near .done
  ;-----------------------------------------------------------------------------
  ;
  ; uint32_t quant_mpeg_inter_mmx(int16_t * coeff,
  ;                               const int16_t const * data,
- ;                               const uint32_t quant);
+ ;                               const uint32_t quant,
+ ;                               const uint16_t *mpeg_matrices);
  ;
  ;-----------------------------------------------------------------------------
-Line 336
+Line 259
    push ecx
    push esi
    push edi
+   push ebx
-   mov edi, [esp + 12 + 4]       ; coeff
+   mov edi, [esp + 16 + 4]       ; coeff
-   mov esi, [esp + 12 + 8]       ; data
+   mov esi, [esp + 16 + 8]       ; data
-   mov eax, [esp + 12 + 12]  ; quant
+   mov eax, [esp + 16 + 12]  ; quant
+   mov ebx, [esp + 16 + 16]              ; mpeg_quant_matrices
    xor ecx, ecx
-Line 367
+Line 292
    psubw mm3, mm4                ;
    psllw mm0, 4
    psllw mm3, 4
-   movq mm2, [inter_matrix + 8*ecx]
+   movq mm2, [ebx + 512 + 8*ecx]
    psrlw mm2, 1
    paddw mm0, mm2
-   movq mm2, [inter_matrix_fix + ecx*8]
+   movq mm2, [ebx + 768 + ecx*8]
    pmulhw mm0, mm2               ; (level<<4 + inter_matrix[i]>>1) / inter_matrix[i]
-   movq mm2, [inter_matrix + 8*ecx + 8]
+   movq mm2, [ebx + 512 + 8*ecx + 8]
    psrlw mm2, 1
    paddw mm3, mm2
-   movq mm2, [inter_matrix_fix + ecx*8 + 8]
+   movq mm2, [ebx + 768 + ecx*8 + 8]
    pmulhw mm3, mm2
    pmulhw mm0, mm7               ; mm0 = (mm0 / 2Q) >> 16
    pmulhw mm3, mm7               ;
-Line 401
+Line 326
    paddd mm0, mm5
    movd eax, mm0                 ; return sum
+   pop ebx
    pop edi
    pop esi
    pop ecx
-Line 421
+Line 347
    psubw mm3, mm4                ;
    psllw mm0, 4
    psllw mm3, 4
-   movq mm2, [inter_matrix + 8*ecx]
+   movq mm2, [ebx + 512 + 8*ecx]
    psrlw mm2, 1
    paddw mm0, mm2
-   movq mm2, [inter_matrix_fix + ecx*8]
+   movq mm2, [ebx + 768 + ecx*8]
    pmulhw mm0, mm2               ; (level<<4 + inter_matrix[i]>>1) / inter_matrix[i]
-   movq mm2, [inter_matrix + 8*ecx + 8]
+   movq mm2, [ebx + 512 + 8*ecx + 8]
    psrlw mm2, 1
    paddw mm3, mm2
-   movq mm2, [inter_matrix_fix + ecx*8 + 8]
+   movq mm2, [ebx + 768 + ecx*8 + 8]
    pmulhw mm3, mm2
    psrlw mm0, 1                  ; mm0 >>= 1   (/2)
    psrlw mm3, 1                  ;
-Line 448
+Line 374
    jmp .done
  ALIGN 16
  .q2loop
    movq mm0, [esi + 8*ecx]       ; mm0 = [1st]
-Line 463
+Line 388
    psubw mm3, mm4                ;
    psllw mm0, 4
    psllw mm3, 4
-   movq mm2, [inter_matrix + 8*ecx]
+   movq mm2, [ebx + 512 + 8*ecx]
    psrlw mm2, 1
    paddw mm0, mm2
-   movq mm2, [inter_matrix_fix + ecx*8]
+   movq mm2, [ebx + 768 + ecx*8]
    pmulhw mm0, mm2               ; (level<<4 + inter_matrix[i]>>1) / inter_matrix[i]
-   movq mm2, [inter_matrix + 8*ecx + 8]
+   movq mm2, [ebx + 512 + 8*ecx + 8]
    psrlw mm2, 1
    paddw mm3, mm2
-   movq mm2, [inter_matrix_fix + ecx*8 + 8]
+   movq mm2, [ebx + 768 + ecx*8 + 8]
    pmulhw mm3, mm2
    psrlw mm0, 2                  ; mm0 >>= 1   (/2)
    psrlw mm3, 2                  ;
-Line 489
+Line 414
    jnz near .q2loop
    jmp .done
+ .endfunc
  ;-----------------------------------------------------------------------------
-Line 496
+Line 422
  ; uint32_t dequant_mpeg_intra_mmx(int16_t *data,
  ;                                 const int16_t const *coeff,
  ;                                 const uint32_t quant,
- ;                                 const uint32_t dcscalar);
+ ;                                 const uint32_t dcscalar,
+ ;                                 const uint16_t *mpeg_matrices);
  ;
  ;-----------------------------------------------------------------------------
-Line 519
+Line 446
    psubw mm0, mm1    ; -> mm0 = abs(coeff[i]), mm1 = sign of coeff[i]
    movq mm2, mm7     ; mm2 = quant
-   pmullw mm2, [intra_matrix + 8*eax + 8*16 ]  ; matrix[i]*quant.
+   pmullw mm2, [ebx + 8*eax + 8*16 ]  ; matrix[i]*quant.
    movq mm6, mm2
    pmulhw mm2, mm0   ; high of coeff*(matrix*quant)  (should be 0 if no overflow)
-Line 542
+Line 469
  ALIGN 16
  dequant_mpeg_intra_mmx:
-   mov edx, [esp+4]  ; data
+   push ebx
-   mov ecx, [esp+8]  ; coeff
-   mov eax, [esp+12] ; quant
+   mov edx, [esp + 4 + 4]  ; data
+   mov ecx, [esp + 4 + 8]  ; coeff
+   mov eax, [esp + 4 + 12] ; quant
+   mov ebx, [esp + 4 + 20] ; mpeg_quant_matrices
    movq mm7, [mmx_mul_quant  + eax*8 - 8]
    mov eax, -16      ; to keep ALIGNed, we regularly process coeff[0]
-Line 561
+Line 491
    movq mm2, mm7     ; mm2 = quant
    pcmpgtw mm4, mm3  ; mm4 = sgn(c')
-   pmullw mm2,  [intra_matrix + 8*eax + 8*16 ]  ; matrix[i]*quant
+   pmullw mm2,  [ebx + 8*eax + 8*16 ]  ; matrix[i]*quant
    pxor mm0, mm1     ; negate if negative
    pxor mm3, mm4     ; negate if negative
-Line 577
+Line 507
    pmulhw mm0, mm5   ; high of coeff*(matrix*quant)
    movq mm5, mm7     ; mm2 = quant
-   pmullw mm5,  [intra_matrix + 8*eax + 8*16 +8]  ; matrix[i+1]*quant
+   pmullw mm5,  [ebx + 8*eax + 8*16 +8]  ; matrix[i+1]*quant
    movq mm6, mm5
    add eax,2   ; z-flag will be tested later
-Line 609
+Line 539
      ; deal with DC
    movd mm0, [ecx]
-   pmullw mm0, [esp+16]  ; dcscalar
+   pmullw mm0, [esp + 4 + 16]  ; dcscalar
    movq mm2, [mmx_32767_minus_2047]
    paddsw mm0, mm2
    psubsw mm0, mm2
-Line 620
+Line 550
    mov [edx], ax
    xor eax, eax
+   pop ebx
    ret
+ .endfunc
  ;-----------------------------------------------------------------------------
  ;
  ; uint32_t dequant_mpeg_inter_mmx(int16_t * data,
  ;                                 const int16_t * const coeff,
- ;                                 const uint32_t quant);
+ ;                                 const uint32_t quant,
+ ;                                 const uint16_t *mpeg_matrices);
  ;
  ;-----------------------------------------------------------------------------
-Line 638
+Line 573
  ALIGN 16
  dequant_mpeg_inter_mmx:
-   mov edx, [esp+ 4]        ; data
+   push ebx
-   mov ecx, [esp+ 8]        ; coeff
-   mov eax, [esp+12]        ; quant
+   mov edx, [esp + 4 + 4]        ; data
+   mov ecx, [esp + 4 + 8]        ; coeff
+   mov eax, [esp + 4 + 12]        ; quant
+   mov ebx, [esp + 4 + 16]                  ; mpeg_quant_matrices
    movq mm7, [mmx_mul_quant  + eax*8 - 8]
    mov eax, -16
    paddw mm7, mm7    ; << 1
-Line 675
+Line 614
      ; we're short on register, here. Poor pairing...
    movq mm4, mm7     ; (matrix*quant)
-   pmullw mm4,  [inter_matrix + 8*eax + 8*16 -2*8]
+   pmullw mm4,  [ebx + 512 + 8*eax + 8*16 -2*8]
    movq mm5, mm4
    pmulhw mm5, mm0   ; high of c*(matrix*quant)
    pmullw mm0, mm4   ; low  of c*(matrix*quant)
    movq mm4, mm7     ; (matrix*quant)
-   pmullw mm4,  [inter_matrix + 8*eax + 8*16 -2*8 + 8]
+   pmullw mm4,  [ebx + 512 + 8*eax + 8*16 -2*8 + 8]
    pcmpgtw mm5, [zero]
    paddusw mm0, mm5
-Line 725
+Line 664
    xor word [edx + 2*63], ax
    xor eax, eax
+   pop ebx
    ret
+ .endfunc

 Legend:



Removed from v.1.1.2.3
 


changed lines


 
Added in v.1.7
 Legend:



Removed from v.1.1.2.3
 


changed lines


 
Added in v.1.7
-Removed from v.1.1.2.3
+Added in v.1.7

No admin address has been configured	ViewVC Help
Powered by ViewVC 1.0.4