Diff of /xvidcore/src/utils/x86_asm/mem_transfer_mmx.asm

-revision 1.1, Fri Mar  8 02:45:01 2002 UTC
+revision 1.20.2.1, Thu May 28 08:42:37 2009 UTC
 Line 1
- ;/**************************************************************************
+ ;/****************************************************************************
  ; *
  ; *     XVID MPEG-4 VIDEO CODEC
- ; *     mmx 8bit<->16bit transfers
+ ; *  - 8<->16 bit transfer functions -
  ; *
- ; *     This program is an implementation of a part of one or more MPEG-4
+ ; *  Copyright (C) 2001 Peter Ross <pross@xvid.org>
- ; *     Video tools as specified in ISO/IEC 14496-2 standard.  Those intending
+ ; *                2001-2008 Michael Militzer <michael@xvid.org>
- ; *     to use this software module in hardware or software products are
+ ; *                2002 Pascal Massimino <skal@planet-d.net>
- ; *     advised that its use may infringe existing patents or copyrights, and
- ; *     any such use would be at such party's own risk.  The original
- ; *     developer of this software module and his/her company, and subsequent
- ; *     editors and their companies, will have no liability for use of this
- ; *     software or modifications or derivatives thereof.
  ; *
  ; *     This program is free software; you can redistribute it and/or modify
  ; *     it under the terms of the GNU General Public License as published by
-Line 24
+Line 19
  ; *
  ; *     You should have received a copy of the GNU General Public License
  ; *     along with this program; if not, write to the Free Software
- ; *     Foundation, Inc., 675 Mass Ave, Cambridge, MA 02139, USA.
+ ; *  Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307 USA
  ; *
- ; *************************************************************************/
+ ; * $Id$
- ;/**************************************************************************
- ; *
- ; *     History:
- ; *
- ; * 07.01.2002  merge functions from compensate_mmx; rename functions
- ; *     07.11.2001      initial version; (c)2001 peter ross <pross@cs.rmit.edu.au>
  ; *
- ; *************************************************************************/
+ ; ***************************************************************************/
+ %include "nasm.inc"
- bits 32
+ ;=============================================================================
+ ; Read only data
+ ;=============================================================================
- %macro cglobal 1
+ DATA
-         %ifdef PREFIX
-                 global _%1
-                 %define %1 _%1
-         %else
-                 global %1
-         %endif
- %endmacro
+ ALIGN SECTION_ALIGN
+ mmx_one:
+         dw 1, 1, 1, 1
- section .text
+ ;=============================================================================
+ ; Code
+ ;=============================================================================
+ TEXT
+ cglobal transfer_8to16copy_mmx
+ cglobal transfer_16to8copy_mmx
+ cglobal transfer_8to16sub_mmx
+ cglobal transfer_8to16subro_mmx
+ cglobal transfer_8to16sub2_mmx
+ cglobal transfer_8to16sub2_xmm
+ cglobal transfer_8to16sub2ro_xmm
+ cglobal transfer_16to8add_mmx
+ cglobal transfer8x8_copy_mmx
+ cglobal transfer8x4_copy_mmx
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
  ;
  ; void transfer_8to16copy_mmx(int16_t * const dst,
  ;                                                       const uint8_t * const src,
  ;                                                       uint32_t stride);
  ;
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
- align 16
- cglobal transfer_8to16copy_mmx
- transfer_8to16copy_mmx
-                 push    esi
-                 push    edi
-                 mov     edi, [esp + 8 + 4]              ; dst
-                 mov     esi, [esp + 8 + 8]              ; src
-                 mov ecx, [esp + 8 + 12]         ; stride
-                 pxor mm7, mm7                           ; mm7 = zero
-                 mov eax, 8
+ %macro COPY_8_TO_16 1
+   movq mm0, [_EAX]
- .loop
+   movq mm1, [_EAX+TMP1]
-                 movq mm0, [esi]
+   movq mm2, mm0
-                 movq mm1, mm0
+   movq mm3, mm1
-                 punpcklbw mm0, mm7              ; mm01 = unpack([src])
+   punpcklbw mm0, mm7
-                 punpckhbw mm1, mm7
+   movq [TMP0+%1*32], mm0
+   punpcklbw mm1, mm7
-                 movq [edi], mm0                 ; [dst] = mm01
+   movq [TMP0+%1*32+16], mm1
-                 movq [edi + 8], mm1
+   punpckhbw mm2, mm7
+   punpckhbw mm3, mm7
+   lea _EAX, [_EAX+2*TMP1]
+   movq [TMP0+%1*32+8], mm2
+   movq [TMP0+%1*32+24], mm3
+ %endmacro
-                 add edi, 16
+ ALIGN SECTION_ALIGN
-                 add esi, ecx
+ transfer_8to16copy_mmx:
-                 dec eax
-                 jnz .loop
-                 pop edi
+   mov TMP0, prm1 ; Dst
-                 pop esi
+   mov _EAX, prm2 ; Src
+   mov TMP1, prm3 ; Stride
+   pxor mm7, mm7
+   COPY_8_TO_16 0
+   COPY_8_TO_16 1
+   COPY_8_TO_16 2
+   COPY_8_TO_16 3
                  ret
+ ENDFUNC
+ ;-----------------------------------------------------------------------------
- ;===========================================================================
  ;
  ; void transfer_16to8copy_mmx(uint8_t * const dst,
  ;                                                       const int16_t * const src,
  ;                                                       uint32_t stride);
  ;
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
- align 16
- cglobal transfer_16to8copy_mmx
- transfer_16to8copy_mmx
-                 push    esi
-                 push    edi
-                 mov     edi, [esp + 8 + 4]              ; dst
-                 mov     esi, [esp + 8 + 8]              ; src
-                 mov ecx, [esp + 8 + 12]         ; stride
-                 mov eax, 8
- .loop
-                 movq mm0, [esi]
-                 packuswb mm0, [esi + 8]         ; mm0 = pack([src])
-                 movq [edi], mm0                         ; [dst] = mm0
+ %macro COPY_16_TO_8 1
+   movq mm0, [_EAX+%1*32]
-                 add esi, 16
+   movq mm1, [_EAX+%1*32+8]
-                 add edi, ecx
+   packuswb mm0, mm1
-                 dec eax
+   movq [TMP0], mm0
-                 jnz .loop
+   movq mm2, [_EAX+%1*32+16]
+   movq mm3, [_EAX+%1*32+24]
+   packuswb mm2, mm3
+   movq [TMP0+TMP1], mm2
+ %endmacro
-                 pop edi
+ ALIGN SECTION_ALIGN
-                 pop esi
+ transfer_16to8copy_mmx:
+   mov TMP0, prm1 ; Dst
+   mov _EAX, prm2 ; Src
+   mov TMP1, prm3 ; Stride
+   COPY_16_TO_8 0
+   lea TMP0,[TMP0+2*TMP1]
+   COPY_16_TO_8 1
+   lea TMP0,[TMP0+2*TMP1]
+   COPY_16_TO_8 2
+   lea TMP0,[TMP0+2*TMP1]
+   COPY_16_TO_8 3
                  ret
+ ENDFUNC
+ ;-----------------------------------------------------------------------------
- ;===========================================================================
  ;
  ; void transfer_8to16sub_mmx(int16_t * const dct,
  ;                               uint8_t * const cur,
  ;                               const uint8_t * const ref,
  ;                               const uint32_t stride);
  ;
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
- ;/**************************************************************************
- ; *
- ; *     History:
- ; *
- ; * 27.12.2001  renamed from 'compensate' to 'transfer_8to16sub'
- ; * 02.12.2001  loop unrolled, code runs 10% faster now (Isibaar)
- ; * 30.11.2001  16 pixels are processed per iteration (Isibaar)
- ; * 30.11.2001  .text missing
- ; *     06.11.2001      inital version; (c)2001 peter ross <pross@cs.rmit.edu.au>
- ; *
- ; *************************************************************************/
- align 16
- cglobal transfer_8to16sub_mmx
- transfer_8to16sub_mmx
-                 push    esi
-                 push    edi
-                 push    ebx
-                 mov     edi, [esp + 12 + 4]             ; dct [out]
-                 mov     edx, [esp + 12 + 8]             ; cur [in/out]
-                 mov     esi, [esp + 12 + 12]            ; ref [in]
-                 mov ecx, [esp + 12 + 16]                ; stride [in]
-                 mov eax, edx                            ; cur -> eax
-                 mov ebx, esi                            ; ref -> ebx
-                 add eax, ecx                            ; cur + stride
-                 add ebx, ecx                            ; ref + stride
-                 shl ecx, 1
-                 pxor mm7, mm7                   ; mm7 = zero
-                 movq mm0, [edx]                 ; mm01 = [cur]
+ ; when second argument == 1, reference (ebx) block is to current (_EAX)
+ %macro COPY_8_TO_16_SUB 2
+   movq mm0, [_EAX]      ; cur
+   movq mm2, [_EAX+TMP1]
                  movq mm1, mm0
-                 punpcklbw mm0, mm7
-                 punpckhbw mm1, mm7
-                 movq mm4, [eax]
-                 movq mm5, mm4
-                 punpcklbw mm4, mm7
-                 punpckhbw mm5, mm7
-                 movq mm2, [esi]                 ; mm23 = [ref]
                  movq mm3, mm2
-                 movq mm6, [ebx]
+   punpcklbw mm0, mm7
-                 movq [edx], mm2                 ; [cur] = [ref]
-                 movq [eax], mm6
                  punpcklbw mm2, mm7
+   movq mm4, [_EBX]      ; ref
+   punpckhbw mm1, mm7
                  punpckhbw mm3, mm7
+   movq mm5, [_EBX+TMP1]  ; ref
-                 psubsw mm0, mm2                 ; mm01 -= mm23
+   movq mm6, mm4
+ %if %2 == 1
+   movq [_EAX], mm4
+   movq [_EAX+TMP1], mm5
+ %endif
+   punpcklbw mm4, mm7
+   punpckhbw mm6, mm7
+   psubsw mm0, mm4
+   psubsw mm1, mm6
+   movq mm6, mm5
+   punpcklbw mm5, mm7
+   punpckhbw mm6, mm7
+   psubsw mm2, mm5
+   lea _EAX, [_EAX+2*TMP1]
+   psubsw mm3, mm6
+   lea _EBX,[_EBX+2*TMP1]
+   movq [TMP0+%1*32+ 0], mm0 ; dst
+   movq [TMP0+%1*32+ 8], mm1
+   movq [TMP0+%1*32+16], mm2
+   movq [TMP0+%1*32+24], mm3
+ %endmacro
-                 movq mm2, mm6
+ ALIGN SECTION_ALIGN
+ transfer_8to16sub_mmx:
+   mov TMP0, prm1 ; Dst
+   mov _EAX, prm2 ; Cur
+   mov TMP1, prm4 ; Stride
+   push _EBX
+ %ifdef ARCH_IS_X86_64
+   mov _EBX, prm3
+ %else
+   mov _EBX, [_ESP+4+12] ; Ref
+ %endif
+   pxor mm7, mm7
-                 punpcklbw mm2, mm7
+   COPY_8_TO_16_SUB 0, 1
-                 punpckhbw mm6, mm7
+   COPY_8_TO_16_SUB 1, 1
+   COPY_8_TO_16_SUB 2, 1
+   COPY_8_TO_16_SUB 3, 1
-                 psubsw mm1, mm3
+   pop _EBX
+   ret
+ ENDFUNC
-                 psubsw mm4, mm2
-                 psubsw mm5, mm6
-                 movq [edi], mm0                 ; dct[] = mm01
+ ALIGN SECTION_ALIGN
-                 movq [edi + 8], mm1
+ transfer_8to16subro_mmx:
-                 movq [edi + 16], mm4
+   mov TMP0, prm1 ; Dst
-                 movq [edi + 24], mm5
+   mov _EAX, prm2 ; Cur
+   mov TMP1, prm4 ; Stride
-                 add edx, ecx
-                 add esi, ecx
+   push _EBX
-                 add eax, ecx
+ %ifdef ARCH_IS_X86_64
-                 add ebx, ecx
+   mov _EBX, prm3
+ %else
+   mov _EBX, [_ESP+4+12] ; Ref
+ %endif
+   pxor mm7, mm7
-                 movq mm0, [edx]                 ; mm01 = [cur]
+   COPY_8_TO_16_SUB 0, 0
-                 movq mm1, mm0
+   COPY_8_TO_16_SUB 1, 0
+   COPY_8_TO_16_SUB 2, 0
+   COPY_8_TO_16_SUB 3, 0
-                 punpcklbw mm0, mm7
+   pop _EBX
-                 punpckhbw mm1, mm7
+   ret
+ ENDFUNC
-                 movq mm4, [eax]
-                 movq mm5, mm4
+ ;-----------------------------------------------------------------------------
+ ;
+ ; void transfer_8to16sub2_mmx(int16_t * const dct,
+ ;                               uint8_t * const cur,
+ ;                               const uint8_t * ref1,
+ ;                               const uint8_t * ref2,
+ ;                               const uint32_t stride)
+ ;
+ ;-----------------------------------------------------------------------------
+ %macro COPY_8_TO_16_SUB2_MMX 1
+   movq mm0, [_EAX]      ; cur
+   movq mm2, [_EAX+TMP1]
+   ; mm4 <- (ref1+ref2+1) / 2
+   movq mm4, [_EBX]      ; ref1
+   movq mm1, [_ESI]      ; ref2
+   movq mm6, mm4
+   movq mm3, mm1
                  punpcklbw mm4, mm7
-                 punpckhbw mm5, mm7
+   punpcklbw mm1, mm7
+   punpckhbw mm6, mm7
+   punpckhbw mm3, mm7
+   paddusw mm4, mm1
+   paddusw mm6, mm3
+   paddusw mm4, [mmx_one]
+   paddusw mm6, [mmx_one]
+   psrlw mm4, 1
+   psrlw mm6, 1
+   packuswb mm4, mm6
+   movq [_EAX], mm4
+     ; mm5 <- (ref1+ref2+1) / 2
+   movq mm5, [_EBX+TMP1]  ; ref1
+   movq mm1, [_ESI+TMP1]  ; ref2
+   movq mm6, mm5
+   movq mm3, mm1
+   punpcklbw mm5, mm7
+   punpcklbw mm1, mm7
+   punpckhbw mm6, mm7
+   punpckhbw mm3, mm7
+   paddusw mm5, mm1
+   paddusw mm6, mm3
+   paddusw mm5, [mmx_one]
+   paddusw mm6, [mmx_one]
+   lea _ESI, [_ESI+2*TMP1]
+   psrlw mm5, 1
+   psrlw mm6, 1
+   packuswb mm5, mm6
+   movq [_EAX+TMP1], mm5
-                 movq mm2, [esi]                 ; mm23 = [ref]
+   movq mm1, mm0
                  movq mm3, mm2
+   punpcklbw mm0, mm7
-                 movq mm6, [ebx]
-                 movq [edx], mm2                 ; [cur] = [ref]
-                 movq [eax], mm6
                  punpcklbw mm2, mm7
+   punpckhbw mm1, mm7
                  punpckhbw mm3, mm7
-                 psubsw mm0, mm2                 ; mm01 -= mm23
+   movq mm6, mm4
+   punpcklbw mm4, mm7
-                 movq mm2, mm6
-                 punpcklbw mm2, mm7
                  punpckhbw mm6, mm7
+   psubsw mm0, mm4
+   psubsw mm1, mm6
+   movq mm6, mm5
+   punpcklbw mm5, mm7
+   punpckhbw mm6, mm7
+   psubsw mm2, mm5
+   lea _EAX, [_EAX+2*TMP1]
+   psubsw mm3, mm6
+   lea _EBX, [_EBX+2*TMP1]
+   movq [TMP0+%1*32+ 0], mm0 ; dst
+   movq [TMP0+%1*32+ 8], mm1
+   movq [TMP0+%1*32+16], mm2
+   movq [TMP0+%1*32+24], mm3
+ %endmacro
-                 psubsw mm1, mm3
+ ALIGN SECTION_ALIGN
+ transfer_8to16sub2_mmx:
-                 psubsw mm4, mm2
+   mov TMP0, prm1   ; Dst
-                 psubsw mm5, mm6
+   mov TMP1d, prm5d ; Stride
+   mov _EAX, prm2   ; Cur
-                 movq [edi + 32], mm0                    ; dct[] = mm01
-                 movq [edi + 40], mm1
+   push _EBX
-                 movq [edi + 48], mm4
+ %ifdef ARCH_IS_X86_64
-                 movq [edi + 56], mm5
+   mov _EBX, prm3
+ %else
-                 add edx, ecx
+   mov _EBX, [_ESP+4+12] ; Ref1
-                 add esi, ecx
+ %endif
-                 add eax, ecx
-                 add ebx, ecx
-                 movq mm0, [edx]                 ; mm01 = [cur]
+   push _ESI
-                 movq mm1, mm0
+ %ifdef ARCH_IS_X86_64
+   mov _ESI, prm4
+ %else
+   mov _ESI, [_ESP+8+16] ; Ref2
+ %endif
-                 punpcklbw mm0, mm7
+   pxor mm7, mm7
-                 punpckhbw mm1, mm7
-                 movq mm4, [eax]
+   COPY_8_TO_16_SUB2_MMX 0
-                 movq mm5, mm4
+   COPY_8_TO_16_SUB2_MMX 1
+   COPY_8_TO_16_SUB2_MMX 2
+   COPY_8_TO_16_SUB2_MMX 3
-                 punpcklbw mm4, mm7
+   pop _ESI
-                 punpckhbw mm5, mm7
+   pop _EBX
+   ret
+ ENDFUNC
-                 movq mm2, [esi]                 ; mm23 = [ref]
+ ;-----------------------------------------------------------------------------
+ ;
+ ; void transfer_8to16sub2_xmm(int16_t * const dct,
+ ;                               uint8_t * const cur,
+ ;                               const uint8_t * ref1,
+ ;                               const uint8_t * ref2,
+ ;                               const uint32_t stride)
+ ;
+ ;-----------------------------------------------------------------------------
+ %macro COPY_8_TO_16_SUB2_SSE 1
+   movq mm0, [_EAX]      ; cur
+   movq mm2, [_EAX+TMP1]
+   movq mm1, mm0
                  movq mm3, mm2
-                 movq mm6, [ebx]
+   punpcklbw mm0, mm7
-                 movq [edx], mm2                 ; [cur] = [ref]
-                 movq [eax], mm6
                  punpcklbw mm2, mm7
+   movq mm4, [_EBX]     ; ref1
+   pavgb mm4, [_ESI]     ; ref2
+   movq [_EAX], mm4
+   punpckhbw mm1, mm7
                  punpckhbw mm3, mm7
+   movq mm5, [_EBX+TMP1] ; ref
+   pavgb mm5, [_ESI+TMP1] ; ref2
+   movq [_EAX+TMP1], mm5
-                 psubsw mm0, mm2                 ; mm01 -= mm23
+   movq mm6, mm4
+   punpcklbw mm4, mm7
-                 movq mm2, mm6
+   punpckhbw mm6, mm7
+   psubsw mm0, mm4
-                 punpcklbw mm2, mm7
+   psubsw mm1, mm6
+   lea _ESI, [_ESI+2*TMP1]
+   movq mm6, mm5
+   punpcklbw mm5, mm7
                  punpckhbw mm6, mm7
+   psubsw mm2, mm5
+   lea _EAX, [_EAX+2*TMP1]
+   psubsw mm3, mm6
+   lea _EBX, [_EBX+2*TMP1]
+   movq [TMP0+%1*32+ 0], mm0 ; dst
+   movq [TMP0+%1*32+ 8], mm1
+   movq [TMP0+%1*32+16], mm2
+   movq [TMP0+%1*32+24], mm3
+ %endmacro
-                 psubsw mm1, mm3
+ ALIGN SECTION_ALIGN
+ transfer_8to16sub2_xmm:
+   mov TMP0, prm1   ; Dst
+   mov _EAX, prm2   ; Cur
+   mov TMP1d, prm5d ; Stride
+   push _EBX
+ %ifdef ARCH_IS_X86_64
+   mov _EBX, prm3 ; Ref1
+ %else
+   mov _EBX, [_ESP+4+12] ; Ref1
+ %endif
-                 psubsw mm4, mm2
+   push _ESI
-                 psubsw mm5, mm6
+ %ifdef ARCH_IS_X86_64
+   mov _ESI, prm4 ; Ref1
+ %else
+   mov _ESI, [_ESP+8+16] ; Ref2
+ %endif
-                 movq [edi + 64], mm0                    ; dct[] = mm01
+   pxor mm7, mm7
-                 movq [edi + 72], mm1
-                 movq [edi + 80], mm4
-                 movq [edi + 88], mm5
-                 add edx, ecx
-                 add esi, ecx
-                 add eax, ecx
-                 add ebx, ecx
-                 movq mm0, [edx]                 ; mm01 = [cur]
+   COPY_8_TO_16_SUB2_SSE 0
-                 movq mm1, mm0
+   COPY_8_TO_16_SUB2_SSE 1
+   COPY_8_TO_16_SUB2_SSE 2
+   COPY_8_TO_16_SUB2_SSE 3
-                 punpcklbw mm0, mm7
+   pop _ESI
-                 punpckhbw mm1, mm7
+   pop _EBX
+   ret
+ ENDFUNC
-                 movq mm4, [eax]
-                 movq mm5, mm4
-                 punpcklbw mm4, mm7
+ ;-----------------------------------------------------------------------------
-                 punpckhbw mm5, mm7
+ ;
+ ; void transfer_8to16sub2ro_xmm(int16_t * const dct,
+ ;                               const uint8_t * const cur,
+ ;                               const uint8_t * ref1,
+ ;                               const uint8_t * ref2,
+ ;                               const uint32_t stride)
+ ;
+ ;-----------------------------------------------------------------------------
-                 movq mm2, [esi]                 ; mm23 = [ref]
+ %macro COPY_8_TO_16_SUB2RO_SSE 1
+   movq mm0, [_EAX]      ; cur
+   movq mm2, [_EAX+TMP1]
+   movq mm1, mm0
                  movq mm3, mm2
-                 movq mm6, [ebx]
+   punpcklbw mm0, mm7
-                 movq [edx], mm2                 ; [cur] = [ref]
-                 movq [eax], mm6
                  punpcklbw mm2, mm7
+   movq mm4, [_EBX]     ; ref1
+   pavgb mm4, [_ESI]     ; ref2
+   punpckhbw mm1, mm7
                  punpckhbw mm3, mm7
+   movq mm5, [_EBX+TMP1] ; ref
+   pavgb mm5, [_ESI+TMP1] ; ref2
-                 psubsw mm0, mm2                 ; mm01 -= mm23
+   movq mm6, mm4
+   punpcklbw mm4, mm7
-                 movq mm2, mm6
+   punpckhbw mm6, mm7
+   psubsw mm0, mm4
-                 punpcklbw mm2, mm7
+   psubsw mm1, mm6
+   lea _ESI, [_ESI+2*TMP1]
+   movq mm6, mm5
+   punpcklbw mm5, mm7
                  punpckhbw mm6, mm7
+   psubsw mm2, mm5
+   lea _EAX, [_EAX+2*TMP1]
+   psubsw mm3, mm6
+   lea _EBX, [_EBX+2*TMP1]
+   movq [TMP0+%1*32+ 0], mm0 ; dst
+   movq [TMP0+%1*32+ 8], mm1
+   movq [TMP0+%1*32+16], mm2
+   movq [TMP0+%1*32+24], mm3
+ %endmacro
-                 psubsw mm1, mm3
+ ALIGN SECTION_ALIGN
+ transfer_8to16sub2ro_xmm:
+   pxor mm7, mm7
+   mov TMP0, prm1   ; Dst
+   mov _EAX, prm2   ; Cur
+   mov TMP1d, prm5d ; Stride
+   push _EBX
+ %ifdef ARCH_IS_X86_64
+   mov _EBX, prm3
+ %else
+   mov _EBX, [_ESP+4+12] ; Ref1
+ %endif
-                 psubsw mm4, mm2
+   push _ESI
-                 psubsw mm5, mm6
+ %ifdef ARCH_IS_X86_64
+   mov _ESI, prm4
+ %else
+   mov _ESI, [_ESP+8+16] ; Ref2
+ %endif
-                 movq [edi + 96], mm0                    ; dct[] = mm01
+   COPY_8_TO_16_SUB2RO_SSE 0
-                 movq [edi + 104], mm1
+   COPY_8_TO_16_SUB2RO_SSE 1
-                 movq [edi + 112], mm4
+   COPY_8_TO_16_SUB2RO_SSE 2
-                 movq [edi + 120], mm5
+   COPY_8_TO_16_SUB2RO_SSE 3
-                 pop ebx
-                 pop edi
-                 pop esi
+   pop _ESI
+   pop _EBX
                  ret
+ ENDFUNC
+ ;-----------------------------------------------------------------------------
- ;===========================================================================
  ;
  ; void transfer_16to8add_mmx(uint8_t * const dst,
  ;                                               const int16_t * const src,
  ;                                               uint32_t stride);
  ;
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
- align 16
- cglobal transfer_16to8add_mmx
- transfer_16to8add_mmx
-                 push    esi
-                 push    edi
-                 mov     edi, [esp + 8 + 4]              ; dst
-                 mov     esi, [esp + 8 + 8]              ; src
-                 mov ecx, [esp + 8 + 12]         ; stride
-                 pxor mm7, mm7
-                 mov eax, 8
- .loop
+ %macro COPY_16_TO_8_ADD 1
-                 movq mm0, [edi]
+   movq mm0, [TMP0]
+   movq mm2, [TMP0+TMP1]
                  movq mm1, mm0
-                 punpcklbw mm0, mm7              ; mm23 = unpack([dst])
+   movq mm3, mm2
+   punpcklbw mm0, mm7
+   punpcklbw mm2, mm7
                  punpckhbw mm1, mm7
+   punpckhbw mm3, mm7
+   paddsw mm0, [_EAX+%1*32+ 0]
+   paddsw mm1, [_EAX+%1*32+ 8]
+   paddsw mm2, [_EAX+%1*32+16]
+   paddsw mm3, [_EAX+%1*32+24]
+   packuswb mm0, mm1
+   movq [TMP0], mm0
+   packuswb mm2, mm3
+   movq [TMP0+TMP1], mm2
+ %endmacro
-                 movq mm2, [esi]                 ; mm01 = [src]
-                 movq mm3, [esi + 8]
-                 paddsw mm0, mm2                 ; mm01 += mm23
+ ALIGN SECTION_ALIGN
-                 paddsw mm1, mm3
+ transfer_16to8add_mmx:
+   mov TMP0, prm1 ; Dst
+   mov _EAX, prm2 ; Src
+   mov TMP1, prm3 ; Stride
+   pxor mm7, mm7
-                 packuswb mm0, mm1               ; [dst] = pack(mm01)
+   COPY_16_TO_8_ADD 0
-                 movq [edi], mm0
+   lea TMP0,[TMP0+2*TMP1]
+   COPY_16_TO_8_ADD 1
+   lea TMP0,[TMP0+2*TMP1]
+   COPY_16_TO_8_ADD 2
+   lea TMP0,[TMP0+2*TMP1]
+   COPY_16_TO_8_ADD 3
+   ret
+ ENDFUNC
-                 add esi, 16
+ ;-----------------------------------------------------------------------------
-                 add edi, ecx
+ ;
-                 dec eax
+ ; void transfer8x8_copy_mmx(uint8_t * const dst,
-                 jnz .loop
+ ;                                       const uint8_t * const src,
+ ;                                       const uint32_t stride);
+ ;
+ ;
+ ;-----------------------------------------------------------------------------
-                 pop edi
+ %macro COPY_8_TO_8 0
-                 pop esi
+   movq mm0, [_EAX]
+   movq mm1, [_EAX+TMP1]
+   movq [TMP0], mm0
+   lea _EAX, [_EAX+2*TMP1]
+   movq [TMP0+TMP1], mm1
+ %endmacro
+ ALIGN SECTION_ALIGN
+ transfer8x8_copy_mmx:
+   mov TMP0, prm1 ; Dst
+   mov _EAX, prm2 ; Src
+   mov TMP1, prm3 ; Stride
+   COPY_8_TO_8
+   lea TMP0,[TMP0+2*TMP1]
+   COPY_8_TO_8
+   lea TMP0,[TMP0+2*TMP1]
+   COPY_8_TO_8
+   lea TMP0,[TMP0+2*TMP1]
+   COPY_8_TO_8
                  ret
+ ENDFUNC
+ ;-----------------------------------------------------------------------------
- ;===========================================================================
  ;
- ; void transfer8x8_copy_mmx(uint8_t * const dst,
+ ; void transfer8x4_copy_mmx(uint8_t * const dst,
  ;                                       const uint8_t * const src,
  ;                                       const uint32_t stride);
  ;
  ;
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
- align 16
+ ALIGN SECTION_ALIGN
- cglobal transfer8x8_copy_mmx
+ transfer8x4_copy_mmx:
- transfer8x8_copy_mmx
+   mov TMP0, prm1 ; Dst
-                 push    esi
+   mov _EAX, prm2 ; Src
-                 push    edi
+   mov TMP1, prm3 ; Stride
-                 mov     edi, [esp + 8 + 4]              ; dst [out]
+   COPY_8_TO_8
-                 mov     esi, [esp + 8 + 8]              ; src [in]
+   lea TMP0,[TMP0+2*TMP1]
-                 mov eax, [esp + 8 + 12]         ; stride [in]
+   COPY_8_TO_8
+   ret
-                 movq mm0, [esi]
+ ENDFUNC
-                 movq mm1, [esi+eax]
-                 movq [edi], mm0
-                 movq [edi+eax], mm1
-                 add esi, eax
-                 add edi, eax
-                 add esi, eax
-                 add edi, eax
-                 movq mm0, [esi]
-                 movq mm1, [esi+eax]
-                 movq [edi], mm0
-                 movq [edi+eax], mm1
-                 add esi, eax
-                 add edi, eax
-                 add esi, eax
-                 add edi, eax
-                 movq mm0, [esi]
-                 movq mm1, [esi+eax]
-                 movq [edi], mm0
-                 movq [edi+eax], mm1
-                 add esi, eax
-                 add edi, eax
-                 add esi, eax
-                 add edi, eax
-                 movq mm0, [esi]
-                 movq mm1, [esi+eax]
-                 movq [edi], mm0
-                 movq [edi+eax], mm1
-                 add esi, eax
-                 add edi, eax
-                 add esi, eax
-                 add edi, eax
-                 pop edi
-                 pop esi
-                 ret
+ %ifidn __OUTPUT_FORMAT__,elf
+ section ".note.GNU-stack" noalloc noexec nowrite progbits
+ %endif

 Legend:



Removed from v.1.1
 


changed lines


 
Added in v.1.20.2.1
 Legend:



Removed from v.1.1
 


changed lines


 
Added in v.1.20.2.1
-Removed from v.1.1
+Added in v.1.20.2.1

No admin address has been configured	ViewVC Help
Powered by ViewVC 1.0.4