--- xvid.c	2005/04/04 23:49:37	1.62
+++ xvid.c	2010/03/09 10:00:14	1.83
@@ -4,6 +4,7 @@
  *  - Native API implementation  -
  *
  *  Copyright(C) 2001-2004 Peter Ross <pross@xvid.org>
+ *               2002-2010 Michael Militzer <isibaar@xvid.org>
  *
  *  This program is free software ; you can redistribute it and/or modify
  *  it under the terms of the GNU General Public License as published by
@@ -19,7 +20,7 @@
  *  along with this program ; if not, write to the Free Software
  *  Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307 USA
  *
- * $Id: xvid.c,v 1.62 2005/04/04 23:49:37 edgomez Exp $
+ * $Id: xvid.c,v 1.83 2010/03/09 10:00:14 Isibaar Exp $
  *
  ****************************************************************************/
 
@@ -28,6 +29,26 @@
 #include <string.h>
 #include <time.h>
 
+#if !defined(_WIN32)
+#include <unistd.h>
+#endif
+
+#if defined(__APPLE__) && defined(__MACH__) && !defined(_SC_NPROCESSORS_CONF)
+#include <sys/types.h>
+#include <sys/sysctl.h>
+#ifdef MAX
+#undef MAX
+#endif
+#ifdef MIN
+#undef MIN
+#endif
+#endif
+
+#if defined(__amigaos4__)
+#include <exec/exec.h>
+#include <proto/exec.h>
+#endif
+
 #include "xvid.h"
 #include "decoder.h"
 #include "encoder.h"
@@ -40,6 +61,7 @@
 #include "utils/mbfunctions.h"
 #include "quant/quant.h"
 #include "motion/motion.h"
+#include "motion/gmc.h"
 #include "motion/sad.h"
 #include "utils/emms.h"
 #include "utils/timer.h"
@@ -53,7 +75,7 @@
 
 #if (defined(ARCH_IS_IA32) || defined(ARCH_IS_X86_64)) && defined(_MSC_VER)
 #	include <windows.h>
-#elif defined(ARCH_IS_IA32) || defined(ARCH_IS_X86_64) || defined(ARCH_IS_PPC)
+#elif defined(ARCH_IS_IA32) || defined(ARCH_IS_X86_64) || (defined(ARCH_IS_PPC) && !defined(__amigaos4__))
 #	include <signal.h>
 #	include <setjmp.h>
 
@@ -66,7 +88,6 @@
 	}
 #endif
 
-
 /*
  * Calls the funcptr, and returns whether SIGILL (illegal instruction) was
  * signalled
@@ -89,7 +110,7 @@
 	}
 	return(0);
 }
-#elif defined(ARCH_IS_IA32) || defined(ARCH_IS_X86_64) || defined(ARCH_IS_PPC)
+#elif defined(ARCH_IS_IA32) || defined(ARCH_IS_X86_64) || (defined(ARCH_IS_PPC) && !defined(__amigaos4__))
 static int
 sigill_check(void (*func)())
 {
@@ -126,7 +147,7 @@
 
 /* detect cpu flags  */
 static unsigned int
-detect_cpu_flags()
+detect_cpu_flags(void)
 {
 	/* enable native assembly optimizations by default */
 	unsigned int cpu_flags = XVID_CPU_ASM;
@@ -136,21 +157,31 @@
 	if ((cpu_flags & XVID_CPU_SSE) && sigill_check(sse_os_trigger))
 		cpu_flags &= ~XVID_CPU_SSE;
 
-	if ((cpu_flags & XVID_CPU_SSE2) && sigill_check(sse2_os_trigger))
-		cpu_flags &= ~XVID_CPU_SSE2;
+	if ((cpu_flags & (XVID_CPU_SSE2|XVID_CPU_SSE3|XVID_CPU_SSE41)) && sigill_check(sse2_os_trigger))
+		cpu_flags &= ~(XVID_CPU_SSE2|XVID_CPU_SSE3|XVID_CPU_SSE41);
 #endif
 
 #if defined(ARCH_IS_PPC)
+#if defined(__amigaos4__)
+        {
+                uint32_t vector_unit = VECTORTYPE_NONE;
+                IExec->GetCPUInfoTags(GCIT_VectorUnit, &vector_unit, TAG_END);
+                if (vector_unit == VECTORTYPE_ALTIVEC) {
+                        cpu_flags |= XVID_CPU_ALTIVEC;
+                }
+        }
+#else
 	if (!sigill_check(altivec_trigger))
 		cpu_flags |= XVID_CPU_ALTIVEC;
 #endif
+#endif
 
 	return cpu_flags;
 }
 
 
 /*****************************************************************************
- * XviD Init Entry point
+ * Xvid Init Entry point
  *
  * Well this function initialize all internal function pointers according
  * to the CPU features forced by the library client or autodetected (depending
@@ -183,7 +214,7 @@
 	idct = idct_int32;
 
 	/* Only needed on PPC Altivec archs */
-	sadInit = 0;
+	sadInit = NULL;
 
 	/* Restore FPU context : emms_c is a nop functions */
 	emms = emms_c;
@@ -213,6 +244,7 @@
 	transfer_8to16sub2ro = transfer_8to16sub2ro_c;
 	transfer_16to8add  = transfer_16to8add_c;
 	transfer8x8_copy   = transfer8x8_copy_c;
+	transfer8x4_copy   = transfer8x4_copy_c;
 
 	/* Interlacing functions */
 	MBFieldTest = MBFieldTest_c;
@@ -222,6 +254,10 @@
 	interpolate8x8_halfpel_v  = interpolate8x8_halfpel_v_c;
 	interpolate8x8_halfpel_hv = interpolate8x8_halfpel_hv_c;
 
+	interpolate8x4_halfpel_h  = interpolate8x4_halfpel_h_c;
+	interpolate8x4_halfpel_v  = interpolate8x4_halfpel_v_c;
+	interpolate8x4_halfpel_hv = interpolate8x4_halfpel_hv_c;
+
 	interpolate8x8_halfpel_add = interpolate8x8_halfpel_add_c;
 	interpolate8x8_halfpel_h_add = interpolate8x8_halfpel_h_add_c;
 	interpolate8x8_halfpel_v_add = interpolate8x8_halfpel_v_add_c;
@@ -251,6 +287,7 @@
 	yv12_to_yv12    = yv12_to_yv12_c;
 	rgb555_to_yv12  = rgb555_to_yv12_c;
 	rgb565_to_yv12  = rgb565_to_yv12_c;
+	rgb_to_yv12     = rgb_to_yv12_c;
 	bgr_to_yv12     = bgr_to_yv12_c;
 	bgra_to_yv12    = bgra_to_yv12_c;
 	abgr_to_yv12    = abgr_to_yv12_c;
@@ -272,6 +309,7 @@
 	/* All colorspace transformation functions YV12->User format */
 	yv12_to_rgb555  = yv12_to_rgb555_c;
 	yv12_to_rgb565  = yv12_to_rgb565_c;
+	yv12_to_rgb     = yv12_to_rgb_c;
 	yv12_to_bgr     = yv12_to_bgr_c;
 	yv12_to_bgra    = yv12_to_bgra_c;
 	yv12_to_abgr    = yv12_to_abgr_c;
@@ -301,11 +339,14 @@
 	sse8_16bit = sse8_16bit_c;
 	sse8_8bit  = sse8_8bit_c;
 
-#if defined(ARCH_IS_IA32)
+	init_GMC(cpu_flags);
+
+#if defined(ARCH_IS_IA32) || defined(ARCH_IS_X86_64)
 
 	if ((cpu_flags & XVID_CPU_MMX) || (cpu_flags & XVID_CPU_MMXEXT) ||
 		(cpu_flags & XVID_CPU_3DNOW) || (cpu_flags & XVID_CPU_3DNOWEXT) ||
-		(cpu_flags & XVID_CPU_SSE) || (cpu_flags & XVID_CPU_SSE2))
+		(cpu_flags & XVID_CPU_SSE) || (cpu_flags & XVID_CPU_SSE2) ||
+        (cpu_flags & XVID_CPU_SSE3) || (cpu_flags & XVID_CPU_SSE41))
 	{
 		/* Restore FPU context : emms_c is a nop functions */
 		emms = emms_mmx;
@@ -323,15 +364,15 @@
 
 		/* Quantization related functions */
 		quant_h263_intra   = quant_h263_intra_mmx;
-		quant_h263_inter   = quant_h263_inter_mmx;
+                quant_h263_inter   = quant_h263_inter_mmx;
 		dequant_h263_intra = dequant_h263_intra_mmx;
 		dequant_h263_inter = dequant_h263_inter_mmx;
-
 		quant_mpeg_intra   = quant_mpeg_intra_mmx;
 		quant_mpeg_inter   = quant_mpeg_inter_mmx;
 		dequant_mpeg_intra = dequant_mpeg_intra_mmx;
 		dequant_mpeg_inter = dequant_mpeg_inter_mmx;
 
+
 		/* Block related functions */
 		transfer_8to16copy = transfer_8to16copy_mmx;
 		transfer_16to8copy = transfer_16to8copy_mmx;
@@ -340,6 +381,7 @@
 		transfer_8to16sub2 = transfer_8to16sub2_mmx;
 		transfer_16to8add  = transfer_16to8add_mmx;
 		transfer8x8_copy   = transfer8x8_copy_mmx;
+		transfer8x4_copy   = transfer8x4_copy_mmx;
 
 		/* Interlacing Functions */
 		MBFieldTest = MBFieldTest_mmx;
@@ -349,6 +391,10 @@
 		interpolate8x8_halfpel_v  = interpolate8x8_halfpel_v_mmx;
 		interpolate8x8_halfpel_hv = interpolate8x8_halfpel_hv_mmx;
 
+		interpolate8x4_halfpel_h  = interpolate8x4_halfpel_h_mmx;
+		interpolate8x4_halfpel_v  = interpolate8x4_halfpel_v_mmx;
+		interpolate8x4_halfpel_hv = interpolate8x4_halfpel_hv_mmx;
+
 		interpolate8x8_halfpel_add = interpolate8x8_halfpel_add_mmx;
 		interpolate8x8_halfpel_h_add = interpolate8x8_halfpel_h_add_mmx;
 		interpolate8x8_halfpel_v_add = interpolate8x8_halfpel_v_add_mmx;
@@ -364,9 +410,13 @@
 		image_brightness = image_brightness_mmx;
 
 		/* image input xxx_to_yv12 related functions */
+
 		yv12_to_yv12  = yv12_to_yv12_mmx;
+
 		bgr_to_yv12   = bgr_to_yv12_mmx;
+		rgb_to_yv12   = rgb_to_yv12_mmx;
 		bgra_to_yv12  = bgra_to_yv12_mmx;
+		rgba_to_yv12  = rgba_to_yv12_mmx;
 		yuyv_to_yv12  = yuyv_to_yv12_mmx;
 		uyvy_to_yv12  = uyvy_to_yv12_mmx;
 
@@ -402,6 +452,7 @@
 
 		yuyv_to_yv12  = yuyv_to_yv12_3dn;
 		uyvy_to_yv12  = uyvy_to_yv12_3dn;
+
 	}
 
 
@@ -416,24 +467,27 @@
 		interpolate8x8_halfpel_v  = interpolate8x8_halfpel_v_xmm;
 		interpolate8x8_halfpel_hv = interpolate8x8_halfpel_hv_xmm;
 		
+		interpolate8x4_halfpel_h  = interpolate8x4_halfpel_h_xmm;
+		interpolate8x4_halfpel_v  = interpolate8x4_halfpel_v_xmm;
+		interpolate8x4_halfpel_hv = interpolate8x4_halfpel_hv_xmm;
+		
 		interpolate8x8_halfpel_add = interpolate8x8_halfpel_add_xmm;
 		interpolate8x8_halfpel_h_add = interpolate8x8_halfpel_h_add_xmm;
 		interpolate8x8_halfpel_v_add = interpolate8x8_halfpel_v_add_xmm;
 		interpolate8x8_halfpel_hv_add = interpolate8x8_halfpel_hv_add_xmm;
 
-		/* Quantization */
-		quant_mpeg_intra = quant_mpeg_intra_xmm;
+        /* Quantization */
 		quant_mpeg_inter = quant_mpeg_inter_xmm;
 
 		dequant_h263_intra = dequant_h263_intra_xmm;
 		dequant_h263_inter = dequant_h263_inter_xmm;
 
-		/* Buffer transfer */
+        /* Buffer transfer */
 		transfer_8to16sub2 = transfer_8to16sub2_xmm;
 		transfer_8to16sub2ro = transfer_8to16sub2ro_xmm;
 
 		/* Colorspace transformation */
-		yv12_to_yv12  = yv12_to_yv12_xmm;
+		/* yv12_to_yv12  = yv12_to_yv12_xmm; */ /* appears to be slow on many machines */
 		yuyv_to_yv12  = yuyv_to_yv12_xmm;
 		uyvy_to_yv12  = uyvy_to_yv12_xmm;
 
@@ -452,6 +506,10 @@
 		interpolate8x8_halfpel_h = interpolate8x8_halfpel_h_3dn;
 		interpolate8x8_halfpel_v = interpolate8x8_halfpel_v_3dn;
 		interpolate8x8_halfpel_hv = interpolate8x8_halfpel_hv_3dn;
+
+		interpolate8x4_halfpel_h = interpolate8x4_halfpel_h_3dn;
+		interpolate8x4_halfpel_v = interpolate8x4_halfpel_v_3dn;
+		interpolate8x4_halfpel_hv = interpolate8x4_halfpel_hv_3dn;
 	}
 
 	if ((cpu_flags & XVID_CPU_3DNOWEXT)) {
@@ -463,6 +521,7 @@
 		transfer_8to16subro =  transfer_8to16subro_3dne;
 		transfer_16to8add = transfer_16to8add_3dne;
 		transfer8x8_copy = transfer8x8_copy_3dne;
+		transfer8x4_copy = transfer8x4_copy_3dne;
 
 		if ((cpu_flags & XVID_CPU_MMXEXT)) {
 			/* Inverse DCT */
@@ -476,7 +535,11 @@
 			interpolate8x8_halfpel_v = interpolate8x8_halfpel_v_3dne;
 			interpolate8x8_halfpel_hv = interpolate8x8_halfpel_hv_3dne;
 
-			/* Quantization */
+			interpolate8x4_halfpel_h = interpolate8x4_halfpel_h_3dne;
+			interpolate8x4_halfpel_v = interpolate8x4_halfpel_v_3dne;
+			interpolate8x4_halfpel_hv = interpolate8x4_halfpel_hv_3dne;
+
+            /* Quantization */
 			quant_h263_intra = quant_h263_intra_3dne;		/* cmov only */
 			quant_h263_inter = quant_h263_inter_3dne;
 			dequant_mpeg_intra = dequant_mpeg_intra_3dne;	/* cmov only */
@@ -484,9 +547,7 @@
 			dequant_h263_intra = dequant_h263_intra_3dne;
 			dequant_h263_inter = dequant_h263_inter_3dne;
 
-			/* ME functions */
-			calc_cbp = calc_cbp_3dne;
-
+            /* ME functions */
 			sad16 = sad16_3dne;
 			sad8 = sad8_3dne;
 			sad16bi = sad16bi_3dne;
@@ -494,7 +555,7 @@
 			dev16 = dev16_3dne;
 		}
 	}
-
+ 
 	if ((cpu_flags & XVID_CPU_SSE2)) {
 
 		calc_cbp = calc_cbp_sse2;
@@ -509,13 +570,22 @@
 		sad16    = sad16_sse2;
 		dev16    = dev16_sse2;
 
-		/* DCT operators
-		 * no iDCT because it's not "Walken matching" */
+		/* DCT operators */
 		fdct = fdct_sse2_skal;
+		idct = idct_sse2_skal;   /* Is now IEEE1180 and Walken compliant. */
 
 		/* postprocessing */
 		image_brightness = image_brightness_sse2;
+
 	}
+
+	if ((cpu_flags & XVID_CPU_SSE3)) {
+
+		/* SAD operators */
+		sad16    = sad16_sse3;
+		dev16    = dev16_sse3;
+	}
+
 #endif /* ARCH_IS_IA32 */
 
 #if defined(ARCH_IS_IA64)
@@ -606,74 +676,6 @@
         }
 #endif
 
-#if defined(ARCH_IS_X86_64)
-	/* For now, only XVID_CPU_ASM is looked for, so user can still
-	 * disable asm usage the usual way. When Intel EMT64 cpus will
-	 * be out, maybe we'll have to check more precisely what cpu
-	 * features there really are. */
-	if (cpu_flags & XVID_CPU_ASM) {
-		/* SIMD state flusher */
-		emms = emms_3dn;
-
-		/* DCT operators */
-		fdct = fdct_skal_x86_64;
-		idct = idct_x86_64;
-
-		/* SAD operators */
-		sad16      = sad16_x86_64;
-		sad8       = sad8_x86_64;
-		sad16bi    = sad16bi_x86_64;
-		sad8bi     = sad8bi_x86_64;
-		dev16      = dev16_x86_64;
-		sad16v	   = sad16v_x86_64;
-		sse8_16bit = sse8_16bit_x86_64;
-		sse8_8bit  = sse8_8bit_x86_64;
-
-		/* Interpolation operators */
-		interpolate8x8_halfpel_h  = interpolate8x8_halfpel_h_x86_64;
-		interpolate8x8_halfpel_v  = interpolate8x8_halfpel_v_x86_64;
-		interpolate8x8_halfpel_hv = interpolate8x8_halfpel_hv_x86_64;
-
-		interpolate8x8_halfpel_add = interpolate8x8_halfpel_add_x86_64;
-		interpolate8x8_halfpel_h_add = interpolate8x8_halfpel_h_add_x86_64;
-		interpolate8x8_halfpel_v_add = interpolate8x8_halfpel_v_add_x86_64;
-		interpolate8x8_halfpel_hv_add = interpolate8x8_halfpel_hv_add_x86_64;
-
-		interpolate8x8_6tap_lowpass_h = interpolate8x8_6tap_lowpass_h_x86_64;
-		interpolate8x8_6tap_lowpass_v = interpolate8x8_6tap_lowpass_v_x86_64;
-
-		interpolate8x8_avg2 = interpolate8x8_avg2_x86_64;
-		interpolate8x8_avg4 = interpolate8x8_avg4_x86_64;
-
-		/* Quantization related functions */
-		quant_h263_intra   = quant_h263_intra_x86_64;
-		quant_h263_inter   = quant_h263_inter_x86_64;
-		dequant_h263_intra = dequant_h263_intra_x86_64;
-		dequant_h263_inter = dequant_h263_inter_x86_64;
-		quant_mpeg_intra   = quant_mpeg_intra_x86_64;
-		quant_mpeg_inter   = quant_mpeg_inter_x86_64;
-		dequant_mpeg_intra   = dequant_mpeg_intra_x86_64;
-		dequant_mpeg_inter   = dequant_mpeg_inter_x86_64;
-
-		/* Block related functions */
-		transfer_8to16copy  = transfer_8to16copy_x86_64;
-		transfer_16to8copy  = transfer_16to8copy_x86_64;
-		transfer_8to16sub   = transfer_8to16sub_x86_64;
-		transfer_8to16subro = transfer_8to16subro_x86_64;
-		transfer_8to16sub2  = transfer_8to16sub2_x86_64;
-		transfer_8to16sub2ro= transfer_8to16sub2ro_x86_64;
-		transfer_16to8add   = transfer_16to8add_x86_64;
-		transfer8x8_copy    = transfer8x8_copy_x86_64;
-
-		/* Qpel stuff */
-		xvid_QP_Funcs = &xvid_QP_Funcs_x86_64;
-		xvid_QP_Add_Funcs = &xvid_QP_Add_Funcs_x86_64;
-
-		/* Interlacing Functions */
-		MBFieldTest = MBFieldTest_x86_64;
-	}
-#endif
-
 #if defined(_DEBUG)
     xvid_debug = init->debug;
 #endif
@@ -689,13 +691,45 @@
 		return XVID_ERR_VERSION;
 
 	info->actual_version = XVID_VERSION;
-	info->build = "xvid-1.1.0-beta2";
+	info->build = "xvid-1.3.0-dev";
 	info->cpu_flags = detect_cpu_flags();
+	info->num_threads = 0; /* single-thread */
+
+#if defined(_WIN32)
+
+  {
+	SYSTEM_INFO siSysInfo;
+	GetSystemInfo(&siSysInfo);
+	info->num_threads = siSysInfo.dwNumberOfProcessors; /* number of _logical_ cores */
+  }
+
+#elif defined(_SC_NPROCESSORS_CONF) /* should be available on Apple too actually */
+
+  info->num_threads = sysconf(_SC_NPROCESSORS_CONF);	
+
+#elif defined(__APPLE__) && defined(__MACH__)
+
+  {
+    size_t len;
+    int    mib[2], ncpu;
+
+    mib[0] = CTL_HW;
+    mib[1] = HW_NCPU;
+    len    = sizeof(ncpu);
+    if (sysctl(mib, 2, &ncpu, &len, NULL, 0) == 0)
+      info -> num_threads = ncpu;
+    else
+      info -> num_threads = 1;
+  }
+
+#elif defined(__amigaos4__)
+
+  {
+    uint32_t num_threads = 1;
+    IExec->GetCPUInfoTags(GCIT_NumberOfCPUs, &num_threads, TAG_END);
+    info->num_threads = num_threads;
+  }
 
-#if defined(_SMP) && defined(WIN32)
-	info->num_threads = pthread_num_processors_np();;
-#else
-	info->num_threads = 0;
 #endif
 
 	return 0;
@@ -743,7 +777,7 @@
 }
 
 /*****************************************************************************
- * XviD Global Entry point
+ * Xvid Global Entry point
  *
  * Well this function initialize all internal function pointers according
  * to the CPU features forced by the library client or autodetected (depending
@@ -776,7 +810,7 @@
 }
 
 /*****************************************************************************
- * XviD Native decoder entry point
+ * Xvid Native decoder entry point
  *
  * This function is just a wrapper to all the option cases.
  *
@@ -808,7 +842,7 @@
 
 
 /*****************************************************************************
- * XviD Native encoder entry point
+ * Xvid Native encoder entry point
  *
  * This function is just a wrapper to all the option cases.
  *