--- xvid.c	2005/01/05 23:02:15	1.60
+++ xvid.c	2006/06/14 21:44:07	1.69
@@ -19,7 +19,7 @@
  *  along with this program ; if not, write to the Free Software
  *  Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307 USA
  *
- * $Id: xvid.c,v 1.60 2005/01/05 23:02:15 edgomez Exp $
+ * $Id: xvid.c,v 1.69 2006/06/14 21:44:07 Skal Exp $
  *
  ****************************************************************************/
 
@@ -40,6 +40,7 @@
 #include "utils/mbfunctions.h"
 #include "quant/quant.h"
 #include "motion/motion.h"
+#include "motion/gmc.h"
 #include "motion/sad.h"
 #include "utils/emms.h"
 #include "utils/timer.h"
@@ -126,7 +127,7 @@
 
 /* detect cpu flags  */
 static unsigned int
-detect_cpu_flags()
+detect_cpu_flags(void)
 {
 	/* enable native assembly optimizations by default */
 	unsigned int cpu_flags = XVID_CPU_ASM;
@@ -183,7 +184,7 @@
 	idct = idct_int32;
 
 	/* Only needed on PPC Altivec archs */
-	sadInit = 0;
+	sadInit = NULL;
 
 	/* Restore FPU context : emms_c is a nop functions */
 	emms = emms_c;
@@ -213,6 +214,7 @@
 	transfer_8to16sub2ro = transfer_8to16sub2ro_c;
 	transfer_16to8add  = transfer_16to8add_c;
 	transfer8x8_copy   = transfer8x8_copy_c;
+	transfer8x4_copy   = transfer8x4_copy_c;
 
 	/* Interlacing functions */
 	MBFieldTest = MBFieldTest_c;
@@ -222,6 +224,10 @@
 	interpolate8x8_halfpel_v  = interpolate8x8_halfpel_v_c;
 	interpolate8x8_halfpel_hv = interpolate8x8_halfpel_hv_c;
 
+	interpolate8x4_halfpel_h  = interpolate8x4_halfpel_h_c;
+	interpolate8x4_halfpel_v  = interpolate8x4_halfpel_v_c;
+	interpolate8x4_halfpel_hv = interpolate8x4_halfpel_hv_c;
+
 	interpolate8x8_halfpel_add = interpolate8x8_halfpel_add_c;
 	interpolate8x8_halfpel_h_add = interpolate8x8_halfpel_h_add_c;
 	interpolate8x8_halfpel_v_add = interpolate8x8_halfpel_v_add_c;
@@ -301,6 +307,8 @@
 	sse8_16bit = sse8_16bit_c;
 	sse8_8bit  = sse8_8bit_c;
 
+	init_GMC(cpu_flags);
+
 #if defined(ARCH_IS_IA32)
 
 	if ((cpu_flags & XVID_CPU_MMX) || (cpu_flags & XVID_CPU_MMXEXT) ||
@@ -340,6 +348,7 @@
 		transfer_8to16sub2 = transfer_8to16sub2_mmx;
 		transfer_16to8add  = transfer_16to8add_mmx;
 		transfer8x8_copy   = transfer8x8_copy_mmx;
+		transfer8x4_copy   = transfer8x4_copy_mmx;
 
 		/* Interlacing Functions */
 		MBFieldTest = MBFieldTest_mmx;
@@ -349,6 +358,10 @@
 		interpolate8x8_halfpel_v  = interpolate8x8_halfpel_v_mmx;
 		interpolate8x8_halfpel_hv = interpolate8x8_halfpel_hv_mmx;
 
+		interpolate8x4_halfpel_h  = interpolate8x4_halfpel_h_mmx;
+		interpolate8x4_halfpel_v  = interpolate8x4_halfpel_v_mmx;
+		interpolate8x4_halfpel_hv = interpolate8x4_halfpel_hv_mmx;
+
 		interpolate8x8_halfpel_add = interpolate8x8_halfpel_add_mmx;
 		interpolate8x8_halfpel_h_add = interpolate8x8_halfpel_h_add_mmx;
 		interpolate8x8_halfpel_v_add = interpolate8x8_halfpel_v_add_mmx;
@@ -416,6 +429,10 @@
 		interpolate8x8_halfpel_v  = interpolate8x8_halfpel_v_xmm;
 		interpolate8x8_halfpel_hv = interpolate8x8_halfpel_hv_xmm;
 		
+		interpolate8x4_halfpel_h  = interpolate8x4_halfpel_h_xmm;
+		interpolate8x4_halfpel_v  = interpolate8x4_halfpel_v_xmm;
+		interpolate8x4_halfpel_hv = interpolate8x4_halfpel_hv_xmm;
+		
 		interpolate8x8_halfpel_add = interpolate8x8_halfpel_add_xmm;
 		interpolate8x8_halfpel_h_add = interpolate8x8_halfpel_h_add_xmm;
 		interpolate8x8_halfpel_v_add = interpolate8x8_halfpel_v_add_xmm;
@@ -452,6 +469,10 @@
 		interpolate8x8_halfpel_h = interpolate8x8_halfpel_h_3dn;
 		interpolate8x8_halfpel_v = interpolate8x8_halfpel_v_3dn;
 		interpolate8x8_halfpel_hv = interpolate8x8_halfpel_hv_3dn;
+
+		interpolate8x4_halfpel_h = interpolate8x4_halfpel_h_3dn;
+		interpolate8x4_halfpel_v = interpolate8x4_halfpel_v_3dn;
+		interpolate8x4_halfpel_hv = interpolate8x4_halfpel_hv_3dn;
 	}
 
 	if ((cpu_flags & XVID_CPU_3DNOWEXT)) {
@@ -463,6 +484,7 @@
 		transfer_8to16subro =  transfer_8to16subro_3dne;
 		transfer_16to8add = transfer_16to8add_3dne;
 		transfer8x8_copy = transfer8x8_copy_3dne;
+		transfer8x4_copy = transfer8x4_copy_3dne;
 
 		if ((cpu_flags & XVID_CPU_MMXEXT)) {
 			/* Inverse DCT */
@@ -476,6 +498,10 @@
 			interpolate8x8_halfpel_v = interpolate8x8_halfpel_v_3dne;
 			interpolate8x8_halfpel_hv = interpolate8x8_halfpel_hv_3dne;
 
+			interpolate8x4_halfpel_h = interpolate8x4_halfpel_h_3dne;
+			interpolate8x4_halfpel_v = interpolate8x4_halfpel_v_3dne;
+			interpolate8x4_halfpel_hv = interpolate8x4_halfpel_hv_3dne;
+
 			/* Quantization */
 			quant_h263_intra = quant_h263_intra_3dne;		/* cmov only */
 			quant_h263_inter = quant_h263_inter_3dne;
@@ -509,9 +535,9 @@
 		sad16    = sad16_sse2;
 		dev16    = dev16_sse2;
 
-		/* DCT operators
-		 * no iDCT because it's not "Walken matching" */
+		/* DCT operators */
 		fdct = fdct_sse2_skal;
+    /* idct = idct_sse2_skal; */   /* Is now IEEE1180 and Walken compliant. Disabled until fully tested. */
 
 		/* postprocessing */
 		image_brightness = image_brightness_sse2;
@@ -596,6 +622,9 @@
           quant_h263_inter = quant_h263_inter_altivec_c;
           dequant_h263_intra = dequant_h263_intra_altivec_c;
           dequant_h263_inter = dequant_h263_inter_altivec_c;
+
+		  dequant_mpeg_intra = dequant_mpeg_intra_altivec_c;
+		  dequant_mpeg_inter = dequant_mpeg_inter_altivec_c;
 		  
 		  /* Qpel stuff */
 		  xvid_QP_Funcs = &xvid_QP_Funcs_Altivec_C;
@@ -610,7 +639,7 @@
 	 * features there really are. */
 	if (cpu_flags & XVID_CPU_ASM) {
 		/* SIMD state flusher */
-		emms = emms_3dn;
+		emms = emms_mmx;
 
 		/* DCT operators */
 		fdct = fdct_skal_x86_64;
@@ -686,13 +715,21 @@
 		return XVID_ERR_VERSION;
 
 	info->actual_version = XVID_VERSION;
-	info->build = "xvid-1.1-cvshead";
+	info->build = "xvid-1.2.0-dev";
 	info->cpu_flags = detect_cpu_flags();
+  info->num_threads = 0;
 
-#if defined(_SMP) && defined(WIN32)
-	info->num_threads = pthread_num_processors_np();;
-#else
-	info->num_threads = 0;
+#if defined(WIN32)
+  {
+    DWORD dwProcessAffinityMask, dwSystemAffinityMask;
+    if (GetProcessAffinityMask(GetCurrentProcess(), &dwProcessAffinityMask, &dwSystemAffinityMask)) {
+      int i;      
+      for(i=0; i<32; i++) {
+        if ((dwProcessAffinityMask & (1<<i)))
+          info->num_threads++;
+      }
+    }
+  }
 #endif
 
 	return 0;