--- decoder.c	2002/03/20 00:27:29	1.3
+++ decoder.c	2002/04/04 13:58:06	1.9
@@ -32,6 +32,11 @@
  *
  *	History:
  *
+ *  29.03.2002  interlacing fix - compensated block wasn't being used when
+ *              reconstructing blocks, thus artifacts
+ *              interlacing speedup - used transfers to re-interlace
+ *              interlaced decoding should be as fast as progressive now
+ *  26.03.2002  interlacing support - moved transfers outside decode loop
  *	26.12.2001	decoder_mbinter: dequant/idct moved within if(coded) block
  *	22.12.2001	block based interpolation
  *	01.12.2001	inital version; (c)2001 peter ross <pross@cs.rmit.edu.au>
@@ -68,7 +73,7 @@
 {
 	DECODER * dec;
 
-	dec = xvid_malloc(sizeof(DECODER), 16);
+	dec = xvid_malloc(sizeof(DECODER), CACHE_LINE);
 	if (dec == NULL) 
 	{
 		return XVID_ERR_MEMORY;
@@ -97,7 +102,7 @@
 		return XVID_ERR_MEMORY;
 	}
 
-	dec->mbs = xvid_malloc(sizeof(MACROBLOCK) * dec->mb_width * dec->mb_height, 16);
+	dec->mbs = xvid_malloc(sizeof(MACROBLOCK) * dec->mb_width * dec->mb_height, CACHE_LINE);
 	if (dec->mbs == NULL)
 	{
 		image_destroy(&dec->cur, dec->edged_width, dec->edged_height);
@@ -106,7 +111,6 @@
 	}
 
 	init_timer();
-	create_vlc_tables();
 
 	return XVID_ERR_OK;
 }
@@ -119,8 +123,6 @@
 	image_destroy(&dec->cur, dec->edged_width, dec->edged_height);
 	xvid_free(dec);
 
-	destroy_vlc_tables();
-
 	write_timer();
 	return XVID_ERR_OK;
 }
@@ -135,36 +137,53 @@
 
 // decode an intra macroblock
 
-void decoder_mbintra(DECODER * dec, MACROBLOCK * mb, int x, int y, uint32_t acpred_flag, uint32_t cbp, Bitstream * bs, int quant, int intra_dc_threshold)
+void decoder_mbintra(DECODER * dec,
+		     MACROBLOCK * pMB,
+		     const uint32_t x_pos,
+		     const uint32_t y_pos,
+		     const uint32_t acpred_flag,
+		     const uint32_t cbp,
+		     Bitstream * bs,
+		     const uint32_t quant,
+		     const uint32_t intra_dc_threshold)
 {
-	uint32_t k;
 
-	for (k = 0; k < 6; k++)
+	DECLARE_ALIGNED_MATRIX(block, 6, 64, int16_t, CACHE_LINE);
+	DECLARE_ALIGNED_MATRIX(data,  6, 64, int16_t, CACHE_LINE);
+
+	uint32_t stride = dec->edged_width;
+	uint32_t stride2 = stride / 2;
+	uint32_t next_block = stride * 8;
+	uint32_t i;
+	uint32_t iQuant = pMB->quant;
+	uint8_t *pY_Cur, *pU_Cur, *pV_Cur;
+
+	pY_Cur = dec->cur.y + (y_pos << 4) * stride + (x_pos << 4);
+	pU_Cur = dec->cur.u + (y_pos << 3) * stride2 + (x_pos << 3);
+	pV_Cur = dec->cur.v + (y_pos << 3) * stride2 + (x_pos << 3);
+
+	memset(block, 0, 6*64*sizeof(int16_t));		// clear
+
+	for (i = 0; i < 6; i++)
 	{
-		uint32_t dcscalar;
-		int16_t block[64];
-		int16_t data[64];
+		uint32_t iDcScaler = get_dc_scaler(iQuant, i < 4);
 		int16_t predictors[8];
 		int start_coeff;
 
-		dcscalar = get_dc_scaler(mb->quant, k < 4);
-
 		start_timer();
-		predict_acdc(dec->mbs, x, y, dec->mb_width, k, block, mb->quant, dcscalar, predictors);
+		predict_acdc(dec->mbs, x_pos, y_pos, dec->mb_width, i, &block[i*64], iQuant, iDcScaler, predictors);
 		if (!acpred_flag)
 		{
-			mb->acpred_directions[k] = 0;
+			pMB->acpred_directions[i] = 0;
 		}
 		stop_prediction_timer();
 
-		memset(block, 0, 64*sizeof(int16_t));		// clear
-
 		if (quant < intra_dc_threshold)
 		{
 			int dc_size;
 			int dc_dif;
 
-			dc_size = k < 4 ?  get_dc_size_lum(bs) : get_dc_size_chrom(bs);
+			dc_size = i < 4 ?  get_dc_size_lum(bs) : get_dc_size_chrom(bs);
 			dc_dif = dc_size ? get_dc_dif(bs, dc_size) : 0 ;
 
 			if (dc_size > 8)
@@ -172,7 +191,7 @@
 				BitstreamSkip(bs, 1);		// marker
 			}
 		
-			block[0] = dc_dif;
+			block[i*64 + 0] = dc_dif;
 			start_coeff = 1;
 		}
 		else
@@ -181,46 +200,46 @@
 		}
 
 		start_timer();
-		if (cbp & (1 << (5-k)))			// coded
+		if (cbp & (1 << (5-i)))			// coded
 		{
-			get_intra_block(bs, block, mb->acpred_directions[k], start_coeff);
+			get_intra_block(bs, &block[i*64], pMB->acpred_directions[i], start_coeff);
 		}
 		stop_coding_timer();
 
 		start_timer();
-		add_acdc(mb, k, block, dcscalar, predictors);
+		add_acdc(pMB, i, &block[i*64], iDcScaler, predictors);
 		stop_prediction_timer();
 
 		start_timer();
 		if (dec->quant_type == 0)
 		{
-			dequant_intra(data, block, mb->quant, dcscalar);
+			dequant_intra(&data[i*64], &block[i*64], iQuant, iDcScaler);
 		}
 		else
 		{
-			dequant4_intra(data, block, mb->quant, dcscalar);
+			dequant4_intra(&data[i*64], &block[i*64], iQuant, iDcScaler);
 		}
 		stop_iquant_timer();
 
 		start_timer();
-		idct(data);
+		idct(&data[i*64]);
 		stop_idct_timer();
+	}
 
-		start_timer();
-		if (k < 4)
-		{
-			transfer_16to8copy(dec->cur.y + (16*y*dec->edged_width) + 16*x + (4*(k&2)*dec->edged_width) + 8*(k&1), data, dec->edged_width);
-		} 
-		else if (k == 4)
-		{
-			transfer_16to8copy(dec->cur.u+ 8*y*(dec->edged_width/2) + 8*x, data, (dec->edged_width/2));
-		}
-		else	// if (k == 5)
-		{
-			transfer_16to8copy(dec->cur.v + 8*y*(dec->edged_width/2) + 8*x, data, (dec->edged_width/2));
-		}
-		stop_transfer_timer();
+	if (pMB->field_dct)
+	{
+		next_block = stride;
+		stride *= 2;
 	}
+
+	start_timer();
+	transfer_16to8copy(pY_Cur,                  &data[0*64], stride);
+	transfer_16to8copy(pY_Cur + 8,              &data[1*64], stride);
+	transfer_16to8copy(pY_Cur + next_block,     &data[2*64], stride);
+	transfer_16to8copy(pY_Cur + 8 + next_block, &data[3*64], stride);
+	transfer_16to8copy(pU_Cur,                  &data[4*64], stride2);
+	transfer_16to8copy(pV_Cur,                  &data[5*64], stride2);
+	stop_transfer_timer();
 }
 
 
@@ -230,22 +249,41 @@
 #define SIGN(X) (((X)>0)?1:-1)
 #define ABS(X) (((X)>0)?(X):-(X))
 static const uint32_t roundtab[16] =
-		{ 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2 };
+{ 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2 };
 
 
 // decode an inter macroblock
 
-void decoder_mbinter(DECODER * dec, MACROBLOCK * mb, int x, int y, uint32_t acpred_flag, uint32_t cbp, Bitstream * bs, int quant, int rounding)
+void decoder_mbinter(DECODER * dec,
+		     const MACROBLOCK * pMB,
+		     const uint32_t x_pos,
+		     const uint32_t y_pos,
+		     const uint32_t acpred_flag,
+		     const uint32_t cbp,
+		     Bitstream * bs,
+		     const uint32_t quant,
+		     const uint32_t rounding)
 {
-	const uint32_t stride = dec->edged_width;
-	const uint32_t stride2 = dec->edged_width / 2;
+
+	DECLARE_ALIGNED_MATRIX(block,6, 64, int16_t, CACHE_LINE);
+	DECLARE_ALIGNED_MATRIX(data, 6, 64, int16_t, CACHE_LINE);
+
+	uint32_t stride = dec->edged_width;
+	uint32_t stride2 = stride / 2;
+	uint32_t next_block = stride * 8;
+	uint32_t i;
+	uint32_t iQuant = pMB->quant;
+	uint8_t *pY_Cur, *pU_Cur, *pV_Cur;
 	int uv_dx, uv_dy;
-	uint32_t k;
 
-	if (mb->mode == MODE_INTER || mb->mode == MODE_INTER_Q)
+	pY_Cur = dec->cur.y + (y_pos << 4) * stride + (x_pos << 4);
+	pU_Cur = dec->cur.u + (y_pos << 3) * stride2 + (x_pos << 3);
+	pV_Cur = dec->cur.v + (y_pos << 3) * stride2 + (x_pos << 3);
+
+	if (pMB->mode == MODE_INTER || pMB->mode == MODE_INTER_Q)
 	{
-		uv_dx = mb->mvs[0].x;
-		uv_dy = mb->mvs[0].y;
+		uv_dx = pMB->mvs[0].x;
+		uv_dy = pMB->mvs[0].y;
 
 		uv_dx = (uv_dx & 3) ? (uv_dx >> 1) | 1 : uv_dx / 2;
 		uv_dy = (uv_dy & 3) ? (uv_dy >> 1) | 1 : uv_dy / 2;
@@ -253,73 +291,75 @@
 	else
 	{
 		int sum;
-		sum = mb->mvs[0].x + mb->mvs[1].x + mb->mvs[2].x + mb->mvs[3].x;
+		sum = pMB->mvs[0].x + pMB->mvs[1].x + pMB->mvs[2].x + pMB->mvs[3].x;
 		uv_dx = (sum == 0 ? 0 : SIGN(sum) * (roundtab[ABS(sum) % 16] + (ABS(sum) / 16) * 2) );
 
-		sum = mb->mvs[0].y + mb->mvs[1].y + mb->mvs[2].y + mb->mvs[3].y;
+		sum = pMB->mvs[0].y + pMB->mvs[1].y + pMB->mvs[2].y + pMB->mvs[3].y;
 		uv_dy = (sum == 0 ? 0 : SIGN(sum) * (roundtab[ABS(sum) % 16] + (ABS(sum) / 16) * 2) );
 	}
 
 	start_timer();
-	interpolate8x8_switch(dec->cur.y, dec->refn.y, 16*x,     16*y    , mb->mvs[0].x, mb->mvs[0].y, stride,  rounding);
-	interpolate8x8_switch(dec->cur.y, dec->refn.y, 16*x + 8, 16*y    , mb->mvs[1].x, mb->mvs[1].y, stride,  rounding);
-	interpolate8x8_switch(dec->cur.y, dec->refn.y, 16*x,     16*y + 8, mb->mvs[2].x, mb->mvs[2].y, stride,  rounding);
-	interpolate8x8_switch(dec->cur.y, dec->refn.y, 16*x + 8, 16*y + 8, mb->mvs[3].x, mb->mvs[3].y, stride,  rounding);
-	interpolate8x8_switch(dec->cur.u, dec->refn.u, 8*x, 8*y, uv_dx, uv_dy, stride2, rounding);
-	interpolate8x8_switch(dec->cur.v, dec->refn.v, 8*x, 8*y, uv_dx, uv_dy, stride2, rounding);
+	interpolate8x8_switch(dec->cur.y, dec->refn.y, 16*x_pos,     16*y_pos    , pMB->mvs[0].x, pMB->mvs[0].y, stride,  rounding);
+	interpolate8x8_switch(dec->cur.y, dec->refn.y, 16*x_pos + 8, 16*y_pos    , pMB->mvs[1].x, pMB->mvs[1].y, stride,  rounding);
+	interpolate8x8_switch(dec->cur.y, dec->refn.y, 16*x_pos,     16*y_pos + 8, pMB->mvs[2].x, pMB->mvs[2].y, stride,  rounding);
+	interpolate8x8_switch(dec->cur.y, dec->refn.y, 16*x_pos + 8, 16*y_pos + 8, pMB->mvs[3].x, pMB->mvs[3].y, stride,  rounding);
+	interpolate8x8_switch(dec->cur.u, dec->refn.u, 8*x_pos,      8*y_pos,      uv_dx,         uv_dy,         stride2, rounding);
+	interpolate8x8_switch(dec->cur.v, dec->refn.v, 8*x_pos,      8*y_pos,      uv_dx,         uv_dy,         stride2, rounding);
 	stop_comp_timer();
 
-
-	for (k = 0; k < 6; k++)
+	for (i = 0; i < 6; i++)
 	{
-		int16_t block[64];
-		int16_t data[64];
-		
-		if (cbp & (1 << (5-k)))			// coded
+		if (cbp & (1 << (5-i)))			// coded
 		{
-			memset(block, 0, 64 * sizeof(int16_t));		// clear
+			memset(&block[i*64], 0, 64 * sizeof(int16_t));		// clear
 
 			start_timer();
-			get_inter_block(bs, block);
+			get_inter_block(bs, &block[i*64]);
 			stop_coding_timer();
 
 			start_timer();
 			if (dec->quant_type == 0)
 			{
-				dequant_inter(data, block, mb->quant);
+				dequant_inter(&data[i*64], &block[i*64], iQuant);
 			}
 			else
 			{
-				dequant4_inter(data, block, mb->quant);
+				dequant4_inter(&data[i*64], &block[i*64], iQuant);
 			}
 			stop_iquant_timer();
 
 			start_timer();
-			idct(data);
+			idct(&data[i*64]);
 			stop_idct_timer();
-
-			start_timer();
-			if (k < 4)
-			{
-				transfer_16to8add(dec->cur.y + (16*y + 4*(k&2))*stride + 16*x + 8*(k&1), data, stride);
-			}
-			else if (k == 4)
-			{
-				transfer_16to8add(dec->cur.u + 8*y*stride2 + 8*x, data, stride2);
-			}
-			else // k == 5
-			{
-				transfer_16to8add(dec->cur.v + 8*y*stride2 + 8*x, data, stride2);
-			}
-			stop_transfer_timer();
 		}
 	}
-}
 
+	if (pMB->field_dct)
+	{
+		next_block = stride;
+		stride *= 2;
+	}
+
+	start_timer();
+	if (cbp & 32)
+		transfer_16to8add(pY_Cur,                  &data[0*64], stride);
+	if (cbp & 16)
+		transfer_16to8add(pY_Cur + 8,              &data[1*64], stride);
+	if (cbp & 8)
+		transfer_16to8add(pY_Cur + next_block,     &data[2*64], stride);
+	if (cbp & 4)
+		transfer_16to8add(pY_Cur + 8 + next_block, &data[3*64], stride);
+	if (cbp & 2)
+		transfer_16to8add(pU_Cur,                  &data[4*64], stride2);
+	if (cbp & 1)
+		transfer_16to8add(pV_Cur,                  &data[5*64], stride2);
+	stop_transfer_timer();
+}
 
 
 void decoder_iframe(DECODER * dec, Bitstream * bs, int quant, int intra_dc_threshold)
 {
+
 	uint32_t x, y;
 
 	for (y = 0; y < dec->mb_height; y++)
@@ -362,16 +402,23 @@
 				}
 			}
 			mb->quant = quant;
-			
+
+			if (dec->interlacing)
+			{
+				mb->field_dct = BitstreamGetBit(bs);
+				DEBUG1("deci: field_dct: ", mb->field_dct);
+			}
 
 			decoder_mbintra(dec, mb, x, y, acpred_flag, cbp, bs, quant, intra_dc_threshold);
 		}
 	}
+
 }
 
 
 void get_motion_vector(DECODER *dec, Bitstream *bs, int x, int y, int k, VECTOR * mv, int fcode)
 {
+
 	int scale_fac = 1 << (fcode - 1);
 	int high = (32 * scale_fac) - 1;
 	int low = ((-32) * scale_fac);
@@ -421,12 +468,13 @@
 
 void decoder_pframe(DECODER * dec, Bitstream * bs, int rounding, int quant, int fcode, int intra_dc_threshold)
 {
+
 	uint32_t x, y;
 
 	image_swap(&dec->cur, &dec->refn);
 	
 	start_timer();
-	image_setedges(&dec->refn, dec->edged_width, dec->edged_height, dec->width, dec->height);
+	image_setedges(&dec->refn, dec->edged_width, dec->edged_height, dec->width, dec->height, dec->interlacing);
 	stop_edges_timer();
 
 	for (y = 0; y < dec->mb_height; y++)
@@ -478,13 +526,40 @@
 					}
 				}
 				mb->quant = quant;
-				
-				if (mb->mode == MODE_INTER || mb->mode == MODE_INTER_Q)
+
+				if (dec->interlacing)
 				{
+					mb->field_dct = BitstreamGetBit(bs);
+					DEBUG1("decp: field_dct: ", mb->field_dct);
 
-					get_motion_vector(dec, bs, x, y, 0, &mb->mvs[0], fcode);
-					mb->mvs[1].x = mb->mvs[2].x = mb->mvs[3].x = mb->mvs[0].x;
-					mb->mvs[1].y = mb->mvs[2].y = mb->mvs[3].y = mb->mvs[0].y;
+					if (mb->mode == MODE_INTER || mb->mode == MODE_INTER_Q)
+					{
+						mb->field_pred = BitstreamGetBit(bs);
+						DEBUG1("decp: field_pred: ", mb->field_pred);
+
+						if (mb->field_pred)
+						{
+							mb->field_for_top = BitstreamGetBit(bs);
+							DEBUG1("decp: field_for_top: ", mb->field_for_top);
+							mb->field_for_bot = BitstreamGetBit(bs);
+							DEBUG1("decp: field_for_bot: ", mb->field_for_bot);
+						}
+					}
+				}
+
+				if (mb->mode == MODE_INTER || mb->mode == MODE_INTER_Q)
+				{
+					if (dec->interlacing && mb->field_pred)
+					{
+						get_motion_vector(dec, bs, x, y, 0, &mb->mvs[0], fcode);
+						get_motion_vector(dec, bs, x, y, 0, &mb->mvs[1], fcode);
+					}
+					else
+					{
+						get_motion_vector(dec, bs, x, y, 0, &mb->mvs[0], fcode);
+						mb->mvs[1].x = mb->mvs[2].x = mb->mvs[3].x = mb->mvs[0].x;
+						mb->mvs[1].y = mb->mvs[2].y = mb->mvs[3].y = mb->mvs[0].y;
+					}
 				}
 				else if (mb->mode == MODE_INTER4V /* || mb->mode == MODE_INTER4V_Q */)
 				{
@@ -515,28 +590,28 @@
 				start_timer();
 
 				transfer8x8_copy(dec->cur.y + (16*y)*dec->edged_width + (16*x), 
-								dec->refn.y + (16*y)*dec->edged_width + (16*x), 
-								dec->edged_width);
+						 dec->refn.y + (16*y)*dec->edged_width + (16*x), 
+						 dec->edged_width);
 
 				transfer8x8_copy(dec->cur.y + (16*y)*dec->edged_width + (16*x+8), 
-								dec->refn.y + (16*y)*dec->edged_width + (16*x+8), 
-								dec->edged_width);
+						 dec->refn.y + (16*y)*dec->edged_width + (16*x+8), 
+						 dec->edged_width);
 
 				transfer8x8_copy(dec->cur.y + (16*y+8)*dec->edged_width + (16*x), 
-								dec->refn.y + (16*y+8)*dec->edged_width + (16*x), 
-								dec->edged_width);
+						 dec->refn.y + (16*y+8)*dec->edged_width + (16*x), 
+						 dec->edged_width);
 					
 				transfer8x8_copy(dec->cur.y + (16*y+8)*dec->edged_width + (16*x+8), 
-								dec->refn.y + (16*y+8)*dec->edged_width + (16*x+8), 
-								dec->edged_width);
+						 dec->refn.y + (16*y+8)*dec->edged_width + (16*x+8), 
+						 dec->edged_width);
 
 				transfer8x8_copy(dec->cur.u + (8*y)*dec->edged_width/2 + (8*x), 
-								dec->refn.u + (8*y)*dec->edged_width/2 + (8*x), 
-								dec->edged_width/2);
+						 dec->refn.u + (8*y)*dec->edged_width/2 + (8*x), 
+						 dec->edged_width/2);
 
 				transfer8x8_copy(dec->cur.v + (8*y)*dec->edged_width/2 + (8*x), 
-								dec->refn.v + (8*y)*dec->edged_width/2 + (8*x), 
-								dec->edged_width/2);
+						 dec->refn.v + (8*y)*dec->edged_width/2 + (8*x), 
+						 dec->edged_width/2);
 
 				stop_transfer_timer();
 			}
@@ -546,6 +621,7 @@
 
 int decoder_decode(DECODER * dec, XVID_DEC_FRAME * frame)
 {
+
 	Bitstream bs;
 	uint32_t rounding;
 	uint32_t quant;
@@ -581,7 +657,7 @@
 
 	start_timer();
 	image_output(&dec->cur, dec->width, dec->height, dec->edged_width,
-				frame->image, frame->stride, frame->colorspace);
+		     frame->image, frame->stride, frame->colorspace);
 	stop_conv_timer();
 	
 	emms();
@@ -589,4 +665,5 @@
 	stop_global_timer();
 
 	return XVID_ERR_OK;
+
 }