--- interpolate8x8.c	2003/01/04 06:14:33	1.4.2.6
+++ interpolate8x8.c	2005/09/13 12:12:15	1.15
@@ -1,44 +1,46 @@
-/**************************************************************************
+/*****************************************************************************
  *
  *	XVID MPEG-4 VIDEO CODEC
- *	8x8 block-based halfpel interpolation
+ *	- 8x8 block-based halfpel interpolation -
  *
- *	This program is free software; you can redistribute it and/or modify
- *	it under the terms of the GNU General Public License as published by
- *	the Free Software Foundation; either version 2 of the License, or
- *	(at your option) any later version.
+ *  Copyright(C) 2001-2003 Peter Ross <pross@xvid.org>
  *
- *	This program is distributed in the hope that it will be useful,
- *	but WITHOUT ANY WARRANTY; without even the implied warranty of
- *	MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
- *	GNU General Public License for more details.
+ *  This program is free software ; you can redistribute it and/or modify
+ *  it under the terms of the GNU General Public License as published by
+ *  the Free Software Foundation ; either version 2 of the License, or
+ *  (at your option) any later version.
  *
- *	You should have received a copy of the GNU General Public License
- *	along with this program; if not, write to the Free Software
- *	Foundation, Inc., 675 Mass Ave, Cambridge, MA 02139, USA.
+ *  This program is distributed in the hope that it will be useful,
+ *  but WITHOUT ANY WARRANTY ; without even the implied warranty of
+ *  MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+ *  GNU General Public License for more details.
  *
- *************************************************************************/
-
-/**************************************************************************
- *
- *	History:
+ *  You should have received a copy of the GNU General Public License
+ *  along with this program ; if not, write to the Free Software
+ *  Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307 USA
  *
- *  05.10.2002	new bilinear and qpel interpolation code - Isibaar
- *	27.12.2001	modified "compensate_halfpel"
- *	05.11.2001	initial version; (c)2001 peter ross <pross@cs.rmit.edu.au>
+ * $Id: interpolate8x8.c,v 1.15 2005/09/13 12:12:15 suxen_drol Exp $
  *
- *************************************************************************/
-
+ ****************************************************************************/
 
 #include "../portab.h"
 #include "../global.h"
 #include "interpolate8x8.h"
 
-// function pointers
+/* function pointers */
 INTERPOLATE8X8_PTR interpolate8x8_halfpel_h;
 INTERPOLATE8X8_PTR interpolate8x8_halfpel_v;
 INTERPOLATE8X8_PTR interpolate8x8_halfpel_hv;
 
+INTERPOLATE8X8_PTR interpolate8x4_halfpel_h;
+INTERPOLATE8X8_PTR interpolate8x4_halfpel_v;
+INTERPOLATE8X8_PTR interpolate8x4_halfpel_hv;
+
+INTERPOLATE8X8_PTR interpolate8x8_halfpel_add;
+INTERPOLATE8X8_PTR interpolate8x8_halfpel_h_add;
+INTERPOLATE8X8_PTR interpolate8x8_halfpel_v_add;
+INTERPOLATE8X8_PTR interpolate8x8_halfpel_hv_add;
+
 INTERPOLATE8X8_AVG2_PTR interpolate8x8_avg2;
 INTERPOLATE8X8_AVG4_PTR interpolate8x8_avg4;
 
@@ -54,13 +56,13 @@
 INTERPOLATE8X8_6TAP_LOWPASS_PTR interpolate8x8_6tap_lowpass_h;
 INTERPOLATE8X8_6TAP_LOWPASS_PTR interpolate8x8_6tap_lowpass_v;
 
-void interpolate8x8_avg2_c(uint8_t *dst, const uint8_t *src1, const uint8_t *src2, const uint32_t stride, const uint32_t rounding, const uint32_t height)
+void
+interpolate8x8_avg2_c(uint8_t * dst, const uint8_t * src1, const uint8_t *src2, const uint32_t stride, const uint32_t rounding, const uint32_t height)
 {
     uint32_t i;
 	const int32_t round = 1 - rounding;
 
-    for(i = 0; i < height; i++)
-    {
+    for(i = 0; i < height; i++) {
         dst[0] = (src1[0] + src2[0] + round) >> 1;
         dst[1] = (src1[1] + src2[1] + round) >> 1;
         dst[2] = (src1[2] + src2[2] + round) >> 1;
@@ -76,13 +78,18 @@
     }
 }
 
+void
+interpolate8x8_halfpel_add_c(uint8_t * const dst, const uint8_t * const src, const uint32_t stride, const uint32_t rounding)
+{
+	interpolate8x8_avg2_c(dst, dst, src, stride, 0, 8);
+}
+
 void interpolate8x8_avg4_c(uint8_t *dst, const uint8_t *src1, const uint8_t *src2, const uint8_t *src3, const uint8_t *src4, const uint32_t stride, const uint32_t rounding)
 {
     int32_t i;
 	const int32_t round = 2 - rounding;
 
-    for(i = 0; i < 8; i++)
-    {
+    for(i = 0; i < 8; i++) {
         dst[0] = (src1[0] + src2[0] + src3[0] + src4[0] + round) >> 2;
         dst[1] = (src1[1] + src2[1] + src3[1] + src4[1] + round) >> 2;
         dst[2] = (src1[2] + src2[2] + src3[2] + src4[2] + round) >> 2;
@@ -91,7 +98,7 @@
         dst[5] = (src1[5] + src2[5] + src3[5] + src4[5] + round) >> 2;
         dst[6] = (src1[6] + src2[6] + src3[6] + src4[6] + round) >> 2;
         dst[7] = (src1[7] + src2[7] + src3[7] + src4[7] + round) >> 2;
-        
+
 		dst += stride;
         src1 += stride;
         src2 += stride;
@@ -100,7 +107,7 @@
     }
 }
 
-// dst = interpolate(src)
+/* dst = interpolate(src) */
 
 void
 interpolate8x8_halfpel_h_c(uint8_t * const dst,
@@ -108,22 +115,104 @@
 						   const uint32_t stride,
 						   const uint32_t rounding)
 {
-	uint32_t i, j;
+	uintptr_t j;
+
+	if (rounding) {
+		for (j = 0; j < 8*stride; j+=stride) {
+				dst[j + 0] = (uint8_t)((src[j + 0] + src[j + 1] )>>1);
+				dst[j + 1] = (uint8_t)((src[j + 1] + src[j + 2] )>>1);
+				dst[j + 2] = (uint8_t)((src[j + 2] + src[j + 3] )>>1);
+				dst[j + 3] = (uint8_t)((src[j + 3] + src[j + 4] )>>1);
+				dst[j + 4] = (uint8_t)((src[j + 4] + src[j + 5] )>>1);
+				dst[j + 5] = (uint8_t)((src[j + 5] + src[j + 6] )>>1);
+				dst[j + 6] = (uint8_t)((src[j + 6] + src[j + 7] )>>1);
+				dst[j + 7] = (uint8_t)((src[j + 7] + src[j + 8] )>>1);
+		}
+	} else {
+		for (j = 0; j < 8*stride; j+=stride) {
+				dst[j + 0] = (uint8_t)((src[j + 0] + src[j + 1] + 1)>>1);
+				dst[j + 1] = (uint8_t)((src[j + 1] + src[j + 2] + 1)>>1);
+				dst[j + 2] = (uint8_t)((src[j + 2] + src[j + 3] + 1)>>1);
+				dst[j + 3] = (uint8_t)((src[j + 3] + src[j + 4] + 1)>>1);
+				dst[j + 4] = (uint8_t)((src[j + 4] + src[j + 5] + 1)>>1);
+				dst[j + 5] = (uint8_t)((src[j + 5] + src[j + 6] + 1)>>1);
+				dst[j + 6] = (uint8_t)((src[j + 6] + src[j + 7] + 1)>>1);
+				dst[j + 7] = (uint8_t)((src[j + 7] + src[j + 8] + 1)>>1);
+		}
+	}
+}
 
-	for (j = 0; j < 8; j++) {
-		for (i = 0; i < 8; i++) {
+/* dst = interpolate(src) */
 
-			int16_t tot =
-				(int32_t) src[j * stride + i] + (int32_t) src[j * stride + i +
-															  1];
+void
+interpolate8x4_halfpel_h_c(uint8_t * const dst,
+						   const uint8_t * const src,
+						   const uint32_t stride,
+						   const uint32_t rounding)
+{
+	uintptr_t j;
 
-			tot = (int32_t) ((tot + 1 - rounding) >> 1);
-			dst[j * stride + i] = (uint8_t) tot;
+	if (rounding) {
+		for (j = 0; j < 4*stride; j+=stride) {
+				dst[j + 0] = (uint8_t)((src[j + 0] + src[j + 1] )>>1);
+				dst[j + 1] = (uint8_t)((src[j + 1] + src[j + 2] )>>1);
+				dst[j + 2] = (uint8_t)((src[j + 2] + src[j + 3] )>>1);
+				dst[j + 3] = (uint8_t)((src[j + 3] + src[j + 4] )>>1);
+				dst[j + 4] = (uint8_t)((src[j + 4] + src[j + 5] )>>1);
+				dst[j + 5] = (uint8_t)((src[j + 5] + src[j + 6] )>>1);
+				dst[j + 6] = (uint8_t)((src[j + 6] + src[j + 7] )>>1);
+				dst[j + 7] = (uint8_t)((src[j + 7] + src[j + 8] )>>1);
+		}
+	} else {
+		for (j = 0; j < 4*stride; j+=stride) {
+				dst[j + 0] = (uint8_t)((src[j + 0] + src[j + 1] + 1)>>1);
+				dst[j + 1] = (uint8_t)((src[j + 1] + src[j + 2] + 1)>>1);
+				dst[j + 2] = (uint8_t)((src[j + 2] + src[j + 3] + 1)>>1);
+				dst[j + 3] = (uint8_t)((src[j + 3] + src[j + 4] + 1)>>1);
+				dst[j + 4] = (uint8_t)((src[j + 4] + src[j + 5] + 1)>>1);
+				dst[j + 5] = (uint8_t)((src[j + 5] + src[j + 6] + 1)>>1);
+				dst[j + 6] = (uint8_t)((src[j + 6] + src[j + 7] + 1)>>1);
+				dst[j + 7] = (uint8_t)((src[j + 7] + src[j + 8] + 1)>>1);
 		}
 	}
 }
 
+/* dst = (dst + interpolate(src)/2 */
+
+void
+interpolate8x8_halfpel_h_add_c(uint8_t * const dst,
+						   const uint8_t * const src,
+						   const uint32_t stride,
+						   const uint32_t rounding)
+{
+	uintptr_t j;
+
+	if (rounding) {
+		for (j = 0; j < 8*stride; j+=stride) {
+				dst[j + 0] = (uint8_t)((((src[j + 0] + src[j + 1] )>>1) + dst[j+0] + 1)>>1);
+				dst[j + 1] = (uint8_t)((((src[j + 1] + src[j + 2] )>>1) + dst[j+1] + 1)>>1);
+				dst[j + 2] = (uint8_t)((((src[j + 2] + src[j + 3] )>>1) + dst[j+2] + 1)>>1);
+				dst[j + 3] = (uint8_t)((((src[j + 3] + src[j + 4] )>>1) + dst[j+3] + 1)>>1);
+				dst[j + 4] = (uint8_t)((((src[j + 4] + src[j + 5] )>>1) + dst[j+4] + 1)>>1);
+				dst[j + 5] = (uint8_t)((((src[j + 5] + src[j + 6] )>>1) + dst[j+5] + 1)>>1);
+				dst[j + 6] = (uint8_t)((((src[j + 6] + src[j + 7] )>>1) + dst[j+6] + 1)>>1);
+				dst[j + 7] = (uint8_t)((((src[j + 7] + src[j + 8] )>>1) + dst[j+7] + 1)>>1);
+		}
+	} else {
+		for (j = 0; j < 8*stride; j+=stride) {
+				dst[j + 0] = (uint8_t)((((src[j + 0] + src[j + 1] + 1)>>1) + dst[j+0] + 1)>>1);
+				dst[j + 1] = (uint8_t)((((src[j + 1] + src[j + 2] + 1)>>1) + dst[j+1] + 1)>>1);
+				dst[j + 2] = (uint8_t)((((src[j + 2] + src[j + 3] + 1)>>1) + dst[j+2] + 1)>>1);
+				dst[j + 3] = (uint8_t)((((src[j + 3] + src[j + 4] + 1)>>1) + dst[j+3] + 1)>>1);
+				dst[j + 4] = (uint8_t)((((src[j + 4] + src[j + 5] + 1)>>1) + dst[j+4] + 1)>>1);
+				dst[j + 5] = (uint8_t)((((src[j + 5] + src[j + 6] + 1)>>1) + dst[j+5] + 1)>>1);
+				dst[j + 6] = (uint8_t)((((src[j + 6] + src[j + 7] + 1)>>1) + dst[j+6] + 1)>>1);
+				dst[j + 7] = (uint8_t)((((src[j + 7] + src[j + 8] + 1)>>1) + dst[j+7] + 1)>>1);
+		}
+	}
+}
 
+/* dst = interpolate(src) */
 
 void
 interpolate8x8_halfpel_v_c(uint8_t * const dst,
@@ -131,18 +220,107 @@
 						   const uint32_t stride,
 						   const uint32_t rounding)
 {
-	uint32_t i, j;
+	uintptr_t j;
 
-	for (j = 0; j < 8; j++) {
-		for (i = 0; i < 8; i++) {
-			int16_t tot = src[j * stride + i] + src[j * stride + i + stride];
 
-			tot = ((tot + 1 - rounding) >> 1);
-			dst[j * stride + i] = (uint8_t) tot;
+	if (rounding) {
+		for (j = 0; j < 8*stride; j+=stride) {
+				dst[j + 0] = (uint8_t)((src[j + 0] + src[j + stride + 0] )>>1);
+				dst[j + 1] = (uint8_t)((src[j + 1] + src[j + stride + 1] )>>1);
+				dst[j + 2] = (uint8_t)((src[j + 2] + src[j + stride + 2] )>>1);
+				dst[j + 3] = (uint8_t)((src[j + 3] + src[j + stride + 3] )>>1);
+				dst[j + 4] = (uint8_t)((src[j + 4] + src[j + stride + 4] )>>1);
+				dst[j + 5] = (uint8_t)((src[j + 5] + src[j + stride + 5] )>>1);
+				dst[j + 6] = (uint8_t)((src[j + 6] + src[j + stride + 6] )>>1);
+				dst[j + 7] = (uint8_t)((src[j + 7] + src[j + stride + 7] )>>1);
+		}
+	} else {
+		for (j = 0; j < 8*stride; j+=stride) {
+				dst[j + 0] = (uint8_t)((src[j + 0] + src[j + stride + 0] + 1)>>1);
+				dst[j + 1] = (uint8_t)((src[j + 1] + src[j + stride + 1] + 1)>>1);
+				dst[j + 2] = (uint8_t)((src[j + 2] + src[j + stride + 2] + 1)>>1);
+				dst[j + 3] = (uint8_t)((src[j + 3] + src[j + stride + 3] + 1)>>1);
+				dst[j + 4] = (uint8_t)((src[j + 4] + src[j + stride + 4] + 1)>>1);
+				dst[j + 5] = (uint8_t)((src[j + 5] + src[j + stride + 5] + 1)>>1);
+				dst[j + 6] = (uint8_t)((src[j + 6] + src[j + stride + 6] + 1)>>1);
+				dst[j + 7] = (uint8_t)((src[j + 7] + src[j + stride + 7] + 1)>>1);
 		}
 	}
 }
 
+/* dst = interpolate(src) */
+
+void
+interpolate8x4_halfpel_v_c(uint8_t * const dst,
+						   const uint8_t * const src,
+						   const uint32_t stride,
+						   const uint32_t rounding)
+{
+	uintptr_t j;
+
+
+	if (rounding) {
+		for (j = 0; j < 4*stride; j+=stride) {
+				dst[j + 0] = (uint8_t)((src[j + 0] + src[j + stride + 0] )>>1);
+				dst[j + 1] = (uint8_t)((src[j + 1] + src[j + stride + 1] )>>1);
+				dst[j + 2] = (uint8_t)((src[j + 2] + src[j + stride + 2] )>>1);
+				dst[j + 3] = (uint8_t)((src[j + 3] + src[j + stride + 3] )>>1);
+				dst[j + 4] = (uint8_t)((src[j + 4] + src[j + stride + 4] )>>1);
+				dst[j + 5] = (uint8_t)((src[j + 5] + src[j + stride + 5] )>>1);
+				dst[j + 6] = (uint8_t)((src[j + 6] + src[j + stride + 6] )>>1);
+				dst[j + 7] = (uint8_t)((src[j + 7] + src[j + stride + 7] )>>1);
+		}
+	} else {
+		for (j = 0; j < 4*stride; j+=stride) {
+				dst[j + 0] = (uint8_t)((src[j + 0] + src[j + stride + 0] + 1)>>1);
+				dst[j + 1] = (uint8_t)((src[j + 1] + src[j + stride + 1] + 1)>>1);
+				dst[j + 2] = (uint8_t)((src[j + 2] + src[j + stride + 2] + 1)>>1);
+				dst[j + 3] = (uint8_t)((src[j + 3] + src[j + stride + 3] + 1)>>1);
+				dst[j + 4] = (uint8_t)((src[j + 4] + src[j + stride + 4] + 1)>>1);
+				dst[j + 5] = (uint8_t)((src[j + 5] + src[j + stride + 5] + 1)>>1);
+				dst[j + 6] = (uint8_t)((src[j + 6] + src[j + stride + 6] + 1)>>1);
+				dst[j + 7] = (uint8_t)((src[j + 7] + src[j + stride + 7] + 1)>>1);
+		}
+	}
+}
+
+/* dst = (dst + interpolate(src))/2 */
+
+void
+interpolate8x8_halfpel_v_add_c(uint8_t * const dst,
+						   const uint8_t * const src,
+						   const uint32_t stride,
+						   const uint32_t rounding)
+{
+	uintptr_t j;
+
+
+	if (rounding) {
+		for (j = 0; j < 8*stride; j+=stride) {
+				dst[j + 0] = (uint8_t)((((src[j + 0] + src[j + stride + 0] )>>1) + dst[j+0] + 1)>>1);
+				dst[j + 1] = (uint8_t)((((src[j + 1] + src[j + stride + 1] )>>1) + dst[j+1] + 1)>>1);
+				dst[j + 2] = (uint8_t)((((src[j + 2] + src[j + stride + 2] )>>1) + dst[j+2] + 1)>>1);
+				dst[j + 3] = (uint8_t)((((src[j + 3] + src[j + stride + 3] )>>1) + dst[j+3] + 1)>>1);
+				dst[j + 4] = (uint8_t)((((src[j + 4] + src[j + stride + 4] )>>1) + dst[j+4] + 1)>>1);
+				dst[j + 5] = (uint8_t)((((src[j + 5] + src[j + stride + 5] )>>1) + dst[j+5] + 1)>>1);
+				dst[j + 6] = (uint8_t)((((src[j + 6] + src[j + stride + 6] )>>1) + dst[j+6] + 1)>>1);
+				dst[j + 7] = (uint8_t)((((src[j + 7] + src[j + stride + 7] )>>1) + dst[j+7] + 1)>>1);
+		}
+	} else {
+		for (j = 0; j < 8*stride; j+=stride) {
+				dst[j + 0] = (uint8_t)((((src[j + 0] + src[j + stride + 0] + 1)>>1) + dst[j+0] + 1)>>1);
+				dst[j + 1] = (uint8_t)((((src[j + 1] + src[j + stride + 1] + 1)>>1) + dst[j+1] + 1)>>1);
+				dst[j + 2] = (uint8_t)((((src[j + 2] + src[j + stride + 2] + 1)>>1) + dst[j+2] + 1)>>1);
+				dst[j + 3] = (uint8_t)((((src[j + 3] + src[j + stride + 3] + 1)>>1) + dst[j+3] + 1)>>1);
+				dst[j + 4] = (uint8_t)((((src[j + 4] + src[j + stride + 4] + 1)>>1) + dst[j+4] + 1)>>1);
+				dst[j + 5] = (uint8_t)((((src[j + 5] + src[j + stride + 5] + 1)>>1) + dst[j+5] + 1)>>1);
+				dst[j + 6] = (uint8_t)((((src[j + 6] + src[j + stride + 6] + 1)>>1) + dst[j+6] + 1)>>1);
+				dst[j + 7] = (uint8_t)((((src[j + 7] + src[j + stride + 7] + 1)>>1) + dst[j+7] + 1)>>1);
+		}
+	}
+}
+
+/* dst = interpolate(src) */
 
 void
 interpolate8x8_halfpel_hv_c(uint8_t * const dst,
@@ -150,16 +328,99 @@
 							const uint32_t stride,
 							const uint32_t rounding)
 {
-	uint32_t i, j;
+	uintptr_t j;
+
+	if (rounding) {
+		for (j = 0; j < 8*stride; j+=stride) {
+				dst[j + 0] = (uint8_t)((src[j+0] + src[j+1] + src[j+stride+0] + src[j+stride+1] +1)>>2);
+				dst[j + 1] = (uint8_t)((src[j+1] + src[j+2] + src[j+stride+1] + src[j+stride+2] +1)>>2);
+				dst[j + 2] = (uint8_t)((src[j+2] + src[j+3] + src[j+stride+2] + src[j+stride+3] +1)>>2);
+				dst[j + 3] = (uint8_t)((src[j+3] + src[j+4] + src[j+stride+3] + src[j+stride+4] +1)>>2);
+				dst[j + 4] = (uint8_t)((src[j+4] + src[j+5] + src[j+stride+4] + src[j+stride+5] +1)>>2);
+				dst[j + 5] = (uint8_t)((src[j+5] + src[j+6] + src[j+stride+5] + src[j+stride+6] +1)>>2);
+				dst[j + 6] = (uint8_t)((src[j+6] + src[j+7] + src[j+stride+6] + src[j+stride+7] +1)>>2);
+				dst[j + 7] = (uint8_t)((src[j+7] + src[j+8] + src[j+stride+7] + src[j+stride+8] +1)>>2);
+		}
+	} else {
+		for (j = 0; j < 8*stride; j+=stride) {
+				dst[j + 0] = (uint8_t)((src[j+0] + src[j+1] + src[j+stride+0] + src[j+stride+1] +2)>>2);
+				dst[j + 1] = (uint8_t)((src[j+1] + src[j+2] + src[j+stride+1] + src[j+stride+2] +2)>>2);
+				dst[j + 2] = (uint8_t)((src[j+2] + src[j+3] + src[j+stride+2] + src[j+stride+3] +2)>>2);
+				dst[j + 3] = (uint8_t)((src[j+3] + src[j+4] + src[j+stride+3] + src[j+stride+4] +2)>>2);
+				dst[j + 4] = (uint8_t)((src[j+4] + src[j+5] + src[j+stride+4] + src[j+stride+5] +2)>>2);
+				dst[j + 5] = (uint8_t)((src[j+5] + src[j+6] + src[j+stride+5] + src[j+stride+6] +2)>>2);
+				dst[j + 6] = (uint8_t)((src[j+6] + src[j+7] + src[j+stride+6] + src[j+stride+7] +2)>>2);
+				dst[j + 7] = (uint8_t)((src[j+7] + src[j+8] + src[j+stride+7] + src[j+stride+8] +2)>>2);
+		}
+	}
+}
+
+/* dst = interpolate(src) */
+
+void
+interpolate8x4_halfpel_hv_c(uint8_t * const dst,
+							const uint8_t * const src,
+							const uint32_t stride,
+							const uint32_t rounding)
+{
+	uintptr_t j;
+
+	if (rounding) {
+		for (j = 0; j < 4*stride; j+=stride) {
+				dst[j + 0] = (uint8_t)((src[j+0] + src[j+1] + src[j+stride+0] + src[j+stride+1] +1)>>2);
+				dst[j + 1] = (uint8_t)((src[j+1] + src[j+2] + src[j+stride+1] + src[j+stride+2] +1)>>2);
+				dst[j + 2] = (uint8_t)((src[j+2] + src[j+3] + src[j+stride+2] + src[j+stride+3] +1)>>2);
+				dst[j + 3] = (uint8_t)((src[j+3] + src[j+4] + src[j+stride+3] + src[j+stride+4] +1)>>2);
+				dst[j + 4] = (uint8_t)((src[j+4] + src[j+5] + src[j+stride+4] + src[j+stride+5] +1)>>2);
+				dst[j + 5] = (uint8_t)((src[j+5] + src[j+6] + src[j+stride+5] + src[j+stride+6] +1)>>2);
+				dst[j + 6] = (uint8_t)((src[j+6] + src[j+7] + src[j+stride+6] + src[j+stride+7] +1)>>2);
+				dst[j + 7] = (uint8_t)((src[j+7] + src[j+8] + src[j+stride+7] + src[j+stride+8] +1)>>2);
+		}
+	} else {
+		for (j = 0; j < 4*stride; j+=stride) {
+				dst[j + 0] = (uint8_t)((src[j+0] + src[j+1] + src[j+stride+0] + src[j+stride+1] +2)>>2);
+				dst[j + 1] = (uint8_t)((src[j+1] + src[j+2] + src[j+stride+1] + src[j+stride+2] +2)>>2);
+				dst[j + 2] = (uint8_t)((src[j+2] + src[j+3] + src[j+stride+2] + src[j+stride+3] +2)>>2);
+				dst[j + 3] = (uint8_t)((src[j+3] + src[j+4] + src[j+stride+3] + src[j+stride+4] +2)>>2);
+				dst[j + 4] = (uint8_t)((src[j+4] + src[j+5] + src[j+stride+4] + src[j+stride+5] +2)>>2);
+				dst[j + 5] = (uint8_t)((src[j+5] + src[j+6] + src[j+stride+5] + src[j+stride+6] +2)>>2);
+				dst[j + 6] = (uint8_t)((src[j+6] + src[j+7] + src[j+stride+6] + src[j+stride+7] +2)>>2);
+				dst[j + 7] = (uint8_t)((src[j+7] + src[j+8] + src[j+stride+7] + src[j+stride+8] +2)>>2);
+		}
+	}
+}
+
+/* dst = (interpolate(src) + dst)/2 */
+
+void
+interpolate8x8_halfpel_hv_add_c(uint8_t * const dst,
+							const uint8_t * const src,
+							const uint32_t stride,
+							const uint32_t rounding)
+{
+	uintptr_t j;
 
-	for (j = 0; j < 8; j++) {
-		for (i = 0; i < 8; i++) {
-			int16_t tot =
-				src[j * stride + i] + src[j * stride + i + 1] +
-				src[j * stride + i + stride] + src[j * stride + i + stride +
-												   1];
-			tot = ((tot + 2 - rounding) >> 2);
-			dst[j * stride + i] = (uint8_t) tot;
+	if (rounding) {
+		for (j = 0; j < 8*stride; j+=stride) {
+				dst[j + 0] = (uint8_t)((((src[j+0] + src[j+1] + src[j+stride+0] + src[j+stride+1] +1)>>2) + dst[j+0])>>1);
+				dst[j + 1] = (uint8_t)((((src[j+1] + src[j+2] + src[j+stride+1] + src[j+stride+2] +1)>>2) + dst[j+1])>>1);
+				dst[j + 2] = (uint8_t)((((src[j+2] + src[j+3] + src[j+stride+2] + src[j+stride+3] +1)>>2) + dst[j+2])>>1);
+				dst[j + 3] = (uint8_t)((((src[j+3] + src[j+4] + src[j+stride+3] + src[j+stride+4] +1)>>2) + dst[j+3])>>1);
+				dst[j + 4] = (uint8_t)((((src[j+4] + src[j+5] + src[j+stride+4] + src[j+stride+5] +1)>>2) + dst[j+4])>>1);
+				dst[j + 5] = (uint8_t)((((src[j+5] + src[j+6] + src[j+stride+5] + src[j+stride+6] +1)>>2) + dst[j+5])>>1);
+				dst[j + 6] = (uint8_t)((((src[j+6] + src[j+7] + src[j+stride+6] + src[j+stride+7] +1)>>2) + dst[j+6])>>1);
+				dst[j + 7] = (uint8_t)((((src[j+7] + src[j+8] + src[j+stride+7] + src[j+stride+8] +1)>>2) + dst[j+7])>>1);
+		}
+	} else {
+		for (j = 0; j < 8*stride; j+=stride) {
+				dst[j + 0] = (uint8_t)((((src[j+0] + src[j+1] + src[j+stride+0] + src[j+stride+1] +2)>>2) + dst[j+0] + 1)>>1);
+				dst[j + 1] = (uint8_t)((((src[j+1] + src[j+2] + src[j+stride+1] + src[j+stride+2] +2)>>2) + dst[j+1] + 1)>>1);
+				dst[j + 2] = (uint8_t)((((src[j+2] + src[j+3] + src[j+stride+2] + src[j+stride+3] +2)>>2) + dst[j+2] + 1)>>1);
+				dst[j + 3] = (uint8_t)((((src[j+3] + src[j+4] + src[j+stride+3] + src[j+stride+4] +2)>>2) + dst[j+3] + 1)>>1);
+				dst[j + 4] = (uint8_t)((((src[j+4] + src[j+5] + src[j+stride+4] + src[j+stride+5] +2)>>2) + dst[j+4] + 1)>>1);
+				dst[j + 5] = (uint8_t)((((src[j+5] + src[j+6] + src[j+stride+5] + src[j+stride+6] +2)>>2) + dst[j+5] + 1)>>1);
+				dst[j + 6] = (uint8_t)((((src[j+6] + src[j+7] + src[j+stride+6] + src[j+stride+7] +2)>>2) + dst[j+6] + 1)>>1);
+				dst[j + 7] = (uint8_t)((((src[j+7] + src[j+8] + src[j+stride+7] + src[j+stride+8] +2)>>2) + dst[j+7] + 1)>>1);
 		}
 	}
 }
@@ -304,7 +565,7 @@
         int32_t src15 = src[15 * stride];
         int32_t src16 = src[16 * stride];
 
-        
+
         dst[0] = CLIP(((7 * ((src0<<1) - src2) +  23 * src1 + 3 * src3 - src4 + round_add) >> 5), 0, 255);
         dst[stride] = CLIP(((19 * src1 + 20 * src2 - src5 + 3 * (src4 - src0 - (src3<<1)) + round_add) >> 5), 0, 255);
         dst[2*stride] = CLIP(((20 * (src2 + src3) + (src0<<1) + 3 * (src5 - ((src1 + src4)<<1)) - src6 + round_add) >> 5), 0, 255);
@@ -345,7 +606,7 @@
         int32_t src6 = src[6 * stride];
         int32_t src7 = src[7 * stride];
         int32_t src8 = src[8 * stride];
-        
+
         dst[0]			= CLIP(((7 * ((src0<<1) - src2) + 23 * src1 + 3 * src3 - src4 + round_add) >> 5), 0, 255);
         dst[stride]		= CLIP(((19 * src1 + 20 * src2 - src5 + 3 * (src4 - src0 - (src3 << 1)) + round_add) >> 5), 0, 255);
         dst[2 * stride] = CLIP(((20 * (src2 + src3) + (src0<<1) + 3 * (src5 - ((src1 + src4) <<1 )) - src6 + round_add) >> 5), 0, 255);