Lines Matching refs:dst
130 #define PCKEV_XORI128_AVG_ST_UB(in0, in1, dst, pdst) \
135 tmp_m = __msa_aver_u_b(tmp_m, (v16u8) dst); \
139 #define PCKEV_AVG_ST_UB(in0, in1, dst, pdst) \
144 tmp_m = __msa_aver_u_b(tmp_m, (v16u8) dst); \
160 uint8_t *dst, int32_t dst_stride,
185 ST_W4(out, 0, 1, 2, 3, dst, dst_stride);
189 uint8_t *dst, int32_t dst_stride,
220 ST_W4(out, 0, 1, 2, 3, dst, dst_stride);
222 ST_W4(out, 0, 1, 2, 3, dst + 4 * dst_stride, dst_stride);
226 uint8_t *dst, int32_t dst_stride,
230 common_hz_8t_4x4_msa(src, src_stride, dst, dst_stride, filter);
232 common_hz_8t_4x8_msa(src, src_stride, dst, dst_stride, filter);
237 uint8_t *dst, int32_t dst_stride,
264 ST_D4(tmp0, tmp1, 0, 1, 0, 1, dst, dst_stride);
268 uint8_t *dst, int32_t dst_stride,
298 ST_D4(tmp0, tmp1, 0, 1, 0, 1, dst, dst_stride);
299 dst += (4 * dst_stride);
304 uint8_t *dst, int32_t dst_stride,
308 common_hz_8t_8x4_msa(src, src_stride, dst, dst_stride, filter);
310 common_hz_8t_8x8mult_msa(src, src_stride, dst, dst_stride, filter,
316 uint8_t *dst, int32_t dst_stride,
346 ST_UB(out, dst);
347 dst += dst_stride;
349 ST_UB(out, dst);
350 dst += dst_stride;
355 uint8_t *dst, int32_t dst_stride,
394 ST_UB(out, dst);
396 ST_UB(out, dst + 16);
397 dst += dst_stride;
406 ST_UB(out, dst);
408 ST_UB(out, dst + 16);
409 dst += dst_stride;
414 uint8_t *dst, int32_t dst_stride,
446 ST_UB(out, dst);
448 ST_UB(out, dst + 16);
463 ST_UB(out, dst + 32);
465 ST_UB(out, dst + 48);
466 dst += dst_stride;
471 uint8_t *dst, int32_t dst_stride,
512 ST_W4(out, 0, 1, 2, 3, dst, dst_stride);
513 dst += (4 * dst_stride);
523 uint8_t *dst, int32_t dst_stride,
564 ST_D4(tmp0, tmp1, 0, 1, 0, 1, dst, dst_stride);
565 dst += (4 * dst_stride);
578 uint8_t *dst, int32_t dst_stride,
637 ST_UB4(tmp0, tmp1, tmp2, tmp3, dst, dst_stride);
638 dst += (4 * dst_stride);
657 uint8_t *dst, int32_t dst_stride,
679 dst_tmp = dst;
741 dst += 16;
746 uint8_t *dst, int32_t dst_stride,
749 common_vt_8t_16w_mult_msa(src, src_stride, dst, dst_stride, filter, height,
754 uint8_t *dst, int32_t dst_stride,
757 common_vt_8t_16w_mult_msa(src, src_stride, dst, dst_stride, filter, height,
762 uint8_t *dst, int32_t dst_stride,
827 ST_W4(out, 0, 1, 2, 3, dst, dst_stride);
828 dst += (4 * dst_stride);
838 uint8_t *dst, int32_t dst_stride,
922 ST_D4(vec0, vec1, 0, 1, 0, 1, dst, dst_stride);
923 dst += (4 * dst_stride);
936 uint8_t *dst, int32_t dst_stride,
944 common_hv_8ht_8vt_8w_msa(src, src_stride, dst, dst_stride, filter_horiz,
948 dst += 8;
953 uint8_t *dst, int32_t dst_stride,
961 common_hv_8ht_8vt_8w_msa(src, src_stride, dst, dst_stride, filter_horiz,
965 dst += 8;
970 uint8_t *dst, int32_t dst_stride,
978 common_hv_8ht_8vt_8w_msa(src, src_stride, dst, dst_stride, filter_horiz,
982 dst += 8;
988 uint8_t *dst, int32_t dst_stride,
1012 LW4(dst, dst_stride, tp0, tp1, tp2, tp3);
1018 ST_W4(res, 0, 1, 2, 3, dst, dst_stride);
1023 uint8_t *dst, int32_t dst_stride,
1046 LW4(dst, dst_stride, tp0, tp1, tp2, tp3);
1048 LW4(dst + 4 * dst_stride, dst_stride, tp0, tp1, tp2, tp3);
1063 ST_W8(res0, res2, 0, 1, 2, 3, 0, 1, 2, 3, dst, dst_stride);
1068 uint8_t *dst, int32_t dst_stride,
1073 common_hz_8t_and_aver_dst_4x4_msa(src, src_stride, dst, dst_stride,
1076 common_hz_8t_and_aver_dst_4x8_msa(src, src_stride, dst, dst_stride,
1083 uint8_t *dst, int32_t dst_stride,
1111 LD4(dst, dst_stride, tp0, tp1, tp2, tp3);
1117 dst, dst_stride);
1118 dst += (4 * dst_stride);
1124 uint8_t *dst, int32_t dst_stride,
1170 LD_UB2(dst, dst_stride, dst0, dst1);
1173 PCKEV_XORI128_AVG_ST_UB(out1, out0, dst0, dst);
1174 dst += dst_stride;
1175 PCKEV_XORI128_AVG_ST_UB(out3, out2, dst1, dst);
1176 dst += dst_stride;
1182 uint8_t *dst, int32_t dst_stride,
1232 LD_UB2(dst, 16, dst1, dst2);
1233 PCKEV_XORI128_AVG_ST_UB(out1, out0, dst1, dst);
1234 PCKEV_XORI128_AVG_ST_UB(out3, out2, dst2, dst + 16);
1235 dst += dst_stride;
1241 uint8_t *dst, int32_t dst_stride,
1291 LD_UB2(&dst[cnt << 5], 16, dst1, dst2);
1292 PCKEV_XORI128_AVG_ST_UB(out1, out0, dst1, &dst[cnt << 5]);
1293 PCKEV_XORI128_AVG_ST_UB(out3, out2, dst2, &dst[16 + (cnt << 5)]);
1297 dst += dst_stride;
1303 uint8_t *dst, int32_t dst_stride,
1335 LW4(dst, dst_stride, tp0, tp1, tp2, tp3);
1350 ST_W4(out, 0, 1, 2, 3, dst, dst_stride);
1351 dst += (4 * dst_stride);
1362 uint8_t *dst, int32_t dst_stride,
1391 LD4(dst, dst_stride, tp0, tp1, tp2, tp3);
1408 dst, dst_stride);
1409 dst += (4 * dst_stride);
1423 uint8_t *dst,
1447 dst_tmp = dst;
1514 dst += 16;
1520 uint8_t *dst, int32_t dst_stride,
1524 common_vt_8t_and_aver_dst_16w_mult_msa(src, src_stride, dst, dst_stride,
1530 uint8_t *dst, int32_t dst_stride,
1534 common_vt_8t_and_aver_dst_16w_mult_msa(src, src_stride, dst, dst_stride,
1540 uint8_t *dst, int32_t dst_stride,
1544 common_vt_8t_and_aver_dst_16w_mult_msa(src, src_stride, dst, dst_stride,
1550 uint8_t *dst,
1601 LW4(dst, dst_stride, tp0, tp1, tp2, tp3);
1621 ST_W4(res, 0, 1, 2, 3, dst, dst_stride);
1622 dst += (4 * dst_stride);
1633 uint8_t *dst,
1691 LD4(dst, dst_stride, tp0, tp1, tp2, tp3);
1722 dst, dst_stride);
1723 dst += (4 * dst_stride);
1737 uint8_t *dst,
1746 common_hv_8ht_8vt_and_aver_dst_8w_msa(src, src_stride, dst, dst_stride,
1751 dst += 8;
1757 uint8_t *dst,
1766 common_hv_8ht_8vt_and_aver_dst_8w_msa(src, src_stride, dst, dst_stride,
1771 dst += 8;
1777 uint8_t *dst,
1786 common_hv_8ht_8vt_and_aver_dst_8w_msa(src, src_stride, dst, dst_stride,
1791 dst += 8;
1796 uint8_t *dst, int32_t dst_stride,
1814 ST_W2(res0, 0, 1, dst, dst_stride);
1815 ST_W2(res1, 0, 1, dst + 2 * dst_stride, dst_stride);
1819 uint8_t *dst, int32_t dst_stride,
1841 ST_W2(res0, 0, 1, dst, dst_stride);
1842 ST_W2(res1, 0, 1, dst + 2 * dst_stride, dst_stride);
1843 ST_W2(res2, 0, 1, dst + 4 * dst_stride, dst_stride);
1844 ST_W2(res3, 0, 1, dst + 6 * dst_stride, dst_stride);
1847 void ff_put_bilin_4h_msa(uint8_t *dst, ptrdiff_t dst_stride,
1854 common_hz_2t_4x4_msa(src, src_stride, dst, dst_stride, filter);
1856 common_hz_2t_4x8_msa(src, src_stride, dst, dst_stride, filter);
1861 uint8_t *dst, int32_t dst_stride,
1881 ST_D4(src0, src1, 0, 1, 0, 1, dst, dst_stride);
1885 uint8_t *dst, int32_t dst_stride,
1910 ST_D4(out0, out1, 0, 1, 0, 1, dst, dst_stride);
1918 ST_D4(out0, out1, 0, 1, 0, 1, dst + 4 * dst_stride, dst_stride);
1919 dst += (8 * dst_stride);
1934 ST_D4(out0, out1, 0, 1, 0, 1, dst, dst_stride);
1942 ST_D4(out0, out1, 0, 1, 0, 1, dst + 4 * dst_stride, dst_stride);
1946 void ff_put_bilin_8h_msa(uint8_t *dst, ptrdiff_t dst_stride,
1953 common_hz_2t_8x4_msa(src, src_stride, dst, dst_stride, filter);
1955 common_hz_2t_8x8mult_msa(src, src_stride, dst, dst_stride, filter,
1960 void ff_put_bilin_16h_msa(uint8_t *dst, ptrdiff_t dst_stride,
1992 PCKEV_ST_SB(out0, out1, dst);
1993 dst += dst_stride;
1994 PCKEV_ST_SB(out2, out3, dst);
1995 dst += dst_stride;
1996 PCKEV_ST_SB(out4, out5, dst);
1997 dst += dst_stride;
1998 PCKEV_ST_SB(out6, out7, dst);
1999 dst += dst_stride;
2016 PCKEV_ST_SB(out0, out1, dst);
2017 dst += dst_stride;
2018 PCKEV_ST_SB(out2, out3, dst);
2019 dst += dst_stride;
2020 PCKEV_ST_SB(out4, out5, dst);
2021 dst += dst_stride;
2022 PCKEV_ST_SB(out6, out7, dst);
2023 dst += dst_stride;
2027 void ff_put_bilin_32h_msa(uint8_t *dst, ptrdiff_t dst_stride,
2065 PCKEV_ST_SB(out0, out1, dst);
2066 PCKEV_ST_SB(out2, out3, dst + 16);
2067 dst += dst_stride;
2068 PCKEV_ST_SB(out4, out5, dst);
2069 PCKEV_ST_SB(out6, out7, dst + 16);
2070 dst += dst_stride;
2074 void ff_put_bilin_64h_msa(uint8_t *dst, ptrdiff_t dst_stride,
2109 PCKEV_ST_SB(out0, out1, dst);
2110 PCKEV_ST_SB(out2, out3, dst + 16);
2111 PCKEV_ST_SB(out4, out5, dst + 32);
2112 PCKEV_ST_SB(out6, out7, dst + 48);
2113 dst += dst_stride;
2118 uint8_t *dst, int32_t dst_stride,
2140 ST_W4(src2110, 0, 1, 2, 3, dst, dst_stride);
2144 uint8_t *dst, int32_t dst_stride,
2174 ST_W8(src2110, src4332, 0, 1, 2, 3, 0, 1, 2, 3, dst, dst_stride);
2177 void ff_put_bilin_4v_msa(uint8_t *dst, ptrdiff_t dst_stride,
2184 common_vt_2t_4x4_msa(src, src_stride, dst, dst_stride, filter);
2186 common_vt_2t_4x8_msa(src, src_stride, dst, dst_stride, filter);
2191 uint8_t *dst, int32_t dst_stride,
2211 ST_D4(out0, out1, 0, 1, 0, 1, dst, dst_stride);
2215 uint8_t *dst, int32_t dst_stride,
2245 ST_D4(out0, out1, 0, 1, 0, 1, dst, dst_stride);
2252 ST_D4(out0, out1, 0, 1, 0, 1, dst + 4 * dst_stride, dst_stride);
2253 dst += (8 * dst_stride);
2259 void ff_put_bilin_8v_msa(uint8_t *dst, ptrdiff_t dst_stride,
2266 common_vt_2t_8x4_msa(src, src_stride, dst, dst_stride, filter);
2268 common_vt_2t_8x8mult_msa(src, src_stride, dst, dst_stride, filter,
2273 void ff_put_bilin_16v_msa(uint8_t *dst, ptrdiff_t dst_stride,
2300 PCKEV_ST_SB(tmp0, tmp1, dst);
2301 dst += dst_stride;
2308 PCKEV_ST_SB(tmp2, tmp3, dst);
2309 dst += dst_stride;
2314 PCKEV_ST_SB(tmp0, tmp1, dst);
2315 dst += dst_stride;
2320 PCKEV_ST_SB(tmp2, tmp3, dst);
2321 dst += dst_stride;
2327 void ff_put_bilin_32v_msa(uint8_t *dst, ptrdiff_t dst_stride,
2357 PCKEV_ST_SB(tmp0, tmp1, dst);
2361 PCKEV_ST_SB(tmp2, tmp3, dst + dst_stride);
2368 PCKEV_ST_SB(tmp0, tmp1, dst + 2 * dst_stride);
2373 PCKEV_ST_SB(tmp2, tmp3, dst + 3 * dst_stride);
2380 PCKEV_ST_SB(tmp0, tmp1, dst + 16);
2385 PCKEV_ST_SB(tmp2, tmp3, dst + 16 + dst_stride);
2392 PCKEV_ST_SB(tmp0, tmp1, dst + 16 + 2 * dst_stride);
2397 PCKEV_ST_SB(tmp2, tmp3, dst + 16 + 3 * dst_stride);
2398 dst += (4 * dst_stride);
2405 void ff_put_bilin_64v_msa(uint8_t *dst, ptrdiff_t dst_stride,
2435 PCKEV_ST_SB(tmp0, tmp1, dst);
2440 PCKEV_ST_SB(tmp2, tmp3, dst + dst_stride);
2447 PCKEV_ST_SB(tmp4, tmp5, dst + 16);
2452 PCKEV_ST_SB(tmp6, tmp7, dst + 16 + dst_stride);
2459 PCKEV_ST_SB(tmp0, tmp1, dst + 32);
2464 PCKEV_ST_SB(tmp2, tmp3, dst + 32 + dst_stride);
2471 PCKEV_ST_SB(tmp4, tmp5, dst + 48);
2476 PCKEV_ST_SB(tmp6, tmp7, dst + 48 + dst_stride);
2477 dst += (2 * dst_stride);
2487 uint8_t *dst, int32_t dst_stride,
2515 ST_W2(res0, 0, 1, dst, dst_stride);
2516 ST_W2(res1, 0, 1, dst + 2 * dst_stride, dst_stride);
2520 uint8_t *dst, int32_t dst_stride,
2559 ST_W2(res0, 0, 1, dst, dst_stride);
2560 ST_W2(res1, 0, 1, dst + 2 * dst_stride, dst_stride);
2561 ST_W2(res2, 0, 1, dst + 4 * dst_stride, dst_stride);
2562 ST_W2(res3, 0, 1, dst + 6 * dst_stride, dst_stride);
2565 void ff_put_bilin_4hv_msa(uint8_t *dst, ptrdiff_t dst_stride,
2573 common_hv_2ht_2vt_4x4_msa(src, src_stride, dst, dst_stride,
2576 common_hv_2ht_2vt_4x8_msa(src, src_stride, dst, dst_stride,
2582 uint8_t *dst, int32_t dst_stride,
2621 ST_D4(out0, out1, 0, 1, 0, 1, dst, dst_stride);
2625 uint8_t *dst, int32_t dst_stride,
2677 ST_D4(out0, out1, 0, 1, 0, 1, dst, dst_stride);
2698 ST_D4(out0, out1, 0, 1, 0, 1, dst + 4 * dst_stride, dst_stride);
2699 dst += (8 * dst_stride);
2703 void ff_put_bilin_8hv_msa(uint8_t *dst, ptrdiff_t dst_stride,
2711 common_hv_2ht_2vt_8x4_msa(src, src_stride, dst, dst_stride,
2714 common_hv_2ht_2vt_8x8mult_msa(src, src_stride, dst, dst_stride,
2719 void ff_put_bilin_16hv_msa(uint8_t *dst, ptrdiff_t dst_stride,
2758 PCKEV_ST_SB(tmp1, tmp2, dst);
2759 dst += dst_stride;
2767 PCKEV_ST_SB(tmp1, tmp2, dst);
2768 dst += dst_stride;
2776 PCKEV_ST_SB(tmp1, tmp2, dst);
2777 dst += dst_stride;
2785 PCKEV_ST_SB(tmp1, tmp2, dst);
2786 dst += dst_stride;
2790 void ff_put_bilin_32hv_msa(uint8_t *dst, ptrdiff_t dst_stride,
2797 ff_put_bilin_16hv_msa(dst, dst_stride, src, src_stride, height, mx, my);
2800 dst += 16;
2804 void ff_put_bilin_64hv_msa(uint8_t *dst, ptrdiff_t dst_stride,
2811 ff_put_bilin_16hv_msa(dst, dst_stride, src, src_stride, height, mx, my);
2814 dst += 16;
2820 uint8_t *dst, int32_t dst_stride,
2835 LW4(dst, dst_stride, tp0, tp1, tp2, tp3);
2844 ST_W4(res, 0, 1, 2, 3, dst, dst_stride);
2849 uint8_t *dst, int32_t dst_stride,
2865 LW4(dst, dst_stride, tp0, tp1, tp2, tp3);
2867 LW4(dst + 4 * dst_stride, dst_stride, tp0, tp1, tp2, tp3);
2878 ST_W8(res0, res2, 0, 1, 2, 3, 0, 1, 2, 3, dst, dst_stride);
2881 void ff_avg_bilin_4h_msa(uint8_t *dst, ptrdiff_t dst_stride,
2888 common_hz_2t_and_aver_dst_4x4_msa(src, src_stride, dst, dst_stride,
2891 common_hz_2t_and_aver_dst_4x8_msa(src, src_stride, dst, dst_stride,
2898 uint8_t *dst, int32_t dst_stride,
2918 LD4(dst, dst_stride, tp0, tp1, tp2, tp3);
2921 PCKEV_AVG_ST8x4_UB(vec0, vec1, vec2, vec3, dst0, dst1, dst, dst_stride);
2926 uint8_t *dst,
2949 LD4(dst, dst_stride, tp0, tp1, tp2, tp3);
2954 PCKEV_AVG_ST8x4_UB(vec0, vec1, vec2, vec3, dst0, dst1, dst, dst_stride);
2955 dst += (4 * dst_stride);
2962 LD4(dst, dst_stride, tp0, tp1, tp2, tp3);
2965 PCKEV_AVG_ST8x4_UB(vec0, vec1, vec2, vec3, dst0, dst1, dst, dst_stride);
2966 dst += (4 * dst_stride);
2977 LD4(dst, dst_stride, tp0, tp1, tp2, tp3);
2981 PCKEV_AVG_ST8x4_UB(vec0, vec1, vec2, vec3, dst0, dst1, dst, dst_stride);
2982 dst += (4 * dst_stride);
2989 LD4(dst, dst_stride, tp0, tp1, tp2, tp3);
2992 PCKEV_AVG_ST8x4_UB(vec0, vec1, vec2, vec3, dst0, dst1, dst, dst_stride);
2996 void ff_avg_bilin_8h_msa(uint8_t *dst, ptrdiff_t dst_stride,
3003 common_hz_2t_and_aver_dst_8x4_msa(src, src_stride, dst, dst_stride,
3006 common_hz_2t_and_aver_dst_8x8mult_msa(src, src_stride, dst, dst_stride,
3011 void ff_avg_bilin_16h_msa(uint8_t *dst, ptrdiff_t dst_stride,
3042 LD_UB4(dst, dst_stride, dst0, dst1, dst2, dst3);
3043 PCKEV_AVG_ST_UB(res1, res0, dst0, dst);
3044 dst += dst_stride;
3045 PCKEV_AVG_ST_UB(res3, res2, dst1, dst);
3046 dst += dst_stride;
3047 PCKEV_AVG_ST_UB(res5, res4, dst2, dst);
3048 dst += dst_stride;
3049 PCKEV_AVG_ST_UB(res7, res6, dst3, dst);
3050 dst += dst_stride;
3067 LD_UB4(dst, dst_stride, dst0, dst1, dst2, dst3);
3068 PCKEV_AVG_ST_UB(res1, res0, dst0, dst);
3069 dst += dst_stride;
3070 PCKEV_AVG_ST_UB(res3, res2, dst1, dst);
3071 dst += dst_stride;
3072 PCKEV_AVG_ST_UB(res5, res4, dst2, dst);
3073 dst += dst_stride;
3074 PCKEV_AVG_ST_UB(res7, res6, dst3, dst);
3075 dst += dst_stride;
3079 void ff_avg_bilin_32h_msa(uint8_t *dst, ptrdiff_t dst_stride,
3118 LD_UB2(dst, 16, dst0, dst1);
3119 PCKEV_AVG_ST_UB(res1, res0, dst0, dst);
3120 PCKEV_AVG_ST_UB(res3, res2, dst1, (dst + 16));
3121 dst += dst_stride;
3122 LD_UB2(dst, 16, dst2, dst3);
3123 PCKEV_AVG_ST_UB(res5, res4, dst2, dst);
3124 PCKEV_AVG_ST_UB(res7, res6, dst3, (dst + 16));
3125 dst += dst_stride;
3129 void ff_avg_bilin_64h_msa(uint8_t *dst, ptrdiff_t dst_stride,
3162 LD_UB4(dst, 16, dst0, dst1, dst2, dst3);
3163 PCKEV_AVG_ST_UB(out1, out0, dst0, dst);
3164 PCKEV_AVG_ST_UB(out3, out2, dst1, dst + 16);
3165 PCKEV_AVG_ST_UB(out5, out4, dst2, dst + 32);
3166 PCKEV_AVG_ST_UB(out7, out6, dst3, dst + 48);
3167 dst += dst_stride;
3173 uint8_t *dst, int32_t dst_stride,
3192 LW4(dst, dst_stride, tp0, tp1, tp2, tp3);
3204 ST_W4(out, 0, 1, 2, 3, dst, dst_stride);
3209 uint8_t *dst, int32_t dst_stride,
3227 LW4(dst, dst_stride, tp0, tp1, tp2, tp3);
3229 LW4(dst + 4 * dst_stride, dst_stride, tp0, tp1, tp2, tp3);
3243 ST_W8(src2110, src4332, 0, 1, 2, 3, 0, 1, 2, 3, dst, dst_stride);
3246 void ff_avg_bilin_4v_msa(uint8_t *dst, ptrdiff_t dst_stride,
3253 common_vt_2t_and_aver_dst_4x4_msa(src, src_stride, dst, dst_stride,
3256 common_vt_2t_and_aver_dst_4x8_msa(src, src_stride, dst, dst_stride,
3263 uint8_t *dst,
3278 LD4(dst, dst_stride, tp0, tp1, tp2, tp3);
3287 PCKEV_AVG_ST8x4_UB(tmp0, tmp1, tmp2, tmp3, dst0, dst1, dst, dst_stride);
3292 uint8_t *dst,
3316 LD4(dst, dst_stride, tp0, tp1, tp2, tp3);
3319 LD4(dst + 4 * dst_stride, dst_stride, tp0, tp1, tp2, tp3);
3331 PCKEV_AVG_ST8x4_UB(tmp0, tmp1, tmp2, tmp3, dst0, dst1, dst, dst_stride);
3332 dst += (4 * dst_stride);
3338 PCKEV_AVG_ST8x4_UB(tmp0, tmp1, tmp2, tmp3, dst2, dst3, dst, dst_stride);
3339 dst += (4 * dst_stride);
3345 void ff_avg_bilin_8v_msa(uint8_t *dst, ptrdiff_t dst_stride,
3352 common_vt_2t_and_aver_dst_8x4_msa(src, src_stride, dst, dst_stride,
3355 common_vt_2t_and_aver_dst_8x8mult_msa(src, src_stride, dst, dst_stride,
3360 void ff_avg_bilin_16v_msa(uint8_t *dst, ptrdiff_t dst_stride,
3381 LD_UB4(dst, dst_stride, dst0, dst1, dst2, dst3);
3387 PCKEV_AVG_ST_UB(tmp1, tmp0, dst0, dst);
3388 dst += dst_stride;
3395 PCKEV_AVG_ST_UB(tmp3, tmp2, dst1, dst);
3396 dst += dst_stride;
3401 PCKEV_AVG_ST_UB(tmp1, tmp0, dst2, dst);
3402 dst += dst_stride;
3407 PCKEV_AVG_ST_UB(tmp3, tmp2, dst3, dst);
3408 dst += dst_stride;
3414 void ff_avg_bilin_32v_msa(uint8_t *dst, ptrdiff_t dst_stride,
3434 LD_UB4(dst, dst_stride, dst0, dst1, dst2, dst3);
3439 LD_UB4(dst + 16, dst_stride, dst4, dst5, dst6, dst7);
3445 PCKEV_AVG_ST_UB(tmp1, tmp0, dst0, dst);
3450 PCKEV_AVG_ST_UB(tmp3, tmp2, dst1, dst + dst_stride);
3457 PCKEV_AVG_ST_UB(tmp1, tmp0, dst2, dst + 2 * dst_stride);
3462 PCKEV_AVG_ST_UB(tmp3, tmp2, dst3, dst + 3 * dst_stride);
3469 PCKEV_AVG_ST_UB(tmp1, tmp0, dst4, dst + 16);
3474 PCKEV_AVG_ST_UB(tmp3, tmp2, dst5, dst + 16 + dst_stride);
3481 PCKEV_AVG_ST_UB(tmp1, tmp0, dst6, dst + 16 + 2 * dst_stride);
3486 PCKEV_AVG_ST_UB(tmp3, tmp2, dst7, dst + 16 + 3 * dst_stride);
3487 dst += (4 * dst_stride);
3494 void ff_avg_bilin_64v_msa(uint8_t *dst, ptrdiff_t dst_stride,
3516 LD_UB2(dst, dst_stride, dst0, dst1);
3518 LD_UB2(dst + 16, dst_stride, dst2, dst3);
3520 LD_UB2(dst + 32, dst_stride, dst4, dst5);
3522 LD_UB2(dst + 48, dst_stride, dst6, dst7);
3530 PCKEV_AVG_ST_UB(tmp1, tmp0, dst0, dst);
3535 PCKEV_AVG_ST_UB(tmp3, tmp2, dst1, dst + dst_stride);
3542 PCKEV_AVG_ST_UB(tmp5, tmp4, dst2, dst + 16);
3547 PCKEV_AVG_ST_UB(tmp7, tmp6, dst3, dst + 16 + dst_stride);
3554 PCKEV_AVG_ST_UB(tmp1, tmp0, dst4, dst + 32);
3559 PCKEV_AVG_ST_UB(tmp3, tmp2, dst5, dst + 32 + dst_stride);
3566 PCKEV_AVG_ST_UB(tmp5, tmp4, dst6, (dst + 48));
3571 PCKEV_AVG_ST_UB(tmp7, tmp6, dst7, dst + 48 + dst_stride);
3572 dst += (2 * dst_stride);
3583 uint8_t *dst,
3612 LW4(dst, dst_stride, tp0, tp1, tp2, tp3);
3622 ST_W4(out, 0, 1, 2, 3, dst, dst_stride);
3627 uint8_t *dst,
3662 LW4(dst, dst_stride, tp0, tp1, tp2, tp3);
3664 LW4(dst + 4 * dst_stride, dst_stride, tp0, tp1, tp2, tp3);
3674 ST_W8(res0, res1, 0, 1, 2, 3, 0, 1, 2, 3, dst, dst_stride);
3677 void ff_avg_bilin_4hv_msa(uint8_t *dst, ptrdiff_t dst_stride,
3685 common_hv_2ht_2vt_and_aver_dst_4x4_msa(src, src_stride, dst, dst_stride,
3688 common_hv_2ht_2vt_and_aver_dst_4x8_msa(src, src_stride, dst, dst_stride,
3695 uint8_t *dst,
3718 LD4(dst, dst_stride, tp0, tp1, tp2, tp3);
3740 PCKEV_AVG_ST8x4_UB(tmp0, tmp1, tmp2, tmp3, dst0, dst1, dst, dst_stride);
3745 uint8_t *dst,
3797 LD4(dst, dst_stride, tp0, tp1, tp2, tp3);
3800 PCKEV_AVG_ST8x4_UB(tmp0, tmp1, tmp2, tmp3, dst0, dst1, dst, dst_stride);
3801 dst += (4 * dst_stride);
3805 void ff_avg_bilin_8hv_msa(uint8_t *dst, ptrdiff_t dst_stride,
3813 common_hv_2ht_2vt_and_aver_dst_8x4_msa(src, src_stride, dst, dst_stride,
3817 dst, dst_stride,
3823 void ff_avg_bilin_16hv_msa(uint8_t *dst, ptrdiff_t dst_stride,
3854 LD_UB4(dst, dst_stride, dst0, dst1, dst2, dst3);
3862 PCKEV_AVG_ST_UB(tmp1, tmp0, dst0, dst);
3863 dst += dst_stride;
3871 PCKEV_AVG_ST_UB(tmp1, tmp0, dst1, dst);
3872 dst += dst_stride;
3880 PCKEV_AVG_ST_UB(tmp1, tmp0, dst2, dst);
3881 dst += dst_stride;
3889 PCKEV_AVG_ST_UB(tmp1, tmp0, dst3, dst);
3890 dst += dst_stride;
3894 void ff_avg_bilin_32hv_msa(uint8_t *dst, ptrdiff_t dst_stride,
3901 ff_avg_bilin_16hv_msa(dst, dst_stride, src, src_stride, height, mx, my);
3904 dst += 16;
3908 void ff_avg_bilin_64hv_msa(uint8_t *dst, ptrdiff_t dst_stride,
3915 ff_avg_bilin_16hv_msa(dst, dst_stride, src, src_stride, height, mx, my);
3918 dst += 16;
3923 uint8_t *dst, int32_t dst_stride,
3936 SD4(out0, out1, out2, out3, dst, dst_stride);
3937 dst += (4 * dst_stride);
3938 SD4(out4, out5, out6, out7, dst, dst_stride);
3939 dst += (4 * dst_stride);
3946 SD4(out0, out1, out2, out3, dst, dst_stride);
3947 dst += (4 * dst_stride);
3953 uint8_t *dst, int32_t dst_stride,
3961 ST_UB8(src0, src1, src2, src3, src4, src5, src6, src7, dst, dst_stride);
3965 ST_UB8(src0, src1, src2, src3, src4, src5, src6, src7, dst, dst_stride);
3966 dst += (8 * dst_stride);
3969 ST_UB8(src0, src1, src2, src3, src4, src5, src6, src7, dst, dst_stride);
3970 dst += (8 * dst_stride);
3974 ST_UB8(src0, src1, src2, src3, src4, src5, src6, src7, dst, dst_stride);
3975 dst += (8 * dst_stride);
3978 ST_UB8(src0, src1, src2, src3, src4, src5, src6, src7, dst, dst_stride);
3979 dst += (8 * dst_stride);
3982 ST_UB8(src0, src1, src2, src3, src4, src5, src6, src7, dst, dst_stride);
3983 dst += (8 * dst_stride);
3985 ST_UB8(src0, src1, src2, src3, src4, src5, src6, src7, dst, dst_stride);
3990 ST_UB4(src0, src1, src2, src3, dst, dst_stride);
3991 dst += (4 * dst_stride);
3997 uint8_t *dst, int32_t dst_stride,
4006 ST_UB8(src0, src1, src2, src3, src4, src5, src6, src7, dst, dst_stride);
4010 ST_UB8(src0, src1, src2, src3, src4, src5, src6, src7, dst + 16,
4012 dst += (8 * dst_stride);
4019 ST_UB4(src0, src1, src2, src3, dst, dst_stride);
4020 ST_UB4(src4, src5, src6, src7, dst + 16, dst_stride);
4021 dst += (4 * dst_stride);
4027 uint8_t *dst, int32_t dst_stride,
4044 ST_UB4(src0, src1, src2, src3, dst, 16);
4045 dst += dst_stride;
4046 ST_UB4(src4, src5, src6, src7, dst, 16);
4047 dst += dst_stride;
4048 ST_UB4(src8, src9, src10, src11, dst, 16);
4049 dst += dst_stride;
4050 ST_UB4(src12, src13, src14, src15, dst, 16);
4051 dst += dst_stride;
4056 uint8_t *dst, int32_t dst_stride,
4068 LW4(dst, dst_stride, tp0, tp1, tp2, tp3);
4070 LW4(dst + 4 * dst_stride, dst_stride, tp0, tp1, tp2, tp3);
4073 ST_W8(dst0, dst1, 0, 1, 2, 3, 0, 1, 2, 3, dst, dst_stride);
4077 LW4(dst, dst_stride, tp0, tp1, tp2, tp3);
4080 ST_W4(dst0, 0, 1, 2, 3, dst, dst_stride);
4085 uint8_t *dst, int32_t dst_stride,
4103 LD4(dst, dst_stride, tp0, tp1, tp2, tp3);
4104 LD4(dst + 4 * dst_stride, dst_stride, tp4, tp5, tp6, tp7);
4111 ST_D8(dst0, dst1, dst2, dst3, 0, 1, 0, 1, 0, 1, 0, 1, dst, dst_stride);
4112 dst += 8 * dst_stride;
4118 LD4(dst, dst_stride, tp0, tp1, tp2, tp3);
4122 ST_D4(dst0, dst1, 0, 1, 0, 1, dst, dst_stride);
4127 uint8_t *dst, int32_t dst_stride,
4138 LD_UB8(dst, dst_stride, dst0, dst1, dst2, dst3, dst4, dst5, dst6, dst7);
4144 ST_UB8(dst0, dst1, dst2, dst3, dst4, dst5, dst6, dst7, dst, dst_stride);
4145 dst += (8 * dst_stride);
4151 LD_UB4(dst, dst_stride, dst0, dst1, dst2, dst3);
4155 ST_UB4(dst0, dst1, dst2, dst3, dst, dst_stride);
4156 dst += (4 * dst_stride);
4162 uint8_t *dst, int32_t dst_stride,
4166 uint8_t *dst_dup = dst;
4196 ST_UB4(dst0, dst2, dst4, dst6, dst, dst_stride);
4197 ST_UB4(dst1, dst3, dst5, dst7, dst + 16, dst_stride);
4198 dst += (4 * dst_stride);
4199 ST_UB4(dst8, dst10, dst12, dst14, dst, dst_stride);
4200 ST_UB4(dst9, dst11, dst13, dst15, dst + 16, dst_stride);
4201 dst += (4 * dst_stride);
4217 ST_UB4(dst0, dst2, dst4, dst6, dst, dst_stride);
4218 ST_UB4(dst1, dst3, dst5, dst7, dst + 16, dst_stride);
4219 dst += (4 * dst_stride);
4225 uint8_t *dst, int32_t dst_stride,
4229 uint8_t *dst_dup = dst;
4263 ST_UB4(dst0, dst1, dst2, dst3, dst, 16);
4264 dst += dst_stride;
4265 ST_UB4(dst4, dst5, dst6, dst7, dst, 16);
4266 dst += dst_stride;
4267 ST_UB4(dst8, dst9, dst10, dst11, dst, 16);
4268 dst += dst_stride;
4269 ST_UB4(dst12, dst13, dst14, dst15, dst, 16);
4270 dst += dst_stride;
4327 void ff_put_8tap_##type##_##SIZE##h_msa(uint8_t *dst, ptrdiff_t dststride, \
4334 common_hz_8t_##SIZE##w_msa(src, srcstride, dst, dststride, filter, h); \
4337 void ff_put_8tap_##type##_##SIZE##v_msa(uint8_t *dst, ptrdiff_t dststride, \
4344 common_vt_8t_##SIZE##w_msa(src, srcstride, dst, dststride, filter, h); \
4347 void ff_put_8tap_##type##_##SIZE##hv_msa(uint8_t *dst, ptrdiff_t dststride, \
4355 common_hv_8ht_8vt_##SIZE##w_msa(src, srcstride, dst, dststride, hfilter, \
4359 void ff_avg_8tap_##type##_##SIZE##h_msa(uint8_t *dst, ptrdiff_t dststride, \
4366 common_hz_8t_and_aver_dst_##SIZE##w_msa(src, srcstride, dst, \
4370 void ff_avg_8tap_##type##_##SIZE##v_msa(uint8_t *dst, ptrdiff_t dststride, \
4377 common_vt_8t_and_aver_dst_##SIZE##w_msa(src, srcstride, dst, dststride, \
4381 void ff_avg_8tap_##type##_##SIZE##hv_msa(uint8_t *dst, ptrdiff_t dststride, \
4389 common_hv_8ht_8vt_and_aver_dst_##SIZE##w_msa(src, srcstride, dst, \
4395 void ff_copy##SIZE##_msa(uint8_t *dst, ptrdiff_t dststride, \
4400 copy_width##SIZE##_msa(src, srcstride, dst, dststride, h); \
4403 void ff_avg##SIZE##_msa(uint8_t *dst, ptrdiff_t dststride, \
4408 avg_width##SIZE##_msa(src, srcstride, dst, dststride, h); \
4412 void ff_avg##SIZE##_msa(uint8_t *dst, ptrdiff_t dststride, \
4417 avg_width##SIZE##_msa(src, srcstride, dst, dststride, h); \