Lines Matching refs:dst_stride
160 uint8_t *dst, int32_t dst_stride,
185 ST_W4(out, 0, 1, 2, 3, dst, dst_stride);
189 uint8_t *dst, int32_t dst_stride,
220 ST_W4(out, 0, 1, 2, 3, dst, dst_stride);
222 ST_W4(out, 0, 1, 2, 3, dst + 4 * dst_stride, dst_stride);
226 uint8_t *dst, int32_t dst_stride,
230 common_hz_8t_4x4_msa(src, src_stride, dst, dst_stride, filter);
232 common_hz_8t_4x8_msa(src, src_stride, dst, dst_stride, filter);
237 uint8_t *dst, int32_t dst_stride,
264 ST_D4(tmp0, tmp1, 0, 1, 0, 1, dst, dst_stride);
268 uint8_t *dst, int32_t dst_stride,
298 ST_D4(tmp0, tmp1, 0, 1, 0, 1, dst, dst_stride);
299 dst += (4 * dst_stride);
304 uint8_t *dst, int32_t dst_stride,
308 common_hz_8t_8x4_msa(src, src_stride, dst, dst_stride, filter);
310 common_hz_8t_8x8mult_msa(src, src_stride, dst, dst_stride, filter,
316 uint8_t *dst, int32_t dst_stride,
347 dst += dst_stride;
350 dst += dst_stride;
355 uint8_t *dst, int32_t dst_stride,
397 dst += dst_stride;
409 dst += dst_stride;
414 uint8_t *dst, int32_t dst_stride,
466 dst += dst_stride;
471 uint8_t *dst, int32_t dst_stride,
512 ST_W4(out, 0, 1, 2, 3, dst, dst_stride);
513 dst += (4 * dst_stride);
523 uint8_t *dst, int32_t dst_stride,
564 ST_D4(tmp0, tmp1, 0, 1, 0, 1, dst, dst_stride);
565 dst += (4 * dst_stride);
578 uint8_t *dst, int32_t dst_stride,
637 ST_UB4(tmp0, tmp1, tmp2, tmp3, dst, dst_stride);
638 dst += (4 * dst_stride);
657 uint8_t *dst, int32_t dst_stride,
722 ST_UB4(tmp0, tmp1, tmp2, tmp3, dst_tmp, dst_stride);
723 dst_tmp += (4 * dst_stride);
746 uint8_t *dst, int32_t dst_stride,
749 common_vt_8t_16w_mult_msa(src, src_stride, dst, dst_stride, filter, height,
754 uint8_t *dst, int32_t dst_stride,
757 common_vt_8t_16w_mult_msa(src, src_stride, dst, dst_stride, filter, height,
762 uint8_t *dst, int32_t dst_stride,
827 ST_W4(out, 0, 1, 2, 3, dst, dst_stride);
828 dst += (4 * dst_stride);
838 uint8_t *dst, int32_t dst_stride,
922 ST_D4(vec0, vec1, 0, 1, 0, 1, dst, dst_stride);
923 dst += (4 * dst_stride);
936 uint8_t *dst, int32_t dst_stride,
944 common_hv_8ht_8vt_8w_msa(src, src_stride, dst, dst_stride, filter_horiz,
953 uint8_t *dst, int32_t dst_stride,
961 common_hv_8ht_8vt_8w_msa(src, src_stride, dst, dst_stride, filter_horiz,
970 uint8_t *dst, int32_t dst_stride,
978 common_hv_8ht_8vt_8w_msa(src, src_stride, dst, dst_stride, filter_horiz,
988 uint8_t *dst, int32_t dst_stride,
1012 LW4(dst, dst_stride, tp0, tp1, tp2, tp3);
1018 ST_W4(res, 0, 1, 2, 3, dst, dst_stride);
1023 uint8_t *dst, int32_t dst_stride,
1046 LW4(dst, dst_stride, tp0, tp1, tp2, tp3);
1048 LW4(dst + 4 * dst_stride, dst_stride, tp0, tp1, tp2, tp3);
1063 ST_W8(res0, res2, 0, 1, 2, 3, 0, 1, 2, 3, dst, dst_stride);
1068 uint8_t *dst, int32_t dst_stride,
1073 common_hz_8t_and_aver_dst_4x4_msa(src, src_stride, dst, dst_stride,
1076 common_hz_8t_and_aver_dst_4x8_msa(src, src_stride, dst, dst_stride,
1083 uint8_t *dst, int32_t dst_stride,
1111 LD4(dst, dst_stride, tp0, tp1, tp2, tp3);
1117 dst, dst_stride);
1118 dst += (4 * dst_stride);
1124 uint8_t *dst, int32_t dst_stride,
1170 LD_UB2(dst, dst_stride, dst0, dst1);
1174 dst += dst_stride;
1176 dst += dst_stride;
1182 uint8_t *dst, int32_t dst_stride,
1235 dst += dst_stride;
1241 uint8_t *dst, int32_t dst_stride,
1297 dst += dst_stride;
1303 uint8_t *dst, int32_t dst_stride,
1335 LW4(dst, dst_stride, tp0, tp1, tp2, tp3);
1350 ST_W4(out, 0, 1, 2, 3, dst, dst_stride);
1351 dst += (4 * dst_stride);
1362 uint8_t *dst, int32_t dst_stride,
1391 LD4(dst, dst_stride, tp0, tp1, tp2, tp3);
1408 dst, dst_stride);
1409 dst += (4 * dst_stride);
1424 int32_t dst_stride,
1464 LD_UB4(dst_tmp, dst_stride, dst0, dst1, dst2, dst3);
1495 ST_UB4(dst0, dst1, dst2, dst3, dst_tmp, dst_stride);
1496 dst_tmp += (4 * dst_stride);
1520 uint8_t *dst, int32_t dst_stride,
1524 common_vt_8t_and_aver_dst_16w_mult_msa(src, src_stride, dst, dst_stride,
1530 uint8_t *dst, int32_t dst_stride,
1534 common_vt_8t_and_aver_dst_16w_mult_msa(src, src_stride, dst, dst_stride,
1540 uint8_t *dst, int32_t dst_stride,
1544 common_vt_8t_and_aver_dst_16w_mult_msa(src, src_stride, dst, dst_stride,
1551 int32_t dst_stride,
1601 LW4(dst, dst_stride, tp0, tp1, tp2, tp3);
1621 ST_W4(res, 0, 1, 2, 3, dst, dst_stride);
1622 dst += (4 * dst_stride);
1634 int32_t dst_stride,
1691 LD4(dst, dst_stride, tp0, tp1, tp2, tp3);
1722 dst, dst_stride);
1723 dst += (4 * dst_stride);
1738 int32_t dst_stride,
1746 common_hv_8ht_8vt_and_aver_dst_8w_msa(src, src_stride, dst, dst_stride,
1758 int32_t dst_stride,
1766 common_hv_8ht_8vt_and_aver_dst_8w_msa(src, src_stride, dst, dst_stride,
1778 int32_t dst_stride,
1786 common_hv_8ht_8vt_and_aver_dst_8w_msa(src, src_stride, dst, dst_stride,
1796 uint8_t *dst, int32_t dst_stride,
1814 ST_W2(res0, 0, 1, dst, dst_stride);
1815 ST_W2(res1, 0, 1, dst + 2 * dst_stride, dst_stride);
1819 uint8_t *dst, int32_t dst_stride,
1841 ST_W2(res0, 0, 1, dst, dst_stride);
1842 ST_W2(res1, 0, 1, dst + 2 * dst_stride, dst_stride);
1843 ST_W2(res2, 0, 1, dst + 4 * dst_stride, dst_stride);
1844 ST_W2(res3, 0, 1, dst + 6 * dst_stride, dst_stride);
1847 void ff_put_bilin_4h_msa(uint8_t *dst, ptrdiff_t dst_stride,
1854 common_hz_2t_4x4_msa(src, src_stride, dst, dst_stride, filter);
1856 common_hz_2t_4x8_msa(src, src_stride, dst, dst_stride, filter);
1861 uint8_t *dst, int32_t dst_stride,
1881 ST_D4(src0, src1, 0, 1, 0, 1, dst, dst_stride);
1885 uint8_t *dst, int32_t dst_stride,
1910 ST_D4(out0, out1, 0, 1, 0, 1, dst, dst_stride);
1918 ST_D4(out0, out1, 0, 1, 0, 1, dst + 4 * dst_stride, dst_stride);
1919 dst += (8 * dst_stride);
1934 ST_D4(out0, out1, 0, 1, 0, 1, dst, dst_stride);
1942 ST_D4(out0, out1, 0, 1, 0, 1, dst + 4 * dst_stride, dst_stride);
1946 void ff_put_bilin_8h_msa(uint8_t *dst, ptrdiff_t dst_stride,
1953 common_hz_2t_8x4_msa(src, src_stride, dst, dst_stride, filter);
1955 common_hz_2t_8x8mult_msa(src, src_stride, dst, dst_stride, filter,
1960 void ff_put_bilin_16h_msa(uint8_t *dst, ptrdiff_t dst_stride,
1993 dst += dst_stride;
1995 dst += dst_stride;
1997 dst += dst_stride;
1999 dst += dst_stride;
2017 dst += dst_stride;
2019 dst += dst_stride;
2021 dst += dst_stride;
2023 dst += dst_stride;
2027 void ff_put_bilin_32h_msa(uint8_t *dst, ptrdiff_t dst_stride,
2067 dst += dst_stride;
2070 dst += dst_stride;
2074 void ff_put_bilin_64h_msa(uint8_t *dst, ptrdiff_t dst_stride,
2113 dst += dst_stride;
2118 uint8_t *dst, int32_t dst_stride,
2140 ST_W4(src2110, 0, 1, 2, 3, dst, dst_stride);
2144 uint8_t *dst, int32_t dst_stride,
2174 ST_W8(src2110, src4332, 0, 1, 2, 3, 0, 1, 2, 3, dst, dst_stride);
2177 void ff_put_bilin_4v_msa(uint8_t *dst, ptrdiff_t dst_stride,
2184 common_vt_2t_4x4_msa(src, src_stride, dst, dst_stride, filter);
2186 common_vt_2t_4x8_msa(src, src_stride, dst, dst_stride, filter);
2191 uint8_t *dst, int32_t dst_stride,
2211 ST_D4(out0, out1, 0, 1, 0, 1, dst, dst_stride);
2215 uint8_t *dst, int32_t dst_stride,
2245 ST_D4(out0, out1, 0, 1, 0, 1, dst, dst_stride);
2252 ST_D4(out0, out1, 0, 1, 0, 1, dst + 4 * dst_stride, dst_stride);
2253 dst += (8 * dst_stride);
2259 void ff_put_bilin_8v_msa(uint8_t *dst, ptrdiff_t dst_stride,
2266 common_vt_2t_8x4_msa(src, src_stride, dst, dst_stride, filter);
2268 common_vt_2t_8x8mult_msa(src, src_stride, dst, dst_stride, filter,
2273 void ff_put_bilin_16v_msa(uint8_t *dst, ptrdiff_t dst_stride,
2301 dst += dst_stride;
2309 dst += dst_stride;
2315 dst += dst_stride;
2321 dst += dst_stride;
2327 void ff_put_bilin_32v_msa(uint8_t *dst, ptrdiff_t dst_stride,
2361 PCKEV_ST_SB(tmp2, tmp3, dst + dst_stride);
2368 PCKEV_ST_SB(tmp0, tmp1, dst + 2 * dst_stride);
2373 PCKEV_ST_SB(tmp2, tmp3, dst + 3 * dst_stride);
2385 PCKEV_ST_SB(tmp2, tmp3, dst + 16 + dst_stride);
2392 PCKEV_ST_SB(tmp0, tmp1, dst + 16 + 2 * dst_stride);
2397 PCKEV_ST_SB(tmp2, tmp3, dst + 16 + 3 * dst_stride);
2398 dst += (4 * dst_stride);
2405 void ff_put_bilin_64v_msa(uint8_t *dst, ptrdiff_t dst_stride,
2440 PCKEV_ST_SB(tmp2, tmp3, dst + dst_stride);
2452 PCKEV_ST_SB(tmp6, tmp7, dst + 16 + dst_stride);
2464 PCKEV_ST_SB(tmp2, tmp3, dst + 32 + dst_stride);
2476 PCKEV_ST_SB(tmp6, tmp7, dst + 48 + dst_stride);
2477 dst += (2 * dst_stride);
2487 uint8_t *dst, int32_t dst_stride,
2515 ST_W2(res0, 0, 1, dst, dst_stride);
2516 ST_W2(res1, 0, 1, dst + 2 * dst_stride, dst_stride);
2520 uint8_t *dst, int32_t dst_stride,
2559 ST_W2(res0, 0, 1, dst, dst_stride);
2560 ST_W2(res1, 0, 1, dst + 2 * dst_stride, dst_stride);
2561 ST_W2(res2, 0, 1, dst + 4 * dst_stride, dst_stride);
2562 ST_W2(res3, 0, 1, dst + 6 * dst_stride, dst_stride);
2565 void ff_put_bilin_4hv_msa(uint8_t *dst, ptrdiff_t dst_stride,
2573 common_hv_2ht_2vt_4x4_msa(src, src_stride, dst, dst_stride,
2576 common_hv_2ht_2vt_4x8_msa(src, src_stride, dst, dst_stride,
2582 uint8_t *dst, int32_t dst_stride,
2621 ST_D4(out0, out1, 0, 1, 0, 1, dst, dst_stride);
2625 uint8_t *dst, int32_t dst_stride,
2677 ST_D4(out0, out1, 0, 1, 0, 1, dst, dst_stride);
2698 ST_D4(out0, out1, 0, 1, 0, 1, dst + 4 * dst_stride, dst_stride);
2699 dst += (8 * dst_stride);
2703 void ff_put_bilin_8hv_msa(uint8_t *dst, ptrdiff_t dst_stride,
2711 common_hv_2ht_2vt_8x4_msa(src, src_stride, dst, dst_stride,
2714 common_hv_2ht_2vt_8x8mult_msa(src, src_stride, dst, dst_stride,
2719 void ff_put_bilin_16hv_msa(uint8_t *dst, ptrdiff_t dst_stride,
2759 dst += dst_stride;
2768 dst += dst_stride;
2777 dst += dst_stride;
2786 dst += dst_stride;
2790 void ff_put_bilin_32hv_msa(uint8_t *dst, ptrdiff_t dst_stride,
2797 ff_put_bilin_16hv_msa(dst, dst_stride, src, src_stride, height, mx, my);
2804 void ff_put_bilin_64hv_msa(uint8_t *dst, ptrdiff_t dst_stride,
2811 ff_put_bilin_16hv_msa(dst, dst_stride, src, src_stride, height, mx, my);
2820 uint8_t *dst, int32_t dst_stride,
2835 LW4(dst, dst_stride, tp0, tp1, tp2, tp3);
2844 ST_W4(res, 0, 1, 2, 3, dst, dst_stride);
2849 uint8_t *dst, int32_t dst_stride,
2865 LW4(dst, dst_stride, tp0, tp1, tp2, tp3);
2867 LW4(dst + 4 * dst_stride, dst_stride, tp0, tp1, tp2, tp3);
2878 ST_W8(res0, res2, 0, 1, 2, 3, 0, 1, 2, 3, dst, dst_stride);
2881 void ff_avg_bilin_4h_msa(uint8_t *dst, ptrdiff_t dst_stride,
2888 common_hz_2t_and_aver_dst_4x4_msa(src, src_stride, dst, dst_stride,
2891 common_hz_2t_and_aver_dst_4x8_msa(src, src_stride, dst, dst_stride,
2898 uint8_t *dst, int32_t dst_stride,
2918 LD4(dst, dst_stride, tp0, tp1, tp2, tp3);
2921 PCKEV_AVG_ST8x4_UB(vec0, vec1, vec2, vec3, dst0, dst1, dst, dst_stride);
2927 int32_t dst_stride,
2949 LD4(dst, dst_stride, tp0, tp1, tp2, tp3);
2954 PCKEV_AVG_ST8x4_UB(vec0, vec1, vec2, vec3, dst0, dst1, dst, dst_stride);
2955 dst += (4 * dst_stride);
2962 LD4(dst, dst_stride, tp0, tp1, tp2, tp3);
2965 PCKEV_AVG_ST8x4_UB(vec0, vec1, vec2, vec3, dst0, dst1, dst, dst_stride);
2966 dst += (4 * dst_stride);
2977 LD4(dst, dst_stride, tp0, tp1, tp2, tp3);
2981 PCKEV_AVG_ST8x4_UB(vec0, vec1, vec2, vec3, dst0, dst1, dst, dst_stride);
2982 dst += (4 * dst_stride);
2989 LD4(dst, dst_stride, tp0, tp1, tp2, tp3);
2992 PCKEV_AVG_ST8x4_UB(vec0, vec1, vec2, vec3, dst0, dst1, dst, dst_stride);
2996 void ff_avg_bilin_8h_msa(uint8_t *dst, ptrdiff_t dst_stride,
3003 common_hz_2t_and_aver_dst_8x4_msa(src, src_stride, dst, dst_stride,
3006 common_hz_2t_and_aver_dst_8x8mult_msa(src, src_stride, dst, dst_stride,
3011 void ff_avg_bilin_16h_msa(uint8_t *dst, ptrdiff_t dst_stride,
3042 LD_UB4(dst, dst_stride, dst0, dst1, dst2, dst3);
3044 dst += dst_stride;
3046 dst += dst_stride;
3048 dst += dst_stride;
3050 dst += dst_stride;
3067 LD_UB4(dst, dst_stride, dst0, dst1, dst2, dst3);
3069 dst += dst_stride;
3071 dst += dst_stride;
3073 dst += dst_stride;
3075 dst += dst_stride;
3079 void ff_avg_bilin_32h_msa(uint8_t *dst, ptrdiff_t dst_stride,
3121 dst += dst_stride;
3125 dst += dst_stride;
3129 void ff_avg_bilin_64h_msa(uint8_t *dst, ptrdiff_t dst_stride,
3167 dst += dst_stride;
3173 uint8_t *dst, int32_t dst_stride,
3192 LW4(dst, dst_stride, tp0, tp1, tp2, tp3);
3204 ST_W4(out, 0, 1, 2, 3, dst, dst_stride);
3209 uint8_t *dst, int32_t dst_stride,
3227 LW4(dst, dst_stride, tp0, tp1, tp2, tp3);
3229 LW4(dst + 4 * dst_stride, dst_stride, tp0, tp1, tp2, tp3);
3243 ST_W8(src2110, src4332, 0, 1, 2, 3, 0, 1, 2, 3, dst, dst_stride);
3246 void ff_avg_bilin_4v_msa(uint8_t *dst, ptrdiff_t dst_stride,
3253 common_vt_2t_and_aver_dst_4x4_msa(src, src_stride, dst, dst_stride,
3256 common_vt_2t_and_aver_dst_4x8_msa(src, src_stride, dst, dst_stride,
3264 int32_t dst_stride,
3278 LD4(dst, dst_stride, tp0, tp1, tp2, tp3);
3287 PCKEV_AVG_ST8x4_UB(tmp0, tmp1, tmp2, tmp3, dst0, dst1, dst, dst_stride);
3293 int32_t dst_stride,
3316 LD4(dst, dst_stride, tp0, tp1, tp2, tp3);
3319 LD4(dst + 4 * dst_stride, dst_stride, tp0, tp1, tp2, tp3);
3331 PCKEV_AVG_ST8x4_UB(tmp0, tmp1, tmp2, tmp3, dst0, dst1, dst, dst_stride);
3332 dst += (4 * dst_stride);
3338 PCKEV_AVG_ST8x4_UB(tmp0, tmp1, tmp2, tmp3, dst2, dst3, dst, dst_stride);
3339 dst += (4 * dst_stride);
3345 void ff_avg_bilin_8v_msa(uint8_t *dst, ptrdiff_t dst_stride,
3352 common_vt_2t_and_aver_dst_8x4_msa(src, src_stride, dst, dst_stride,
3355 common_vt_2t_and_aver_dst_8x8mult_msa(src, src_stride, dst, dst_stride,
3360 void ff_avg_bilin_16v_msa(uint8_t *dst, ptrdiff_t dst_stride,
3381 LD_UB4(dst, dst_stride, dst0, dst1, dst2, dst3);
3388 dst += dst_stride;
3396 dst += dst_stride;
3402 dst += dst_stride;
3408 dst += dst_stride;
3414 void ff_avg_bilin_32v_msa(uint8_t *dst, ptrdiff_t dst_stride,
3434 LD_UB4(dst, dst_stride, dst0, dst1, dst2, dst3);
3439 LD_UB4(dst + 16, dst_stride, dst4, dst5, dst6, dst7);
3450 PCKEV_AVG_ST_UB(tmp3, tmp2, dst1, dst + dst_stride);
3457 PCKEV_AVG_ST_UB(tmp1, tmp0, dst2, dst + 2 * dst_stride);
3462 PCKEV_AVG_ST_UB(tmp3, tmp2, dst3, dst + 3 * dst_stride);
3474 PCKEV_AVG_ST_UB(tmp3, tmp2, dst5, dst + 16 + dst_stride);
3481 PCKEV_AVG_ST_UB(tmp1, tmp0, dst6, dst + 16 + 2 * dst_stride);
3486 PCKEV_AVG_ST_UB(tmp3, tmp2, dst7, dst + 16 + 3 * dst_stride);
3487 dst += (4 * dst_stride);
3494 void ff_avg_bilin_64v_msa(uint8_t *dst, ptrdiff_t dst_stride,
3516 LD_UB2(dst, dst_stride, dst0, dst1);
3518 LD_UB2(dst + 16, dst_stride, dst2, dst3);
3520 LD_UB2(dst + 32, dst_stride, dst4, dst5);
3522 LD_UB2(dst + 48, dst_stride, dst6, dst7);
3535 PCKEV_AVG_ST_UB(tmp3, tmp2, dst1, dst + dst_stride);
3547 PCKEV_AVG_ST_UB(tmp7, tmp6, dst3, dst + 16 + dst_stride);
3559 PCKEV_AVG_ST_UB(tmp3, tmp2, dst5, dst + 32 + dst_stride);
3571 PCKEV_AVG_ST_UB(tmp7, tmp6, dst7, dst + 48 + dst_stride);
3572 dst += (2 * dst_stride);
3584 int32_t dst_stride,
3612 LW4(dst, dst_stride, tp0, tp1, tp2, tp3);
3622 ST_W4(out, 0, 1, 2, 3, dst, dst_stride);
3628 int32_t dst_stride,
3662 LW4(dst, dst_stride, tp0, tp1, tp2, tp3);
3664 LW4(dst + 4 * dst_stride, dst_stride, tp0, tp1, tp2, tp3);
3674 ST_W8(res0, res1, 0, 1, 2, 3, 0, 1, 2, 3, dst, dst_stride);
3677 void ff_avg_bilin_4hv_msa(uint8_t *dst, ptrdiff_t dst_stride,
3685 common_hv_2ht_2vt_and_aver_dst_4x4_msa(src, src_stride, dst, dst_stride,
3688 common_hv_2ht_2vt_and_aver_dst_4x8_msa(src, src_stride, dst, dst_stride,
3696 int32_t dst_stride,
3718 LD4(dst, dst_stride, tp0, tp1, tp2, tp3);
3740 PCKEV_AVG_ST8x4_UB(tmp0, tmp1, tmp2, tmp3, dst0, dst1, dst, dst_stride);
3746 int32_t dst_stride,
3797 LD4(dst, dst_stride, tp0, tp1, tp2, tp3);
3800 PCKEV_AVG_ST8x4_UB(tmp0, tmp1, tmp2, tmp3, dst0, dst1, dst, dst_stride);
3801 dst += (4 * dst_stride);
3805 void ff_avg_bilin_8hv_msa(uint8_t *dst, ptrdiff_t dst_stride,
3813 common_hv_2ht_2vt_and_aver_dst_8x4_msa(src, src_stride, dst, dst_stride,
3817 dst, dst_stride,
3823 void ff_avg_bilin_16hv_msa(uint8_t *dst, ptrdiff_t dst_stride,
3854 LD_UB4(dst, dst_stride, dst0, dst1, dst2, dst3);
3863 dst += dst_stride;
3872 dst += dst_stride;
3881 dst += dst_stride;
3890 dst += dst_stride;
3894 void ff_avg_bilin_32hv_msa(uint8_t *dst, ptrdiff_t dst_stride,
3901 ff_avg_bilin_16hv_msa(dst, dst_stride, src, src_stride, height, mx, my);
3908 void ff_avg_bilin_64hv_msa(uint8_t *dst, ptrdiff_t dst_stride,
3915 ff_avg_bilin_16hv_msa(dst, dst_stride, src, src_stride, height, mx, my);
3923 uint8_t *dst, int32_t dst_stride,
3936 SD4(out0, out1, out2, out3, dst, dst_stride);
3937 dst += (4 * dst_stride);
3938 SD4(out4, out5, out6, out7, dst, dst_stride);
3939 dst += (4 * dst_stride);
3946 SD4(out0, out1, out2, out3, dst, dst_stride);
3947 dst += (4 * dst_stride);
3953 uint8_t *dst, int32_t dst_stride,
3961 ST_UB8(src0, src1, src2, src3, src4, src5, src6, src7, dst, dst_stride);
3965 ST_UB8(src0, src1, src2, src3, src4, src5, src6, src7, dst, dst_stride);
3966 dst += (8 * dst_stride);
3969 ST_UB8(src0, src1, src2, src3, src4, src5, src6, src7, dst, dst_stride);
3970 dst += (8 * dst_stride);
3974 ST_UB8(src0, src1, src2, src3, src4, src5, src6, src7, dst, dst_stride);
3975 dst += (8 * dst_stride);
3978 ST_UB8(src0, src1, src2, src3, src4, src5, src6, src7, dst, dst_stride);
3979 dst += (8 * dst_stride);
3982 ST_UB8(src0, src1, src2, src3, src4, src5, src6, src7, dst, dst_stride);
3983 dst += (8 * dst_stride);
3985 ST_UB8(src0, src1, src2, src3, src4, src5, src6, src7, dst, dst_stride);
3990 ST_UB4(src0, src1, src2, src3, dst, dst_stride);
3991 dst += (4 * dst_stride);
3997 uint8_t *dst, int32_t dst_stride,
4006 ST_UB8(src0, src1, src2, src3, src4, src5, src6, src7, dst, dst_stride);
4011 dst_stride);
4012 dst += (8 * dst_stride);
4019 ST_UB4(src0, src1, src2, src3, dst, dst_stride);
4020 ST_UB4(src4, src5, src6, src7, dst + 16, dst_stride);
4021 dst += (4 * dst_stride);
4027 uint8_t *dst, int32_t dst_stride,
4045 dst += dst_stride;
4047 dst += dst_stride;
4049 dst += dst_stride;
4051 dst += dst_stride;
4056 uint8_t *dst, int32_t dst_stride,
4068 LW4(dst, dst_stride, tp0, tp1, tp2, tp3);
4070 LW4(dst + 4 * dst_stride, dst_stride, tp0, tp1, tp2, tp3);
4073 ST_W8(dst0, dst1, 0, 1, 2, 3, 0, 1, 2, 3, dst, dst_stride);
4077 LW4(dst, dst_stride, tp0, tp1, tp2, tp3);
4080 ST_W4(dst0, 0, 1, 2, 3, dst, dst_stride);
4085 uint8_t *dst, int32_t dst_stride,
4103 LD4(dst, dst_stride, tp0, tp1, tp2, tp3);
4104 LD4(dst + 4 * dst_stride, dst_stride, tp4, tp5, tp6, tp7);
4111 ST_D8(dst0, dst1, dst2, dst3, 0, 1, 0, 1, 0, 1, 0, 1, dst, dst_stride);
4112 dst += 8 * dst_stride;
4118 LD4(dst, dst_stride, tp0, tp1, tp2, tp3);
4122 ST_D4(dst0, dst1, 0, 1, 0, 1, dst, dst_stride);
4127 uint8_t *dst, int32_t dst_stride,
4138 LD_UB8(dst, dst_stride, dst0, dst1, dst2, dst3, dst4, dst5, dst6, dst7);
4144 ST_UB8(dst0, dst1, dst2, dst3, dst4, dst5, dst6, dst7, dst, dst_stride);
4145 dst += (8 * dst_stride);
4151 LD_UB4(dst, dst_stride, dst0, dst1, dst2, dst3);
4155 ST_UB4(dst0, dst1, dst2, dst3, dst, dst_stride);
4156 dst += (4 * dst_stride);
4162 uint8_t *dst, int32_t dst_stride,
4177 LD_UB4(dst_dup, dst_stride, dst0, dst2, dst4, dst6);
4178 LD_UB4(dst_dup + 16, dst_stride, dst1, dst3, dst5, dst7);
4179 dst_dup += (4 * dst_stride);
4183 LD_UB4(dst_dup, dst_stride, dst8, dst10, dst12, dst14);
4184 LD_UB4(dst_dup + 16, dst_stride, dst9, dst11, dst13, dst15);
4185 dst_dup += (4 * dst_stride);
4196 ST_UB4(dst0, dst2, dst4, dst6, dst, dst_stride);
4197 ST_UB4(dst1, dst3, dst5, dst7, dst + 16, dst_stride);
4198 dst += (4 * dst_stride);
4199 ST_UB4(dst8, dst10, dst12, dst14, dst, dst_stride);
4200 ST_UB4(dst9, dst11, dst13, dst15, dst + 16, dst_stride);
4201 dst += (4 * dst_stride);
4208 LD_UB4(dst_dup, dst_stride, dst0, dst2, dst4, dst6);
4209 LD_UB4(dst_dup + 16, dst_stride, dst1, dst3, dst5, dst7);
4210 dst_dup += (4 * dst_stride);
4217 ST_UB4(dst0, dst2, dst4, dst6, dst, dst_stride);
4218 ST_UB4(dst1, dst3, dst5, dst7, dst + 16, dst_stride);
4219 dst += (4 * dst_stride);
4225 uint8_t *dst, int32_t dst_stride,
4246 dst_dup += dst_stride;
4248 dst_dup += dst_stride;
4250 dst_dup += dst_stride;
4252 dst_dup += dst_stride;
4264 dst += dst_stride;
4266 dst += dst_stride;
4268 dst += dst_stride;
4270 dst += dst_stride;