libavcodec/arm/vp9lpf_neon.S

cabdff1aSopenharmony_ci/*
cabdff1aSopenharmony_ci * Copyright (c) 2016 Google Inc.
cabdff1aSopenharmony_ci *
cabdff1aSopenharmony_ci * This file is part of FFmpeg.
cabdff1aSopenharmony_ci *
cabdff1aSopenharmony_ci * FFmpeg is free software; you can redistribute it and/or
cabdff1aSopenharmony_ci * modify it under the terms of the GNU Lesser General Public
cabdff1aSopenharmony_ci * License as published by the Free Software Foundation; either
cabdff1aSopenharmony_ci * version 2.1 of the License, or (at your option) any later version.
cabdff1aSopenharmony_ci *
cabdff1aSopenharmony_ci * FFmpeg is distributed in the hope that it will be useful,
cabdff1aSopenharmony_ci * but WITHOUT ANY WARRANTY; without even the implied warranty of
cabdff1aSopenharmony_ci * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
cabdff1aSopenharmony_ci * Lesser General Public License for more details.
cabdff1aSopenharmony_ci *
cabdff1aSopenharmony_ci * You should have received a copy of the GNU Lesser General Public
cabdff1aSopenharmony_ci * License along with FFmpeg; if not, write to the Free Software
cabdff1aSopenharmony_ci * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
cabdff1aSopenharmony_ci */
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci#include "libavutil/arm/asm.S"
cabdff1aSopenharmony_ci#include "neon.S"
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci@ Do an 8x8 transpose, using q registers for the subtransposes that don't
cabdff1aSopenharmony_ci@ need to address the indiviudal d registers.
cabdff1aSopenharmony_ci@ r0,r1 == rq0, r2,r3 == rq1, etc
cabdff1aSopenharmony_ci.macro transpose_q_8x8 rq0, rq1, rq2, rq3, r0, r1, r2, r3, r4, r5, r6, r7
cabdff1aSopenharmony_ci        vtrn.32         \rq0, \rq2
cabdff1aSopenharmony_ci        vtrn.32         \rq1, \rq3
cabdff1aSopenharmony_ci        vtrn.16         \rq0, \rq1
cabdff1aSopenharmony_ci        vtrn.16         \rq2, \rq3
cabdff1aSopenharmony_ci        vtrn.8          \r0,  \r1
cabdff1aSopenharmony_ci        vtrn.8          \r2,  \r3
cabdff1aSopenharmony_ci        vtrn.8          \r4,  \r5
cabdff1aSopenharmony_ci        vtrn.8          \r6,  \r7
cabdff1aSopenharmony_ci.endm
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci@ Do a 4x4 transpose, using q registers for the subtransposes that don't
cabdff1aSopenharmony_ci@ need to address the indiviudal d registers.
cabdff1aSopenharmony_ci@ r0,r1 == rq0, r2,r3 == rq1
cabdff1aSopenharmony_ci.macro transpose_q_4x4 rq0, rq1, r0, r1, r2, r3
cabdff1aSopenharmony_ci        vtrn.16         \rq0, \rq1
cabdff1aSopenharmony_ci        vtrn.8          \r0,  \r1
cabdff1aSopenharmony_ci        vtrn.8          \r2,  \r3
cabdff1aSopenharmony_ci.endm
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci@ The input to and output from this macro is in the registers q8-q15,
cabdff1aSopenharmony_ci@ and q0-q7 are used as scratch registers.
cabdff1aSopenharmony_ci@ p3 = q8, p0 = q11, q0 = q12, q3 = q15
cabdff1aSopenharmony_ci.macro loop_filter_q
cabdff1aSopenharmony_ci        vdup.u8         d0,  r2          @ E
cabdff1aSopenharmony_ci        lsr             r2,  r2,  #8
cabdff1aSopenharmony_ci        vdup.u8         d2,  r3          @ I
cabdff1aSopenharmony_ci        lsr             r3,  r3,  #8
cabdff1aSopenharmony_ci        vdup.u8         d1,  r2          @ E
cabdff1aSopenharmony_ci        vdup.u8         d3,  r3          @ I
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vabd.u8         q2,  q8,  q9     @ abs(p3 - p2)
cabdff1aSopenharmony_ci        vabd.u8         q3,  q9,  q10    @ abs(p2 - p1)
cabdff1aSopenharmony_ci        vabd.u8         q4,  q10, q11    @ abs(p1 - p0)
cabdff1aSopenharmony_ci        vabd.u8         q5,  q12, q13    @ abs(q0 - q1)
cabdff1aSopenharmony_ci        vabd.u8         q6,  q13, q14    @ abs(q1 - q2)
cabdff1aSopenharmony_ci        vabd.u8         q7,  q14, q15    @ abs(q2 - q3)
cabdff1aSopenharmony_ci        vmax.u8         q2,  q2,  q3
cabdff1aSopenharmony_ci        vmax.u8         q3,  q4,  q5
cabdff1aSopenharmony_ci        vmax.u8         q4,  q6,  q7
cabdff1aSopenharmony_ci        vabd.u8         q5,  q11, q12    @ abs(p0 - q0)
cabdff1aSopenharmony_ci        vmax.u8         q2,  q2,  q3
cabdff1aSopenharmony_ci        vqadd.u8        q5,  q5,  q5     @ abs(p0 - q0) * 2
cabdff1aSopenharmony_ci        vabd.u8         q7,  q10, q13    @ abs(p1 - q1)
cabdff1aSopenharmony_ci        vmax.u8         q2,  q2,  q4     @ max(abs(p3 - p2), ..., abs(q2 - q3))
cabdff1aSopenharmony_ci        vshr.u8         q7,  q7,  #1
cabdff1aSopenharmony_ci        vcle.u8         q2,  q2,  q1     @ max(abs()) <= I
cabdff1aSopenharmony_ci        vqadd.u8        q5,  q5,  q7     @ abs(p0 - q0) * 2 + abs(p1 - q1) >> 1
cabdff1aSopenharmony_ci        vcle.u8         q5,  q5,  q0
cabdff1aSopenharmony_ci        vand            q2,  q2,  q5     @ fm
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vshrn.u16       d10, q2,  #4
cabdff1aSopenharmony_ci        vmov            r2,  r3,  d10
cabdff1aSopenharmony_ci        orrs            r2,  r2,  r3
cabdff1aSopenharmony_ci        @ If no pixels need filtering, just exit as soon as possible
cabdff1aSopenharmony_ci        beq             9f
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        @ Calculate the normal inner loop filter for 2 or 4 pixels
cabdff1aSopenharmony_ci        ldr             r3,  [sp, #64]
cabdff1aSopenharmony_ci        vabd.u8         q3,  q10, q11    @ abs(p1 - p0)
cabdff1aSopenharmony_ci        vabd.u8         q4,  q13, q12    @ abs(q1 - q0)
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vsubl.u8        q5,  d20, d26    @ p1 - q1
cabdff1aSopenharmony_ci        vsubl.u8        q6,  d21, d27    @ p1 - q1
cabdff1aSopenharmony_ci        vmax.u8         q3,  q3,  q4     @ max(abs(p1 - p0), abs(q1 - q0))
cabdff1aSopenharmony_ci        vqmovn.s16      d10, q5          @ av_clip_int8p(p1 - q1)
cabdff1aSopenharmony_ci        vqmovn.s16      d11, q6          @ av_clip_int8p(p1 - q1)
cabdff1aSopenharmony_ci        vdup.u8         d8,  r3          @ H
cabdff1aSopenharmony_ci        lsr             r3,  r3,  #8
cabdff1aSopenharmony_ci        vdup.u8         d9,  r3          @ H
cabdff1aSopenharmony_ci        vsubl.u8        q6,  d24, d22    @ q0 - p0
cabdff1aSopenharmony_ci        vsubl.u8        q7,  d25, d23    @ q0 - p0
cabdff1aSopenharmony_ci        vcle.u8         q3,  q3,  q4     @ hev
cabdff1aSopenharmony_ci        vmov.s16        q0,  #3
cabdff1aSopenharmony_ci        vand            q3,  q3,  q2     @ !hev && fm && !flat8in
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vmul.s16        q6,  q6,  q0     @ 3 * (q0 - p0)
cabdff1aSopenharmony_ci        vmul.s16        q7,  q7,  q0     @ 3 * (q0 - p0)
cabdff1aSopenharmony_ci        vbic            q5,  q5,  q3     @ if (!hev) av_clip_int8 = 0
cabdff1aSopenharmony_ci        vaddw.s8        q6,  q6,  d10    @ 3 * (q0 - p0) [+ av_clip_int8(p1 - q1)]
cabdff1aSopenharmony_ci        vaddw.s8        q7,  q7,  d11    @ 3 * (q0 - p0) [+ av_clip_int8(p1 - q1)]
cabdff1aSopenharmony_ci        vmov.s8         q5,  #4
cabdff1aSopenharmony_ci        vqmovn.s16      d12, q6
cabdff1aSopenharmony_ci        vqmovn.s16      d13, q7          @ av_clip_int8(3 * (q0 - p0) [+ av_clip_int8(p1 - q1)], BIT_DEPTH - 1) = f
cabdff1aSopenharmony_ci        vmov.s8         q0,  #3
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vqadd.s8        q5,  q6,  q5     @ FFMIN(f + 4, 127)
cabdff1aSopenharmony_ci        vqadd.s8        q0,  q6,  q0     @ FFMIN(f + 3, 127)
cabdff1aSopenharmony_ci        vmovl.u8        q6,  d22         @ p0
cabdff1aSopenharmony_ci        vmovl.u8        q7,  d23         @ p0
cabdff1aSopenharmony_ci        vshr.s8         q5,  q5,  #3     @ f1
cabdff1aSopenharmony_ci        vshr.s8         q0,  q0,  #3     @ f2
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vaddw.s8        q6,  q6,  d0     @ p0 + f2
cabdff1aSopenharmony_ci        vaddw.s8        q7,  q7,  d1     @ p0 + f2
cabdff1aSopenharmony_ci        vqmovun.s16     d0,  q6          @ out p0
cabdff1aSopenharmony_ci        vmovl.u8        q6,  d24         @ q0
cabdff1aSopenharmony_ci        vqmovun.s16     d1,  q7          @ out p0
cabdff1aSopenharmony_ci        vmovl.u8        q7,  d25         @ q0
cabdff1aSopenharmony_ci        vsubw.s8        q6,  q6,  d10    @ q0 - f1
cabdff1aSopenharmony_ci        vsubw.s8        q7,  q7,  d11    @ q0 - f1
cabdff1aSopenharmony_ci        vqmovun.s16     d12, q6          @ out q0
cabdff1aSopenharmony_ci        vqmovun.s16     d13, q7          @ out q0
cabdff1aSopenharmony_ci        vrshr.s8        q5,  q5,  #1     @ f = (f1 + 1) >> 1
cabdff1aSopenharmony_ci        vbit            q11, q0,  q2     @ if (fm && !flat8in)
cabdff1aSopenharmony_ci        vbit            q12, q6,  q2
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vmovl.u8        q0,  d20         @ p1
cabdff1aSopenharmony_ci        vmovl.u8        q2,  d21         @ p1
cabdff1aSopenharmony_ci        vmovl.u8        q6,  d26         @ q1
cabdff1aSopenharmony_ci        vmovl.u8        q7,  d27         @ q1
cabdff1aSopenharmony_ci        vaddw.s8        q0,  q0,  d10    @ p1 + f
cabdff1aSopenharmony_ci        vaddw.s8        q2,  q2,  d11    @ p1 + f
cabdff1aSopenharmony_ci        vsubw.s8        q6,  q6,  d10    @ q1 - f
cabdff1aSopenharmony_ci        vsubw.s8        q7,  q7,  d11    @ q1 - f
cabdff1aSopenharmony_ci        vqmovun.s16     d0,  q0          @ out p1
cabdff1aSopenharmony_ci        vqmovun.s16     d1,  q2          @ out p1
cabdff1aSopenharmony_ci        vqmovun.s16     d12, q6          @ out q1
cabdff1aSopenharmony_ci        vqmovun.s16     d13, q7          @ out q1
cabdff1aSopenharmony_ci        vbit            q10, q0,  q3     @ if (!hev && fm && !flat8in)
cabdff1aSopenharmony_ci        vbit            q13, q6,  q3
cabdff1aSopenharmony_ci.endm
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci@ The input to and output from this macro is in the registers d16-d31,
cabdff1aSopenharmony_ci@ and d0-d7 are used as scratch registers.
cabdff1aSopenharmony_ci@ p7 = d16 .. p3 = d20, p0 = d23, q0 = d24, q3 = d27, q7 = d31
cabdff1aSopenharmony_ci@ Depending on the width of the loop filter, we either use d16-d19
cabdff1aSopenharmony_ci@ and d28-d31 as temp registers, or d8-d15.
cabdff1aSopenharmony_ci@ tmp1,tmp2 = tmpq1, tmp3,tmp4 = tmpq2, tmp5,tmp6 = tmpq3, tmp7,tmp8 = tmpq4
cabdff1aSopenharmony_ci.macro loop_filter wd, tmp1, tmp2, tmp3, tmp4, tmp5, tmp6, tmp7, tmp8, tmpq1, tmpq2, tmpq3, tmpq4
cabdff1aSopenharmony_ci        vdup.u8         d0,  r2 @ E
cabdff1aSopenharmony_ci        vdup.u8         d2,  r3 @ I
cabdff1aSopenharmony_ci        ldr             r3,  [sp]
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vabd.u8         d4,  d20, d21    @ abs(p3 - p2)
cabdff1aSopenharmony_ci        vabd.u8         d5,  d21, d22    @ abs(p2 - p1)
cabdff1aSopenharmony_ci        vabd.u8         d6,  d22, d23    @ abs(p1 - p0)
cabdff1aSopenharmony_ci        vabd.u8         d7,  d24, d25    @ abs(q0 - q1)
cabdff1aSopenharmony_ci        vabd.u8         \tmp1,  d25, d26 @ abs(q1 - q2)
cabdff1aSopenharmony_ci        vabd.u8         \tmp2,  d26, d27 @ abs(q2 - q3)
cabdff1aSopenharmony_ci        vmax.u8         d4,  d4,  d5
cabdff1aSopenharmony_ci        vmax.u8         d5,  d6,  d7
cabdff1aSopenharmony_ci        vmax.u8         \tmp1,  \tmp1,  \tmp2
cabdff1aSopenharmony_ci        vabd.u8         d6,  d23, d24    @ abs(p0 - q0)
cabdff1aSopenharmony_ci        vmax.u8         d4,  d4,  d5
cabdff1aSopenharmony_ci        vqadd.u8        d6,  d6,  d6     @ abs(p0 - q0) * 2
cabdff1aSopenharmony_ci        vabd.u8         d5,  d22, d25    @ abs(p1 - q1)
cabdff1aSopenharmony_ci        vmax.u8         d4,  d4,  \tmp1  @ max(abs(p3 - p2), ..., abs(q2 - q3))
cabdff1aSopenharmony_ci        vshr.u8         d5,  d5,  #1
cabdff1aSopenharmony_ci        vcle.u8         d4,  d4,  d2     @ max(abs()) <= I
cabdff1aSopenharmony_ci        vqadd.u8        d6,  d6,  d5     @ abs(p0 - q0) * 2 + abs(p1 - q1) >> 1
cabdff1aSopenharmony_ci        vcle.u8         d5,  d6,  d0
cabdff1aSopenharmony_ci        vand            d4,  d4,  d5     @ fm
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vdup.u8         d3,  r3          @ H
cabdff1aSopenharmony_ci        vmov            r2,  r3,  d4
cabdff1aSopenharmony_ci        orrs            r2,  r2,  r3
cabdff1aSopenharmony_ci        @ If no pixels need filtering, just exit as soon as possible
cabdff1aSopenharmony_ci        beq             9f
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci.if \wd >= 8
cabdff1aSopenharmony_ci        vmov.u8         d0,  #1
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vabd.u8         d6,  d20, d23    @ abs(p3 - p0)
cabdff1aSopenharmony_ci        vabd.u8         d2,  d21, d23    @ abs(p2 - p0)
cabdff1aSopenharmony_ci        vabd.u8         d1,  d22, d23    @ abs(p1 - p0)
cabdff1aSopenharmony_ci        vabd.u8         \tmp1,  d25, d24 @ abs(q1 - q0)
cabdff1aSopenharmony_ci        vabd.u8         \tmp2,  d26, d24 @ abs(q2 - q0)
cabdff1aSopenharmony_ci        vabd.u8         \tmp3,  d27, d24 @ abs(q3 - q0)
cabdff1aSopenharmony_ci        vmax.u8         d6,  d6,  d2
cabdff1aSopenharmony_ci        vmax.u8         d1,  d1,  \tmp1
cabdff1aSopenharmony_ci        vmax.u8         \tmp2,  \tmp2,  \tmp3
cabdff1aSopenharmony_ci.if \wd == 16
cabdff1aSopenharmony_ci        vabd.u8         d7,  d16, d23    @ abs(p7 - p0)
cabdff1aSopenharmony_ci        vmax.u8         d6,  d6,  d1
cabdff1aSopenharmony_ci        vabd.u8         d2,  d17, d23    @ abs(p6 - p0)
cabdff1aSopenharmony_ci        vmax.u8         d6,  d6,  \tmp2
cabdff1aSopenharmony_ci        vabd.u8         d1,  d18, d23    @ abs(p5 - p0)
cabdff1aSopenharmony_ci        vcle.u8         d6,  d6,  d0     @ flat8in
cabdff1aSopenharmony_ci        vabd.u8         d8,  d19, d23    @ abs(p4 - p0)
cabdff1aSopenharmony_ci        vand            d6,  d6,  d4     @ flat8in && fm
cabdff1aSopenharmony_ci        vabd.u8         d9,  d28, d24    @ abs(q4 - q0)
cabdff1aSopenharmony_ci        vbic            d4,  d4,  d6     @ fm && !flat8in
cabdff1aSopenharmony_ci        vabd.u8         d10, d29, d24    @ abs(q5 - q0)
cabdff1aSopenharmony_ci        vabd.u8         d11, d30, d24    @ abs(q6 - q0)
cabdff1aSopenharmony_ci        vabd.u8         d12, d31, d24    @ abs(q7 - q0)
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vmax.u8         d7,  d7,  d2
cabdff1aSopenharmony_ci        vmax.u8         d1,  d1,  d8
cabdff1aSopenharmony_ci        vmax.u8         d9,  d9,  d10
cabdff1aSopenharmony_ci        vmax.u8         d11, d11, d12
cabdff1aSopenharmony_ci        @ The rest of the calculation of flat8out is interleaved below
cabdff1aSopenharmony_ci.else
cabdff1aSopenharmony_ci        @ The rest of the calculation of flat8in is interleaved below
cabdff1aSopenharmony_ci.endif
cabdff1aSopenharmony_ci.endif
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        @ Calculate the normal inner loop filter for 2 or 4 pixels
cabdff1aSopenharmony_ci        vabd.u8         d5,  d22, d23           @ abs(p1 - p0)
cabdff1aSopenharmony_ci.if \wd == 16
cabdff1aSopenharmony_ci        vmax.u8         d7,  d7,  d1
cabdff1aSopenharmony_ci        vmax.u8         d9,  d9,  d11
cabdff1aSopenharmony_ci.elseif \wd == 8
cabdff1aSopenharmony_ci        vmax.u8         d6,  d6,  d1
cabdff1aSopenharmony_ci.endif
cabdff1aSopenharmony_ci        vabd.u8         d1,  d25, d24           @ abs(q1 - q0)
cabdff1aSopenharmony_ci.if \wd == 16
cabdff1aSopenharmony_ci        vmax.u8         d7,  d7,  d9
cabdff1aSopenharmony_ci.elseif \wd == 8
cabdff1aSopenharmony_ci        vmax.u8         d6,  d6,  \tmp2
cabdff1aSopenharmony_ci.endif
cabdff1aSopenharmony_ci        vsubl.u8        \tmpq1,  d22, d25       @ p1 - q1
cabdff1aSopenharmony_ci        vmax.u8         d5,  d5,  d1            @ max(abs(p1 - p0), abs(q1 - q0))
cabdff1aSopenharmony_ci        vsubl.u8        \tmpq2,  d24, d23       @ q0 - p0
cabdff1aSopenharmony_ci        vmov.s16        \tmpq3,  #3
cabdff1aSopenharmony_ci.if \wd == 8
cabdff1aSopenharmony_ci        vcle.u8         d6,  d6,  d0            @ flat8in
cabdff1aSopenharmony_ci.endif
cabdff1aSopenharmony_ci        vcle.u8         d5,  d5,  d3            @ !hev
cabdff1aSopenharmony_ci.if \wd == 8
cabdff1aSopenharmony_ci        vand            d6,  d6,  d4            @ flat8in && fm
cabdff1aSopenharmony_ci.endif
cabdff1aSopenharmony_ci        vqmovn.s16      \tmp1,   \tmpq1         @ av_clip_int8(p1 - q1)
cabdff1aSopenharmony_ci.if \wd == 16
cabdff1aSopenharmony_ci        vcle.u8         d7,  d7,  d0            @ flat8out
cabdff1aSopenharmony_ci.elseif \wd == 8
cabdff1aSopenharmony_ci        vbic            d4,  d4,  d6            @ fm && !flat8in
cabdff1aSopenharmony_ci.endif
cabdff1aSopenharmony_ci        vand            d5,  d5,  d4            @ !hev && fm && !flat8in
cabdff1aSopenharmony_ci.if \wd == 16
cabdff1aSopenharmony_ci        vand            d7,  d7,  d6            @ flat8out && flat8in && fm
cabdff1aSopenharmony_ci.endif
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vmul.s16        \tmpq2,  \tmpq2, \tmpq3 @ 3 * (q0 - p0)
cabdff1aSopenharmony_ci        vbic            \tmp1,   \tmp1,   d5    @ if (!hev) av_clip_int8 = 0
cabdff1aSopenharmony_ci        vmov.s8         d2,  #4
cabdff1aSopenharmony_ci        vaddw.s8        \tmpq2,  \tmpq2,  \tmp1 @ 3 * (q0 - p0) [+ av_clip_int8(p1 - q1)]
cabdff1aSopenharmony_ci        vmov.s8         d3,  #3
cabdff1aSopenharmony_ci        vqmovn.s16      \tmp1,   \tmpq2         @ f
cabdff1aSopenharmony_ci.if \wd == 16
cabdff1aSopenharmony_ci        vbic            d6,  d6,  d7            @ fm && flat8in && !flat8out
cabdff1aSopenharmony_ci.endif
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vqadd.s8        \tmp3, \tmp1,  d2       @ FFMIN(f + 4, 127)
cabdff1aSopenharmony_ci        vqadd.s8        \tmp4, \tmp1,  d3       @ FFMIN(f + 3, 127)
cabdff1aSopenharmony_ci        vmovl.u8        q0,  d23                @ p0
cabdff1aSopenharmony_ci        vshr.s8         \tmp3, \tmp3,  #3       @ f1
cabdff1aSopenharmony_ci        vshr.s8         \tmp4, \tmp4,  #3       @ f2
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vmovl.u8        q1,  d24                @ q0
cabdff1aSopenharmony_ci        vaddw.s8        q0,  q0,  \tmp4         @ p0 + f2
cabdff1aSopenharmony_ci        vsubw.s8        q1,  q1,  \tmp3         @ q0 - f1
cabdff1aSopenharmony_ci        vqmovun.s16     d0,  q0                 @ out p0
cabdff1aSopenharmony_ci        vqmovun.s16     d1,  q1                 @ out q0
cabdff1aSopenharmony_ci        vrshr.s8        \tmp3, \tmp3, #1        @ f = (f1 + 1) >> 1
cabdff1aSopenharmony_ci        vbit            d23, d0,  d4            @ if (fm && !flat8in)
cabdff1aSopenharmony_ci        vbit            d24, d1,  d4
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vmovl.u8        q0,  d22                @ p1
cabdff1aSopenharmony_ci        vmovl.u8        q1,  d25                @ q1
cabdff1aSopenharmony_ci.if \wd >= 8
cabdff1aSopenharmony_ci        vmov            r2,  r3,  d6
cabdff1aSopenharmony_ci.endif
cabdff1aSopenharmony_ci        vaddw.s8        q0,  q0,  \tmp3         @ p1 + f
cabdff1aSopenharmony_ci        vsubw.s8        q1,  q1,  \tmp3         @ q1 - f
cabdff1aSopenharmony_ci.if \wd >= 8
cabdff1aSopenharmony_ci        orrs            r2,  r2,  r3
cabdff1aSopenharmony_ci.endif
cabdff1aSopenharmony_ci        vqmovun.s16     d0,  q0                 @ out p1
cabdff1aSopenharmony_ci        vqmovun.s16     d2,  q1                 @ out q1
cabdff1aSopenharmony_ci        vbit            d22, d0,  d5            @ if (!hev && fm && !flat8in)
cabdff1aSopenharmony_ci        vbit            d25, d2,  d5
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci.if \wd >= 8
cabdff1aSopenharmony_ci        @ If no pixels need flat8in, jump to flat8out
cabdff1aSopenharmony_ci        @ (or to a writeout of the inner 4 pixels, for wd=8)
cabdff1aSopenharmony_ci        beq             6f
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        @ flat8in
cabdff1aSopenharmony_ci        vaddl.u8        \tmpq1, d20, d21
cabdff1aSopenharmony_ci        vaddl.u8        \tmpq2, d22, d25
cabdff1aSopenharmony_ci        vaddl.u8        \tmpq3, d20, d22
cabdff1aSopenharmony_ci        vaddl.u8        \tmpq4, d23, d26
cabdff1aSopenharmony_ci        vadd.u16        q0,  \tmpq1, \tmpq1
cabdff1aSopenharmony_ci        vaddw.u8        q0,  q0,  d23
cabdff1aSopenharmony_ci        vaddw.u8        q0,  q0,  d24
cabdff1aSopenharmony_ci        vadd.u16        q0,  q0,  \tmpq3
cabdff1aSopenharmony_ci        vsub.s16        \tmpq2, \tmpq2, \tmpq1
cabdff1aSopenharmony_ci        vsub.s16        \tmpq4, \tmpq4, \tmpq3
cabdff1aSopenharmony_ci        vrshrn.u16      d2,  q0,  #3            @ out p2
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vadd.u16        q0,  q0,  \tmpq2
cabdff1aSopenharmony_ci        vaddl.u8        \tmpq1, d20, d23
cabdff1aSopenharmony_ci        vaddl.u8        \tmpq2, d24, d27
cabdff1aSopenharmony_ci        vrshrn.u16      d3,  q0,  #3            @ out p1
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vadd.u16        q0,  q0,  \tmpq4
cabdff1aSopenharmony_ci        vsub.s16        \tmpq2, \tmpq2, \tmpq1
cabdff1aSopenharmony_ci        vaddl.u8        \tmpq3, d21, d24
cabdff1aSopenharmony_ci        vaddl.u8        \tmpq4, d25, d27
cabdff1aSopenharmony_ci        vrshrn.u16      d4,  q0,  #3            @ out p0
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vadd.u16        q0,  q0,  \tmpq2
cabdff1aSopenharmony_ci        vsub.s16        \tmpq4, \tmpq4, \tmpq3
cabdff1aSopenharmony_ci        vaddl.u8        \tmpq1, d22, d25
cabdff1aSopenharmony_ci        vaddl.u8        \tmpq2, d26, d27
cabdff1aSopenharmony_ci        vrshrn.u16      d5,  q0,  #3            @ out q0
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vadd.u16        q0,  q0,  \tmpq4
cabdff1aSopenharmony_ci        vsub.s16        \tmpq2, \tmpq2, \tmpq1
cabdff1aSopenharmony_ci        vrshrn.u16      \tmp5,  q0,  #3         @ out q1
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vadd.u16        q0,  q0,  \tmpq2
cabdff1aSopenharmony_ci        @ The output here is written back into the input registers. This doesn't
cabdff1aSopenharmony_ci        @ matter for the flat8out part below, since we only update those pixels
cabdff1aSopenharmony_ci        @ which won't be touched below.
cabdff1aSopenharmony_ci        vbit            d21, d2,  d6
cabdff1aSopenharmony_ci        vbit            d22, d3,  d6
cabdff1aSopenharmony_ci        vbit            d23, d4,  d6
cabdff1aSopenharmony_ci        vrshrn.u16      \tmp6,  q0,  #3         @ out q2
cabdff1aSopenharmony_ci        vbit            d24, d5,  d6
cabdff1aSopenharmony_ci        vbit            d25, \tmp5,  d6
cabdff1aSopenharmony_ci        vbit            d26, \tmp6,  d6
cabdff1aSopenharmony_ci.endif
cabdff1aSopenharmony_ci.if \wd == 16
cabdff1aSopenharmony_ci6:
cabdff1aSopenharmony_ci        vorr            d2,  d6,  d7
cabdff1aSopenharmony_ci        vmov            r2,  r3,  d2
cabdff1aSopenharmony_ci        orrs            r2,  r2,  r3
cabdff1aSopenharmony_ci        @ If no pixels needed flat8in nor flat8out, jump to a
cabdff1aSopenharmony_ci        @ writeout of the inner 4 pixels
cabdff1aSopenharmony_ci        beq             7f
cabdff1aSopenharmony_ci        vmov            r2,  r3,  d7
cabdff1aSopenharmony_ci        orrs            r2,  r2,  r3
cabdff1aSopenharmony_ci        @ If no pixels need flat8out, jump to a writeout of the inner 6 pixels
cabdff1aSopenharmony_ci        beq             8f
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        @ flat8out
cabdff1aSopenharmony_ci        @ This writes all outputs into d2-d17 (skipping d6 and d16).
cabdff1aSopenharmony_ci        @ If this part is skipped, the output is read from d21-d26 (which is the input
cabdff1aSopenharmony_ci        @ to this section).
cabdff1aSopenharmony_ci        vshll.u8        q0,  d16, #3  @ 8 * d16
cabdff1aSopenharmony_ci        vsubw.u8        q0,  q0,  d16 @ 7 * d16
cabdff1aSopenharmony_ci        vaddw.u8        q0,  q0,  d17
cabdff1aSopenharmony_ci        vaddl.u8        q4,  d17, d18
cabdff1aSopenharmony_ci        vaddl.u8        q5,  d19, d20
cabdff1aSopenharmony_ci        vadd.s16        q0,  q0,  q4
cabdff1aSopenharmony_ci        vaddl.u8        q4,  d16, d17
cabdff1aSopenharmony_ci        vaddl.u8        q6,  d21, d22
cabdff1aSopenharmony_ci        vadd.s16        q0,  q0,  q5
cabdff1aSopenharmony_ci        vaddl.u8        q5,  d18, d25
cabdff1aSopenharmony_ci        vaddl.u8        q7,  d23, d24
cabdff1aSopenharmony_ci        vsub.s16        q5,  q5,  q4
cabdff1aSopenharmony_ci        vadd.s16        q0,  q0,  q6
cabdff1aSopenharmony_ci        vadd.s16        q0,  q0,  q7
cabdff1aSopenharmony_ci        vaddl.u8        q6,  d16, d18
cabdff1aSopenharmony_ci        vaddl.u8        q7,  d19, d26
cabdff1aSopenharmony_ci        vrshrn.u16      d2,  q0,  #4
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vadd.s16        q0,  q0,  q5
cabdff1aSopenharmony_ci        vaddl.u8        q4,  d16, d19
cabdff1aSopenharmony_ci        vaddl.u8        q5,  d20, d27
cabdff1aSopenharmony_ci        vsub.s16        q7,  q7,  q6
cabdff1aSopenharmony_ci        vbif            d2,  d17, d7
cabdff1aSopenharmony_ci        vrshrn.u16      d3,  q0,  #4
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vadd.s16        q0,  q0,  q7
cabdff1aSopenharmony_ci        vaddl.u8        q6,  d16, d20
cabdff1aSopenharmony_ci        vaddl.u8        q7,  d21, d28
cabdff1aSopenharmony_ci        vsub.s16        q5,  q5,  q4
cabdff1aSopenharmony_ci        vbif            d3,  d18, d7
cabdff1aSopenharmony_ci        vrshrn.u16      d4,  q0,  #4
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vadd.s16        q0,  q0,  q5
cabdff1aSopenharmony_ci        vaddl.u8        q4,  d16, d21
cabdff1aSopenharmony_ci        vaddl.u8        q5,  d22, d29
cabdff1aSopenharmony_ci        vsub.s16        q7,  q7,  q6
cabdff1aSopenharmony_ci        vbif            d4,  d19, d7
cabdff1aSopenharmony_ci        vrshrn.u16      d5,  q0,  #4
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vadd.s16        q0,  q0,  q7
cabdff1aSopenharmony_ci        vaddl.u8        q6,  d16, d22
cabdff1aSopenharmony_ci        vaddl.u8        q7,  d23, d30
cabdff1aSopenharmony_ci        vsub.s16        q5,  q5,  q4
cabdff1aSopenharmony_ci        vbif            d5,  d20, d7
cabdff1aSopenharmony_ci        vrshrn.u16      d6,  q0,  #4
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vadd.s16        q0,  q0,  q5
cabdff1aSopenharmony_ci        vaddl.u8        q5,  d16, d23
cabdff1aSopenharmony_ci        vsub.s16        q7,  q7,  q6
cabdff1aSopenharmony_ci        vaddl.u8        q6,  d24, d31
cabdff1aSopenharmony_ci        vbif            d6,  d21, d7
cabdff1aSopenharmony_ci        vrshrn.u16      d8,  q0,  #4
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vadd.s16        q0,  q0,  q7
cabdff1aSopenharmony_ci        vsub.s16        q5,  q6,  q5
cabdff1aSopenharmony_ci        vaddl.u8        q6,  d17, d24
cabdff1aSopenharmony_ci        vaddl.u8        q7,  d25, d31
cabdff1aSopenharmony_ci        vbif            d8,  d22, d7
cabdff1aSopenharmony_ci        vrshrn.u16      d9,  q0,  #4
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vadd.s16        q0,  q0,  q5
cabdff1aSopenharmony_ci        vsub.s16        q7,  q7,  q6
cabdff1aSopenharmony_ci        vaddl.u8        q6,  d26, d31
cabdff1aSopenharmony_ci        vbif            d9,  d23, d7
cabdff1aSopenharmony_ci        vrshrn.u16      d10, q0,  #4
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vadd.s16        q0,  q0,  q7
cabdff1aSopenharmony_ci        vaddl.u8        q7,  d18, d25
cabdff1aSopenharmony_ci        vaddl.u8        q9,  d19, d26
cabdff1aSopenharmony_ci        vsub.s16        q6,  q6,  q7
cabdff1aSopenharmony_ci        vaddl.u8        q7,  d27, d31
cabdff1aSopenharmony_ci        vbif            d10, d24, d7
cabdff1aSopenharmony_ci        vrshrn.u16      d11, q0,  #4
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vadd.s16        q0,  q0,  q6
cabdff1aSopenharmony_ci        vaddl.u8        q6,  d20, d27
cabdff1aSopenharmony_ci        vsub.s16        q7,  q7,  q9
cabdff1aSopenharmony_ci        vaddl.u8        q9,  d28, d31
cabdff1aSopenharmony_ci        vbif            d11, d25, d7
cabdff1aSopenharmony_ci        vsub.s16        q9,  q9,  q6
cabdff1aSopenharmony_ci        vrshrn.u16      d12, q0,  #4
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vadd.s16        q0,  q0,  q7
cabdff1aSopenharmony_ci        vaddl.u8        q7,  d21, d28
cabdff1aSopenharmony_ci        vaddl.u8        q10, d29, d31
cabdff1aSopenharmony_ci        vbif            d12, d26, d7
cabdff1aSopenharmony_ci        vrshrn.u16      d13, q0,  #4
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vadd.s16        q0,  q0,  q9
cabdff1aSopenharmony_ci        vsub.s16        q10, q10, q7
cabdff1aSopenharmony_ci        vaddl.u8        q9,  d22, d29
cabdff1aSopenharmony_ci        vaddl.u8        q11, d30, d31
cabdff1aSopenharmony_ci        vbif            d13, d27, d7
cabdff1aSopenharmony_ci        vrshrn.u16      d14, q0,  #4
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vadd.s16        q0,  q0,  q10
cabdff1aSopenharmony_ci        vsub.s16        q11, q11, q9
cabdff1aSopenharmony_ci        vbif            d14, d28, d7
cabdff1aSopenharmony_ci        vrshrn.u16      d15, q0,  #4
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vadd.s16        q0,  q0,  q11
cabdff1aSopenharmony_ci        vbif            d15, d29, d7
cabdff1aSopenharmony_ci        vrshrn.u16      d17, q0,  #4
cabdff1aSopenharmony_ci        vbif            d17, d30, d7
cabdff1aSopenharmony_ci.endif
cabdff1aSopenharmony_ci.endm
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci@ For wd <= 8, we use d16-d19 and d28-d31 for temp registers,
cabdff1aSopenharmony_ci@ while we need those for inputs/outputs in wd=16 and use d8-d15
cabdff1aSopenharmony_ci@ for temp registers there instead.
cabdff1aSopenharmony_ci.macro loop_filter_4
cabdff1aSopenharmony_ci        loop_filter     4,  d16, d17, d18, d19, d28, d29, d30, d31, q8,  q9,  q14, q15
cabdff1aSopenharmony_ci.endm
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci.macro loop_filter_8
cabdff1aSopenharmony_ci        loop_filter     8,  d16, d17, d18, d19, d28, d29, d30, d31, q8,  q9,  q14, q15
cabdff1aSopenharmony_ci.endm
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci.macro loop_filter_16
cabdff1aSopenharmony_ci        loop_filter     16, d8,  d9,  d10, d11, d12, d13, d14, d15, q4,  q5,  q6,  q7
cabdff1aSopenharmony_ci.endm
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci@ The public functions in this file have got the following signature:
cabdff1aSopenharmony_ci@ void loop_filter(uint8_t *dst, ptrdiff_t stride, int mb_lim, int lim, int hev_thr);
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_cifunction ff_vp9_loop_filter_v_4_8_neon, export=1
cabdff1aSopenharmony_ci        sub             r12, r0,  r1, lsl #2
cabdff1aSopenharmony_ci        vld1.8          {d20}, [r12,:64], r1 @ p3
cabdff1aSopenharmony_ci        vld1.8          {d24}, [r0, :64], r1 @ q0
cabdff1aSopenharmony_ci        vld1.8          {d21}, [r12,:64], r1 @ p2
cabdff1aSopenharmony_ci        vld1.8          {d25}, [r0, :64], r1 @ q1
cabdff1aSopenharmony_ci        vld1.8          {d22}, [r12,:64], r1 @ p1
cabdff1aSopenharmony_ci        vld1.8          {d26}, [r0, :64], r1 @ q2
cabdff1aSopenharmony_ci        vld1.8          {d23}, [r12,:64], r1 @ p0
cabdff1aSopenharmony_ci        vld1.8          {d27}, [r0, :64], r1 @ q3
cabdff1aSopenharmony_ci        sub             r0,  r0,  r1, lsl #2
cabdff1aSopenharmony_ci        sub             r12, r12, r1, lsl #1
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        loop_filter_4
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vst1.8          {d22}, [r12,:64], r1
cabdff1aSopenharmony_ci        vst1.8          {d24}, [r0, :64], r1
cabdff1aSopenharmony_ci        vst1.8          {d23}, [r12,:64], r1
cabdff1aSopenharmony_ci        vst1.8          {d25}, [r0, :64], r1
cabdff1aSopenharmony_ci9:
cabdff1aSopenharmony_ci        bx              lr
cabdff1aSopenharmony_ciendfunc
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_cifunction ff_vp9_loop_filter_h_4_8_neon, export=1
cabdff1aSopenharmony_ci        sub             r12, r0,  #4
cabdff1aSopenharmony_ci        add             r0,  r12, r1, lsl #2
cabdff1aSopenharmony_ci        vld1.8          {d20}, [r12], r1
cabdff1aSopenharmony_ci        vld1.8          {d24}, [r0],  r1
cabdff1aSopenharmony_ci        vld1.8          {d21}, [r12], r1
cabdff1aSopenharmony_ci        vld1.8          {d25}, [r0],  r1
cabdff1aSopenharmony_ci        vld1.8          {d22}, [r12], r1
cabdff1aSopenharmony_ci        vld1.8          {d26}, [r0],  r1
cabdff1aSopenharmony_ci        vld1.8          {d23}, [r12], r1
cabdff1aSopenharmony_ci        vld1.8          {d27}, [r0],  r1
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        sub             r12, r12, r1, lsl #2
cabdff1aSopenharmony_ci        sub             r0,  r0,  r1, lsl #2
cabdff1aSopenharmony_ci        @ Move r0/r12 forward by 2 pixels; we don't need to rewrite the
cabdff1aSopenharmony_ci        @ outermost 2 pixels since they aren't changed.
cabdff1aSopenharmony_ci        add             r12, r12, #2
cabdff1aSopenharmony_ci        add             r0,  r0,  #2
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        @ Transpose the 8x8 pixels, taking advantage of q registers, to get
cabdff1aSopenharmony_ci        @ one register per column.
cabdff1aSopenharmony_ci        transpose_q_8x8 q10, q11, q12, q13, d20, d21, d22, d23, d24, d25, d26, d27
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        loop_filter_4
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        @ We only will write the mid 4 pixels back; after the loop filter,
cabdff1aSopenharmony_ci        @ these are in d22, d23, d24, d25 (q11, q12), ordered as rows
cabdff1aSopenharmony_ci        @ (8x4 pixels). We need to transpose them to columns, done with a
cabdff1aSopenharmony_ci        @ 4x4 transpose (which in practice is two 4x4 transposes of the two
cabdff1aSopenharmony_ci        @ 4x4 halves of the 8x4 pixels; into 4x8 pixels).
cabdff1aSopenharmony_ci        transpose_q_4x4 q11, q12, d22, d23, d24, d25
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vst1.32         {d22[0]}, [r12], r1
cabdff1aSopenharmony_ci        vst1.32         {d22[1]}, [r0],  r1
cabdff1aSopenharmony_ci        vst1.32         {d23[0]}, [r12], r1
cabdff1aSopenharmony_ci        vst1.32         {d23[1]}, [r0],  r1
cabdff1aSopenharmony_ci        vst1.32         {d24[0]}, [r12], r1
cabdff1aSopenharmony_ci        vst1.32         {d24[1]}, [r0],  r1
cabdff1aSopenharmony_ci        vst1.32         {d25[0]}, [r12], r1
cabdff1aSopenharmony_ci        vst1.32         {d25[1]}, [r0],  r1
cabdff1aSopenharmony_ci9:
cabdff1aSopenharmony_ci        bx              lr
cabdff1aSopenharmony_ciendfunc
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_cifunction ff_vp9_loop_filter_v_44_16_neon, export=1
cabdff1aSopenharmony_ci        vpush           {q4-q7}
cabdff1aSopenharmony_ci        sub             r12, r0,  r1, lsl #2
cabdff1aSopenharmony_ci        vld1.8          {q8},  [r12,:128], r1 @ p3
cabdff1aSopenharmony_ci        vld1.8          {q12}, [r0, :128], r1 @ q0
cabdff1aSopenharmony_ci        vld1.8          {q9},  [r12,:128], r1 @ p2
cabdff1aSopenharmony_ci        vld1.8          {q13}, [r0, :128], r1 @ q1
cabdff1aSopenharmony_ci        vld1.8          {q10}, [r12,:128], r1 @ p1
cabdff1aSopenharmony_ci        vld1.8          {q14}, [r0, :128], r1 @ q2
cabdff1aSopenharmony_ci        vld1.8          {q11}, [r12,:128], r1 @ p0
cabdff1aSopenharmony_ci        vld1.8          {q15}, [r0, :128], r1 @ q3
cabdff1aSopenharmony_ci        sub             r0,  r0,  r1, lsl #2
cabdff1aSopenharmony_ci        sub             r12, r12, r1, lsl #1
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        loop_filter_q
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vst1.8          {q10}, [r12,:128], r1
cabdff1aSopenharmony_ci        vst1.8          {q12}, [r0, :128], r1
cabdff1aSopenharmony_ci        vst1.8          {q11}, [r12,:128], r1
cabdff1aSopenharmony_ci        vst1.8          {q13}, [r0, :128], r1
cabdff1aSopenharmony_ci9:
cabdff1aSopenharmony_ci        vpop            {q4-q7}
cabdff1aSopenharmony_ci        bx              lr
cabdff1aSopenharmony_ciendfunc
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_cifunction ff_vp9_loop_filter_h_44_16_neon, export=1
cabdff1aSopenharmony_ci        vpush           {q4-q7}
cabdff1aSopenharmony_ci        sub             r12, r0,  #4
cabdff1aSopenharmony_ci        add             r0,  r12, r1, lsl #2
cabdff1aSopenharmony_ci        vld1.8          {d16}, [r12], r1
cabdff1aSopenharmony_ci        vld1.8          {d24}, [r0],  r1
cabdff1aSopenharmony_ci        vld1.8          {d18}, [r12], r1
cabdff1aSopenharmony_ci        vld1.8          {d26}, [r0],  r1
cabdff1aSopenharmony_ci        vld1.8          {d20}, [r12], r1
cabdff1aSopenharmony_ci        vld1.8          {d28}, [r0],  r1
cabdff1aSopenharmony_ci        vld1.8          {d22}, [r12], r1
cabdff1aSopenharmony_ci        vld1.8          {d30}, [r0],  r1
cabdff1aSopenharmony_ci        mov             r12, r0
cabdff1aSopenharmony_ci        add             r0,  r0,  r1, lsl #2
cabdff1aSopenharmony_ci        vld1.8          {d17}, [r12], r1
cabdff1aSopenharmony_ci        vld1.8          {d25}, [r0],  r1
cabdff1aSopenharmony_ci        vld1.8          {d19}, [r12], r1
cabdff1aSopenharmony_ci        vld1.8          {d27}, [r0],  r1
cabdff1aSopenharmony_ci        vld1.8          {d21}, [r12], r1
cabdff1aSopenharmony_ci        vld1.8          {d29}, [r0],  r1
cabdff1aSopenharmony_ci        vld1.8          {d23}, [r12], r1
cabdff1aSopenharmony_ci        vld1.8          {d31}, [r0],  r1
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        @ Transpose the 16x8 pixels, as two 8x8 parts
cabdff1aSopenharmony_ci        transpose_8x8   q8,  q9,  q10, q11, q12, q13, q14, q15
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        loop_filter_q
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        sub             r12, r0,  r1, lsl #4
cabdff1aSopenharmony_ci        add             r0,  r12, r1, lsl #3
cabdff1aSopenharmony_ci        @ Move r0/r12 forward by 2 pixels; we don't need to rewrite the
cabdff1aSopenharmony_ci        @ outermost 2 pixels since they aren't changed.
cabdff1aSopenharmony_ci        add             r12, r12, #2
cabdff1aSopenharmony_ci        add             r0,  r0,  #2
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        @ We only will write the mid 4 pixels back; after the loop filter,
cabdff1aSopenharmony_ci        @ these are in q10, q11, q12, q13, ordered as rows (16x4 pixels).
cabdff1aSopenharmony_ci        @ We need to transpose them to columns, done with a 4x4 transpose
cabdff1aSopenharmony_ci        @ (which in practice is four 4x4 transposes of the 4x4 blocks of
cabdff1aSopenharmony_ci        @ the 16x4 pixels; into 4x16 pixels).
cabdff1aSopenharmony_ci        transpose_4x4   q10, q11, q12, q13
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vst1.32         {d20[0]}, [r12], r1
cabdff1aSopenharmony_ci        vst1.32         {d21[0]}, [r0],  r1
cabdff1aSopenharmony_ci        vst1.32         {d22[0]}, [r12], r1
cabdff1aSopenharmony_ci        vst1.32         {d23[0]}, [r0],  r1
cabdff1aSopenharmony_ci        vst1.32         {d24[0]}, [r12], r1
cabdff1aSopenharmony_ci        vst1.32         {d25[0]}, [r0],  r1
cabdff1aSopenharmony_ci        vst1.32         {d26[0]}, [r12], r1
cabdff1aSopenharmony_ci        vst1.32         {d27[0]}, [r0],  r1
cabdff1aSopenharmony_ci        vst1.32         {d20[1]}, [r12], r1
cabdff1aSopenharmony_ci        vst1.32         {d21[1]}, [r0],  r1
cabdff1aSopenharmony_ci        vst1.32         {d22[1]}, [r12], r1
cabdff1aSopenharmony_ci        vst1.32         {d23[1]}, [r0],  r1
cabdff1aSopenharmony_ci        vst1.32         {d24[1]}, [r12], r1
cabdff1aSopenharmony_ci        vst1.32         {d25[1]}, [r0],  r1
cabdff1aSopenharmony_ci        vst1.32         {d26[1]}, [r12], r1
cabdff1aSopenharmony_ci        vst1.32         {d27[1]}, [r0],  r1
cabdff1aSopenharmony_ci9:
cabdff1aSopenharmony_ci        vpop            {q4-q7}
cabdff1aSopenharmony_ci        bx              lr
cabdff1aSopenharmony_ciendfunc
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_cifunction ff_vp9_loop_filter_v_8_8_neon, export=1
cabdff1aSopenharmony_ci        sub             r12, r0,  r1, lsl #2
cabdff1aSopenharmony_ci        vld1.8          {d20}, [r12,:64], r1 @ p3
cabdff1aSopenharmony_ci        vld1.8          {d24}, [r0, :64], r1 @ q0
cabdff1aSopenharmony_ci        vld1.8          {d21}, [r12,:64], r1 @ p2
cabdff1aSopenharmony_ci        vld1.8          {d25}, [r0, :64], r1 @ q1
cabdff1aSopenharmony_ci        vld1.8          {d22}, [r12,:64], r1 @ p1
cabdff1aSopenharmony_ci        vld1.8          {d26}, [r0, :64], r1 @ q2
cabdff1aSopenharmony_ci        vld1.8          {d23}, [r12,:64], r1 @ p0
cabdff1aSopenharmony_ci        vld1.8          {d27}, [r0, :64], r1 @ q3
cabdff1aSopenharmony_ci        sub             r12, r12, r1, lsl #2
cabdff1aSopenharmony_ci        sub             r0,  r0,  r1, lsl #2
cabdff1aSopenharmony_ci        add             r12, r12, r1
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        loop_filter_8
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vst1.8          {d21}, [r12,:64], r1
cabdff1aSopenharmony_ci        vst1.8          {d24}, [r0, :64], r1
cabdff1aSopenharmony_ci        vst1.8          {d22}, [r12,:64], r1
cabdff1aSopenharmony_ci        vst1.8          {d25}, [r0, :64], r1
cabdff1aSopenharmony_ci        vst1.8          {d23}, [r12,:64], r1
cabdff1aSopenharmony_ci        vst1.8          {d26}, [r0, :64], r1
cabdff1aSopenharmony_ci9:
cabdff1aSopenharmony_ci        bx              lr
cabdff1aSopenharmony_ci6:
cabdff1aSopenharmony_ci        sub             r12, r0,  r1, lsl #1
cabdff1aSopenharmony_ci        vst1.8          {d22}, [r12,:64], r1
cabdff1aSopenharmony_ci        vst1.8          {d24}, [r0, :64], r1
cabdff1aSopenharmony_ci        vst1.8          {d23}, [r12,:64], r1
cabdff1aSopenharmony_ci        vst1.8          {d25}, [r0, :64], r1
cabdff1aSopenharmony_ci        bx              lr
cabdff1aSopenharmony_ciendfunc
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_cifunction ff_vp9_loop_filter_h_8_8_neon, export=1
cabdff1aSopenharmony_ci        sub             r12, r0,  #4
cabdff1aSopenharmony_ci        add             r0,  r12, r1, lsl #2
cabdff1aSopenharmony_ci        vld1.8          {d20}, [r12], r1
cabdff1aSopenharmony_ci        vld1.8          {d24}, [r0],  r1
cabdff1aSopenharmony_ci        vld1.8          {d21}, [r12], r1
cabdff1aSopenharmony_ci        vld1.8          {d25}, [r0],  r1
cabdff1aSopenharmony_ci        vld1.8          {d22}, [r12], r1
cabdff1aSopenharmony_ci        vld1.8          {d26}, [r0],  r1
cabdff1aSopenharmony_ci        vld1.8          {d23}, [r12], r1
cabdff1aSopenharmony_ci        vld1.8          {d27}, [r0],  r1
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        sub             r12, r12, r1, lsl #2
cabdff1aSopenharmony_ci        sub             r0,  r0,  r1, lsl #2
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        transpose_q_8x8 q10, q11, q12, q13, d20, d21, d22, d23, d24, d25, d26, d27
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        loop_filter_8
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        @ Even though only 6 pixels per row have been changed, we write the
cabdff1aSopenharmony_ci        @ full 8 pixel registers.
cabdff1aSopenharmony_ci        transpose_q_8x8 q10, q11, q12, q13, d20, d21, d22, d23, d24, d25, d26, d27
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vst1.8          {d20}, [r12], r1
cabdff1aSopenharmony_ci        vst1.8          {d24}, [r0],  r1
cabdff1aSopenharmony_ci        vst1.8          {d21}, [r12], r1
cabdff1aSopenharmony_ci        vst1.8          {d25}, [r0],  r1
cabdff1aSopenharmony_ci        vst1.8          {d22}, [r12], r1
cabdff1aSopenharmony_ci        vst1.8          {d26}, [r0],  r1
cabdff1aSopenharmony_ci        vst1.8          {d23}, [r12], r1
cabdff1aSopenharmony_ci        vst1.8          {d27}, [r0],  r1
cabdff1aSopenharmony_ci9:
cabdff1aSopenharmony_ci        bx              lr
cabdff1aSopenharmony_ci6:
cabdff1aSopenharmony_ci        @ If we didn't need to do the flat8in part, we use the same writeback
cabdff1aSopenharmony_ci        @ as in loop_filter_h_4_8.
cabdff1aSopenharmony_ci        add             r12, r12, #2
cabdff1aSopenharmony_ci        add             r0,  r0,  #2
cabdff1aSopenharmony_ci        transpose_q_4x4 q11, q12, d22, d23, d24, d25
cabdff1aSopenharmony_ci        vst1.32         {d22[0]}, [r12], r1
cabdff1aSopenharmony_ci        vst1.32         {d22[1]}, [r0],  r1
cabdff1aSopenharmony_ci        vst1.32         {d23[0]}, [r12], r1
cabdff1aSopenharmony_ci        vst1.32         {d23[1]}, [r0],  r1
cabdff1aSopenharmony_ci        vst1.32         {d24[0]}, [r12], r1
cabdff1aSopenharmony_ci        vst1.32         {d24[1]}, [r0],  r1
cabdff1aSopenharmony_ci        vst1.32         {d25[0]}, [r12], r1
cabdff1aSopenharmony_ci        vst1.32         {d25[1]}, [r0],  r1
cabdff1aSopenharmony_ci        bx              lr
cabdff1aSopenharmony_ciendfunc
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_cifunction vp9_loop_filter_v_16_neon
cabdff1aSopenharmony_ci        sub             r12, r0,  r1, lsl #3
cabdff1aSopenharmony_ci        @ Read p7-p0 using r12 and q0-q7 using r0
cabdff1aSopenharmony_ci        vld1.8          {d16}, [r12,:64], r1 @ p7
cabdff1aSopenharmony_ci        vld1.8          {d24}, [r0, :64], r1 @ q0
cabdff1aSopenharmony_ci        vld1.8          {d17}, [r12,:64], r1 @ p6
cabdff1aSopenharmony_ci        vld1.8          {d25}, [r0, :64], r1 @ q1
cabdff1aSopenharmony_ci        vld1.8          {d18}, [r12,:64], r1 @ p5
cabdff1aSopenharmony_ci        vld1.8          {d26}, [r0, :64], r1 @ q2
cabdff1aSopenharmony_ci        vld1.8          {d19}, [r12,:64], r1 @ p4
cabdff1aSopenharmony_ci        vld1.8          {d27}, [r0, :64], r1 @ q3
cabdff1aSopenharmony_ci        vld1.8          {d20}, [r12,:64], r1 @ p3
cabdff1aSopenharmony_ci        vld1.8          {d28}, [r0, :64], r1 @ q4
cabdff1aSopenharmony_ci        vld1.8          {d21}, [r12,:64], r1 @ p2
cabdff1aSopenharmony_ci        vld1.8          {d29}, [r0, :64], r1 @ q5
cabdff1aSopenharmony_ci        vld1.8          {d22}, [r12,:64], r1 @ p1
cabdff1aSopenharmony_ci        vld1.8          {d30}, [r0, :64], r1 @ q6
cabdff1aSopenharmony_ci        vld1.8          {d23}, [r12,:64], r1 @ p0
cabdff1aSopenharmony_ci        vld1.8          {d31}, [r0, :64], r1 @ q7
cabdff1aSopenharmony_ci        sub             r12, r12, r1, lsl #3
cabdff1aSopenharmony_ci        sub             r0,  r0,  r1, lsl #3
cabdff1aSopenharmony_ci        add             r12, r12, r1
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        loop_filter_16
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        @ If we did the flat8out part, we get the output in
cabdff1aSopenharmony_ci        @ d2-d17 (skipping d7 and d16). r12 points to r0 - 7 * stride,
cabdff1aSopenharmony_ci        @ store d2-d9 there, and d10-d17 into r0.
cabdff1aSopenharmony_ci        vst1.8          {d2},  [r12,:64], r1
cabdff1aSopenharmony_ci        vst1.8          {d10}, [r0, :64], r1
cabdff1aSopenharmony_ci        vst1.8          {d3},  [r12,:64], r1
cabdff1aSopenharmony_ci        vst1.8          {d11}, [r0, :64], r1
cabdff1aSopenharmony_ci        vst1.8          {d4},  [r12,:64], r1
cabdff1aSopenharmony_ci        vst1.8          {d12}, [r0, :64], r1
cabdff1aSopenharmony_ci        vst1.8          {d5},  [r12,:64], r1
cabdff1aSopenharmony_ci        vst1.8          {d13}, [r0, :64], r1
cabdff1aSopenharmony_ci        vst1.8          {d6},  [r12,:64], r1
cabdff1aSopenharmony_ci        vst1.8          {d14}, [r0, :64], r1
cabdff1aSopenharmony_ci        vst1.8          {d8},  [r12,:64], r1
cabdff1aSopenharmony_ci        vst1.8          {d15}, [r0, :64], r1
cabdff1aSopenharmony_ci        vst1.8          {d9},  [r12,:64], r1
cabdff1aSopenharmony_ci        vst1.8          {d17}, [r0, :64], r1
cabdff1aSopenharmony_ci        sub             r0,  r0,  r1, lsl #3
cabdff1aSopenharmony_ci        add             r0,  r0,  r1
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci9:
cabdff1aSopenharmony_ci        bx              lr
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci8:
cabdff1aSopenharmony_ci        add             r12, r12, r1, lsl #2
cabdff1aSopenharmony_ci        @ If we didn't do the flat8out part, the output is left in the
cabdff1aSopenharmony_ci        @ input registers.
cabdff1aSopenharmony_ci        vst1.8          {d21}, [r12,:64], r1
cabdff1aSopenharmony_ci        vst1.8          {d24}, [r0, :64], r1
cabdff1aSopenharmony_ci        vst1.8          {d22}, [r12,:64], r1
cabdff1aSopenharmony_ci        vst1.8          {d25}, [r0, :64], r1
cabdff1aSopenharmony_ci        vst1.8          {d23}, [r12,:64], r1
cabdff1aSopenharmony_ci        vst1.8          {d26}, [r0, :64], r1
cabdff1aSopenharmony_ci        sub             r0,  r0,  r1, lsl #1
cabdff1aSopenharmony_ci        sub             r0,  r0,  r1
cabdff1aSopenharmony_ci        bx              lr
cabdff1aSopenharmony_ci7:
cabdff1aSopenharmony_ci        sub             r12, r0,  r1, lsl #1
cabdff1aSopenharmony_ci        vst1.8          {d22}, [r12,:64], r1
cabdff1aSopenharmony_ci        vst1.8          {d24}, [r0, :64], r1
cabdff1aSopenharmony_ci        vst1.8          {d23}, [r12,:64], r1
cabdff1aSopenharmony_ci        vst1.8          {d25}, [r0, :64], r1
cabdff1aSopenharmony_ci        sub             r0,  r0,  r1, lsl #1
cabdff1aSopenharmony_ci        bx              lr
cabdff1aSopenharmony_ciendfunc
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_cifunction ff_vp9_loop_filter_v_16_8_neon, export=1
cabdff1aSopenharmony_ci        ldr             r12, [sp]
cabdff1aSopenharmony_ci        push            {lr}
cabdff1aSopenharmony_ci        vpush           {q4-q7}
cabdff1aSopenharmony_ci        push            {r12}
cabdff1aSopenharmony_ci        bl              vp9_loop_filter_v_16_neon
cabdff1aSopenharmony_ci        add             sp,  sp,  #4
cabdff1aSopenharmony_ci        vpop            {q4-q7}
cabdff1aSopenharmony_ci        pop             {pc}
cabdff1aSopenharmony_ciendfunc
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_cifunction ff_vp9_loop_filter_v_16_16_neon, export=1
cabdff1aSopenharmony_ci        ldr             r12, [sp]
cabdff1aSopenharmony_ci        // The filter clobbers r2 and r3, but we need to keep them for the second round
cabdff1aSopenharmony_ci        push            {r2, r3, lr}
cabdff1aSopenharmony_ci        vpush           {q4-q7}
cabdff1aSopenharmony_ci        push            {r12}
cabdff1aSopenharmony_ci        bl              vp9_loop_filter_v_16_neon
cabdff1aSopenharmony_ci        add             r0,  #8
cabdff1aSopenharmony_ci        ldr             r2,  [sp, #68]
cabdff1aSopenharmony_ci        ldr             r3,  [sp, #72]
cabdff1aSopenharmony_ci        bl              vp9_loop_filter_v_16_neon
cabdff1aSopenharmony_ci        add             sp,  sp,  #4
cabdff1aSopenharmony_ci        vpop            {q4-q7}
cabdff1aSopenharmony_ci        pop             {r2, r3, pc}
cabdff1aSopenharmony_ciendfunc
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_cifunction vp9_loop_filter_h_16_neon
cabdff1aSopenharmony_ci        sub             r12, r0,  #8
cabdff1aSopenharmony_ci        vld1.8          {d16}, [r12,:64], r1
cabdff1aSopenharmony_ci        vld1.8          {d24}, [r0, :64], r1
cabdff1aSopenharmony_ci        vld1.8          {d17}, [r12,:64], r1
cabdff1aSopenharmony_ci        vld1.8          {d25}, [r0, :64], r1
cabdff1aSopenharmony_ci        vld1.8          {d18}, [r12,:64], r1
cabdff1aSopenharmony_ci        vld1.8          {d26}, [r0, :64], r1
cabdff1aSopenharmony_ci        vld1.8          {d19}, [r12,:64], r1
cabdff1aSopenharmony_ci        vld1.8          {d27}, [r0, :64], r1
cabdff1aSopenharmony_ci        vld1.8          {d20}, [r12,:64], r1
cabdff1aSopenharmony_ci        vld1.8          {d28}, [r0, :64], r1
cabdff1aSopenharmony_ci        vld1.8          {d21}, [r12,:64], r1
cabdff1aSopenharmony_ci        vld1.8          {d29}, [r0, :64], r1
cabdff1aSopenharmony_ci        vld1.8          {d22}, [r12,:64], r1
cabdff1aSopenharmony_ci        vld1.8          {d30}, [r0, :64], r1
cabdff1aSopenharmony_ci        vld1.8          {d23}, [r12,:64], r1
cabdff1aSopenharmony_ci        vld1.8          {d31}, [r0, :64], r1
cabdff1aSopenharmony_ci        sub             r0,  r0,  r1, lsl #3
cabdff1aSopenharmony_ci        sub             r12, r12, r1, lsl #3
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        @ The 16x8 pixels read above is in two 8x8 blocks; the left
cabdff1aSopenharmony_ci        @ half in d16-d23, and the right half in d24-d31. Do two 8x8 transposes
cabdff1aSopenharmony_ci        @ of this, to get one column per register. This could be done with two
cabdff1aSopenharmony_ci        @ transpose_8x8 as below, but this takes advantage of the q registers.
cabdff1aSopenharmony_ci        transpose16_4x4 q8,  q9,  q10, q11, q12, q13, q14, q15
cabdff1aSopenharmony_ci        vtrn.8          d16, d17
cabdff1aSopenharmony_ci        vtrn.8          d18, d19
cabdff1aSopenharmony_ci        vtrn.8          d20, d21
cabdff1aSopenharmony_ci        vtrn.8          d22, d23
cabdff1aSopenharmony_ci        vtrn.8          d24, d25
cabdff1aSopenharmony_ci        vtrn.8          d26, d27
cabdff1aSopenharmony_ci        vtrn.8          d28, d29
cabdff1aSopenharmony_ci        vtrn.8          d30, d31
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        loop_filter_16
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        @ Transpose back; this is the same transpose as above, but
cabdff1aSopenharmony_ci        @ we can't take advantage of q registers for the transpose, since
cabdff1aSopenharmony_ci        @ all d registers in the transpose aren't consecutive.
cabdff1aSopenharmony_ci        transpose_8x8   d16, d2,  d3,  d4,  d5,  d6,  d8,  d9
cabdff1aSopenharmony_ci        transpose_8x8   d10, d11, d12, d13, d14, d15, d17, d31
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vst1.8          {d16}, [r12,:64], r1
cabdff1aSopenharmony_ci        vst1.8          {d10}, [r0, :64], r1
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vst1.8          {d2},  [r12,:64], r1
cabdff1aSopenharmony_ci        vst1.8          {d11}, [r0, :64], r1
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vst1.8          {d3},  [r12,:64], r1
cabdff1aSopenharmony_ci        vst1.8          {d12}, [r0, :64], r1
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vst1.8          {d4},  [r12,:64], r1
cabdff1aSopenharmony_ci        vst1.8          {d13}, [r0, :64], r1
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vst1.8          {d5},  [r12,:64], r1
cabdff1aSopenharmony_ci        vst1.8          {d14}, [r0, :64], r1
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vst1.8          {d6},  [r12,:64], r1
cabdff1aSopenharmony_ci        vst1.8          {d15}, [r0, :64], r1
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vst1.8          {d8},  [r12,:64], r1
cabdff1aSopenharmony_ci        vst1.8          {d17}, [r0, :64], r1
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vst1.8          {d9},  [r12,:64], r1
cabdff1aSopenharmony_ci        vst1.8          {d31}, [r0, :64], r1
cabdff1aSopenharmony_ci        sub             r0,  r0,  r1, lsl #3
cabdff1aSopenharmony_ci9:
cabdff1aSopenharmony_ci        bx              lr
cabdff1aSopenharmony_ci8:
cabdff1aSopenharmony_ci        @ The same writeback as in loop_filter_h_8_8
cabdff1aSopenharmony_ci        sub             r12, r0,  #4
cabdff1aSopenharmony_ci        add             r0,  r12, r1, lsl #2
cabdff1aSopenharmony_ci        transpose_q_8x8 q10, q11, q12, q13, d20, d21, d22, d23, d24, d25, d26, d27
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_ci        vst1.8          {d20}, [r12], r1
cabdff1aSopenharmony_ci        vst1.8          {d24}, [r0],  r1
cabdff1aSopenharmony_ci        vst1.8          {d21}, [r12], r1
cabdff1aSopenharmony_ci        vst1.8          {d25}, [r0],  r1
cabdff1aSopenharmony_ci        vst1.8          {d22}, [r12], r1
cabdff1aSopenharmony_ci        vst1.8          {d26}, [r0],  r1
cabdff1aSopenharmony_ci        vst1.8          {d23}, [r12], r1
cabdff1aSopenharmony_ci        vst1.8          {d27}, [r0],  r1
cabdff1aSopenharmony_ci        sub             r0,  r0,  r1, lsl #3
cabdff1aSopenharmony_ci        add             r0,  r0,  #4
cabdff1aSopenharmony_ci        bx              lr
cabdff1aSopenharmony_ci7:
cabdff1aSopenharmony_ci        @ The same writeback as in loop_filter_h_4_8
cabdff1aSopenharmony_ci        sub             r12, r0,  #2
cabdff1aSopenharmony_ci        add             r0,  r12, r1, lsl #2
cabdff1aSopenharmony_ci        transpose_q_4x4 q11, q12, d22, d23, d24, d25
cabdff1aSopenharmony_ci        vst1.32         {d22[0]}, [r12], r1
cabdff1aSopenharmony_ci        vst1.32         {d22[1]}, [r0],  r1
cabdff1aSopenharmony_ci        vst1.32         {d23[0]}, [r12], r1
cabdff1aSopenharmony_ci        vst1.32         {d23[1]}, [r0],  r1
cabdff1aSopenharmony_ci        vst1.32         {d24[0]}, [r12], r1
cabdff1aSopenharmony_ci        vst1.32         {d24[1]}, [r0],  r1
cabdff1aSopenharmony_ci        vst1.32         {d25[0]}, [r12], r1
cabdff1aSopenharmony_ci        vst1.32         {d25[1]}, [r0],  r1
cabdff1aSopenharmony_ci        sub             r0,  r0,  r1, lsl #3
cabdff1aSopenharmony_ci        add             r0,  r0,  #2
cabdff1aSopenharmony_ci        bx              lr
cabdff1aSopenharmony_ciendfunc
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_cifunction ff_vp9_loop_filter_h_16_8_neon, export=1
cabdff1aSopenharmony_ci        ldr             r12, [sp]
cabdff1aSopenharmony_ci        push            {lr}
cabdff1aSopenharmony_ci        vpush           {q4-q7}
cabdff1aSopenharmony_ci        push            {r12}
cabdff1aSopenharmony_ci        bl              vp9_loop_filter_h_16_neon
cabdff1aSopenharmony_ci        add             sp,  sp,  #4
cabdff1aSopenharmony_ci        vpop            {q4-q7}
cabdff1aSopenharmony_ci        pop             {pc}
cabdff1aSopenharmony_ciendfunc
cabdff1aSopenharmony_ci
cabdff1aSopenharmony_cifunction ff_vp9_loop_filter_h_16_16_neon, export=1
cabdff1aSopenharmony_ci        ldr             r12, [sp]
cabdff1aSopenharmony_ci        // The filter clobbers r2 and r3, but we need to keep them for the second round
cabdff1aSopenharmony_ci        push            {r2, r3, lr}
cabdff1aSopenharmony_ci        vpush           {q4-q7}
cabdff1aSopenharmony_ci        push            {r12}
cabdff1aSopenharmony_ci        bl              vp9_loop_filter_h_16_neon
cabdff1aSopenharmony_ci        add             r0,  r0,  r1, lsl #3
cabdff1aSopenharmony_ci        ldr             r2,  [sp, #68]
cabdff1aSopenharmony_ci        ldr             r3,  [sp, #72]
cabdff1aSopenharmony_ci        bl              vp9_loop_filter_h_16_neon
cabdff1aSopenharmony_ci        add             sp,  sp,  #4
cabdff1aSopenharmony_ci        vpop            {q4-q7}
cabdff1aSopenharmony_ci        pop             {r2, r3, pc}
cabdff1aSopenharmony_ciendfunc