x86/crypto/sha1_ssse3_asm.S

62306a36Sopenharmony_ci/* SPDX-License-Identifier: GPL-2.0-or-later */
62306a36Sopenharmony_ci/*
62306a36Sopenharmony_ci * This is a SIMD SHA-1 implementation. It requires the Intel(R) Supplemental
62306a36Sopenharmony_ci * SSE3 instruction set extensions introduced in Intel Core Microarchitecture
62306a36Sopenharmony_ci * processors. CPUs supporting Intel(R) AVX extensions will get an additional
62306a36Sopenharmony_ci * boost.
62306a36Sopenharmony_ci *
62306a36Sopenharmony_ci * This work was inspired by the vectorized implementation of Dean Gaudet.
62306a36Sopenharmony_ci * Additional information on it can be found at:
62306a36Sopenharmony_ci *    http://www.arctic.org/~dean/crypto/sha1.html
62306a36Sopenharmony_ci *
62306a36Sopenharmony_ci * It was improved upon with more efficient vectorization of the message
62306a36Sopenharmony_ci * scheduling. This implementation has also been optimized for all current and
62306a36Sopenharmony_ci * several future generations of Intel CPUs.
62306a36Sopenharmony_ci *
62306a36Sopenharmony_ci * See this article for more information about the implementation details:
62306a36Sopenharmony_ci *   http://software.intel.com/en-us/articles/improving-the-performance-of-the-secure-hash-algorithm-1/
62306a36Sopenharmony_ci *
62306a36Sopenharmony_ci * Copyright (C) 2010, Intel Corp.
62306a36Sopenharmony_ci *   Authors: Maxim Locktyukhin <maxim.locktyukhin@intel.com>
62306a36Sopenharmony_ci *            Ronen Zohar <ronen.zohar@intel.com>
62306a36Sopenharmony_ci *
62306a36Sopenharmony_ci * Converted to AT&T syntax and adapted for inclusion in the Linux kernel:
62306a36Sopenharmony_ci *   Author: Mathias Krause <minipli@googlemail.com>
62306a36Sopenharmony_ci */
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci#include <linux/linkage.h>
62306a36Sopenharmony_ci#include <linux/cfi_types.h>
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci#define CTX	%rdi	// arg1
62306a36Sopenharmony_ci#define BUF	%rsi	// arg2
62306a36Sopenharmony_ci#define CNT	%rdx	// arg3
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci#define REG_A	%ecx
62306a36Sopenharmony_ci#define REG_B	%esi
62306a36Sopenharmony_ci#define REG_C	%edi
62306a36Sopenharmony_ci#define REG_D	%r12d
62306a36Sopenharmony_ci#define REG_E	%edx
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci#define REG_T1	%eax
62306a36Sopenharmony_ci#define REG_T2	%ebx
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci#define K_BASE		%r8
62306a36Sopenharmony_ci#define HASH_PTR	%r9
62306a36Sopenharmony_ci#define BUFFER_PTR	%r10
62306a36Sopenharmony_ci#define BUFFER_END	%r11
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci#define W_TMP1	%xmm0
62306a36Sopenharmony_ci#define W_TMP2	%xmm9
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci#define W0	%xmm1
62306a36Sopenharmony_ci#define W4	%xmm2
62306a36Sopenharmony_ci#define W8	%xmm3
62306a36Sopenharmony_ci#define W12	%xmm4
62306a36Sopenharmony_ci#define W16	%xmm5
62306a36Sopenharmony_ci#define W20	%xmm6
62306a36Sopenharmony_ci#define W24	%xmm7
62306a36Sopenharmony_ci#define W28	%xmm8
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci#define XMM_SHUFB_BSWAP	%xmm10
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci/* we keep window of 64 w[i]+K pre-calculated values in a circular buffer */
62306a36Sopenharmony_ci#define WK(t)	(((t) & 15) * 4)(%rsp)
62306a36Sopenharmony_ci#define W_PRECALC_AHEAD	16
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci/*
62306a36Sopenharmony_ci * This macro implements the SHA-1 function's body for single 64-byte block
62306a36Sopenharmony_ci * param: function's name
62306a36Sopenharmony_ci */
62306a36Sopenharmony_ci.macro SHA1_VECTOR_ASM  name
62306a36Sopenharmony_ci	SYM_TYPED_FUNC_START(\name)
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci	push	%rbx
62306a36Sopenharmony_ci	push	%r12
62306a36Sopenharmony_ci	push	%rbp
62306a36Sopenharmony_ci	mov	%rsp, %rbp
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci	sub	$64, %rsp		# allocate workspace
62306a36Sopenharmony_ci	and	$~15, %rsp		# align stack
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci	mov	CTX, HASH_PTR
62306a36Sopenharmony_ci	mov	BUF, BUFFER_PTR
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci	shl	$6, CNT			# multiply by 64
62306a36Sopenharmony_ci	add	BUF, CNT
62306a36Sopenharmony_ci	mov	CNT, BUFFER_END
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci	lea	K_XMM_AR(%rip), K_BASE
62306a36Sopenharmony_ci	xmm_mov	BSWAP_SHUFB_CTL(%rip), XMM_SHUFB_BSWAP
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci	SHA1_PIPELINED_MAIN_BODY
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci	# cleanup workspace
62306a36Sopenharmony_ci	mov	$8, %ecx
62306a36Sopenharmony_ci	mov	%rsp, %rdi
62306a36Sopenharmony_ci	xor	%eax, %eax
62306a36Sopenharmony_ci	rep stosq
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci	mov	%rbp, %rsp		# deallocate workspace
62306a36Sopenharmony_ci	pop	%rbp
62306a36Sopenharmony_ci	pop	%r12
62306a36Sopenharmony_ci	pop	%rbx
62306a36Sopenharmony_ci	RET
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci	SYM_FUNC_END(\name)
62306a36Sopenharmony_ci.endm
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci/*
62306a36Sopenharmony_ci * This macro implements 80 rounds of SHA-1 for one 64-byte block
62306a36Sopenharmony_ci */
62306a36Sopenharmony_ci.macro SHA1_PIPELINED_MAIN_BODY
62306a36Sopenharmony_ci	INIT_REGALLOC
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci	mov	  (HASH_PTR), A
62306a36Sopenharmony_ci	mov	 4(HASH_PTR), B
62306a36Sopenharmony_ci	mov	 8(HASH_PTR), C
62306a36Sopenharmony_ci	mov	12(HASH_PTR), D
62306a36Sopenharmony_ci	mov	16(HASH_PTR), E
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci  .set i, 0
62306a36Sopenharmony_ci  .rept W_PRECALC_AHEAD
62306a36Sopenharmony_ci	W_PRECALC i
62306a36Sopenharmony_ci    .set i, (i+1)
62306a36Sopenharmony_ci  .endr
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci.align 4
62306a36Sopenharmony_ci1:
62306a36Sopenharmony_ci	RR F1,A,B,C,D,E,0
62306a36Sopenharmony_ci	RR F1,D,E,A,B,C,2
62306a36Sopenharmony_ci	RR F1,B,C,D,E,A,4
62306a36Sopenharmony_ci	RR F1,E,A,B,C,D,6
62306a36Sopenharmony_ci	RR F1,C,D,E,A,B,8
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci	RR F1,A,B,C,D,E,10
62306a36Sopenharmony_ci	RR F1,D,E,A,B,C,12
62306a36Sopenharmony_ci	RR F1,B,C,D,E,A,14
62306a36Sopenharmony_ci	RR F1,E,A,B,C,D,16
62306a36Sopenharmony_ci	RR F1,C,D,E,A,B,18
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci	RR F2,A,B,C,D,E,20
62306a36Sopenharmony_ci	RR F2,D,E,A,B,C,22
62306a36Sopenharmony_ci	RR F2,B,C,D,E,A,24
62306a36Sopenharmony_ci	RR F2,E,A,B,C,D,26
62306a36Sopenharmony_ci	RR F2,C,D,E,A,B,28
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci	RR F2,A,B,C,D,E,30
62306a36Sopenharmony_ci	RR F2,D,E,A,B,C,32
62306a36Sopenharmony_ci	RR F2,B,C,D,E,A,34
62306a36Sopenharmony_ci	RR F2,E,A,B,C,D,36
62306a36Sopenharmony_ci	RR F2,C,D,E,A,B,38
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci	RR F3,A,B,C,D,E,40
62306a36Sopenharmony_ci	RR F3,D,E,A,B,C,42
62306a36Sopenharmony_ci	RR F3,B,C,D,E,A,44
62306a36Sopenharmony_ci	RR F3,E,A,B,C,D,46
62306a36Sopenharmony_ci	RR F3,C,D,E,A,B,48
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci	RR F3,A,B,C,D,E,50
62306a36Sopenharmony_ci	RR F3,D,E,A,B,C,52
62306a36Sopenharmony_ci	RR F3,B,C,D,E,A,54
62306a36Sopenharmony_ci	RR F3,E,A,B,C,D,56
62306a36Sopenharmony_ci	RR F3,C,D,E,A,B,58
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci	add	$64, BUFFER_PTR		# move to the next 64-byte block
62306a36Sopenharmony_ci	cmp	BUFFER_END, BUFFER_PTR	# if the current is the last one use
62306a36Sopenharmony_ci	cmovae	K_BASE, BUFFER_PTR	# dummy source to avoid buffer overrun
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci	RR F4,A,B,C,D,E,60
62306a36Sopenharmony_ci	RR F4,D,E,A,B,C,62
62306a36Sopenharmony_ci	RR F4,B,C,D,E,A,64
62306a36Sopenharmony_ci	RR F4,E,A,B,C,D,66
62306a36Sopenharmony_ci	RR F4,C,D,E,A,B,68
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci	RR F4,A,B,C,D,E,70
62306a36Sopenharmony_ci	RR F4,D,E,A,B,C,72
62306a36Sopenharmony_ci	RR F4,B,C,D,E,A,74
62306a36Sopenharmony_ci	RR F4,E,A,B,C,D,76
62306a36Sopenharmony_ci	RR F4,C,D,E,A,B,78
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci	UPDATE_HASH   (HASH_PTR), A
62306a36Sopenharmony_ci	UPDATE_HASH  4(HASH_PTR), B
62306a36Sopenharmony_ci	UPDATE_HASH  8(HASH_PTR), C
62306a36Sopenharmony_ci	UPDATE_HASH 12(HASH_PTR), D
62306a36Sopenharmony_ci	UPDATE_HASH 16(HASH_PTR), E
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci	RESTORE_RENAMED_REGS
62306a36Sopenharmony_ci	cmp	K_BASE, BUFFER_PTR	# K_BASE means, we reached the end
62306a36Sopenharmony_ci	jne	1b
62306a36Sopenharmony_ci.endm
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci.macro INIT_REGALLOC
62306a36Sopenharmony_ci  .set A, REG_A
62306a36Sopenharmony_ci  .set B, REG_B
62306a36Sopenharmony_ci  .set C, REG_C
62306a36Sopenharmony_ci  .set D, REG_D
62306a36Sopenharmony_ci  .set E, REG_E
62306a36Sopenharmony_ci  .set T1, REG_T1
62306a36Sopenharmony_ci  .set T2, REG_T2
62306a36Sopenharmony_ci.endm
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci.macro RESTORE_RENAMED_REGS
62306a36Sopenharmony_ci	# order is important (REG_C is where it should be)
62306a36Sopenharmony_ci	mov	B, REG_B
62306a36Sopenharmony_ci	mov	D, REG_D
62306a36Sopenharmony_ci	mov	A, REG_A
62306a36Sopenharmony_ci	mov	E, REG_E
62306a36Sopenharmony_ci.endm
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci.macro SWAP_REG_NAMES  a, b
62306a36Sopenharmony_ci  .set _T, \a
62306a36Sopenharmony_ci  .set \a, \b
62306a36Sopenharmony_ci  .set \b, _T
62306a36Sopenharmony_ci.endm
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci.macro F1  b, c, d
62306a36Sopenharmony_ci	mov	\c, T1
62306a36Sopenharmony_ci	SWAP_REG_NAMES \c, T1
62306a36Sopenharmony_ci	xor	\d, T1
62306a36Sopenharmony_ci	and	\b, T1
62306a36Sopenharmony_ci	xor	\d, T1
62306a36Sopenharmony_ci.endm
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci.macro F2  b, c, d
62306a36Sopenharmony_ci	mov	\d, T1
62306a36Sopenharmony_ci	SWAP_REG_NAMES \d, T1
62306a36Sopenharmony_ci	xor	\c, T1
62306a36Sopenharmony_ci	xor	\b, T1
62306a36Sopenharmony_ci.endm
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci.macro F3  b, c ,d
62306a36Sopenharmony_ci	mov	\c, T1
62306a36Sopenharmony_ci	SWAP_REG_NAMES \c, T1
62306a36Sopenharmony_ci	mov	\b, T2
62306a36Sopenharmony_ci	or	\b, T1
62306a36Sopenharmony_ci	and	\c, T2
62306a36Sopenharmony_ci	and	\d, T1
62306a36Sopenharmony_ci	or	T2, T1
62306a36Sopenharmony_ci.endm
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci.macro F4  b, c, d
62306a36Sopenharmony_ci	F2 \b, \c, \d
62306a36Sopenharmony_ci.endm
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci.macro UPDATE_HASH  hash, val
62306a36Sopenharmony_ci	add	\hash, \val
62306a36Sopenharmony_ci	mov	\val, \hash
62306a36Sopenharmony_ci.endm
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci/*
62306a36Sopenharmony_ci * RR does two rounds of SHA-1 back to back with W[] pre-calc
62306a36Sopenharmony_ci *   t1 = F(b, c, d);   e += w(i)
62306a36Sopenharmony_ci *   e += t1;           b <<= 30;   d  += w(i+1);
62306a36Sopenharmony_ci *   t1 = F(a, b, c);
62306a36Sopenharmony_ci *   d += t1;           a <<= 5;
62306a36Sopenharmony_ci *   e += a;
62306a36Sopenharmony_ci *   t1 = e;            a >>= 7;
62306a36Sopenharmony_ci *   t1 <<= 5;
62306a36Sopenharmony_ci *   d += t1;
62306a36Sopenharmony_ci */
62306a36Sopenharmony_ci.macro RR  F, a, b, c, d, e, round
62306a36Sopenharmony_ci	add	WK(\round), \e
62306a36Sopenharmony_ci	\F   \b, \c, \d		# t1 = F(b, c, d);
62306a36Sopenharmony_ci	W_PRECALC (\round + W_PRECALC_AHEAD)
62306a36Sopenharmony_ci	rol	$30, \b
62306a36Sopenharmony_ci	add	T1, \e
62306a36Sopenharmony_ci	add	WK(\round + 1), \d
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci	\F   \a, \b, \c
62306a36Sopenharmony_ci	W_PRECALC (\round + W_PRECALC_AHEAD + 1)
62306a36Sopenharmony_ci	rol	$5, \a
62306a36Sopenharmony_ci	add	\a, \e
62306a36Sopenharmony_ci	add	T1, \d
62306a36Sopenharmony_ci	ror	$7, \a		# (a <<r 5) >>r 7) => a <<r 30)
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci	mov	\e, T1
62306a36Sopenharmony_ci	SWAP_REG_NAMES \e, T1
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci	rol	$5, T1
62306a36Sopenharmony_ci	add	T1, \d
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci	# write:  \a, \b
62306a36Sopenharmony_ci	# rotate: \a<=\d, \b<=\e, \c<=\a, \d<=\b, \e<=\c
62306a36Sopenharmony_ci.endm
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci.macro W_PRECALC  r
62306a36Sopenharmony_ci  .set i, \r
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci  .if (i < 20)
62306a36Sopenharmony_ci    .set K_XMM, 0
62306a36Sopenharmony_ci  .elseif (i < 40)
62306a36Sopenharmony_ci    .set K_XMM, 16
62306a36Sopenharmony_ci  .elseif (i < 60)
62306a36Sopenharmony_ci    .set K_XMM, 32
62306a36Sopenharmony_ci  .elseif (i < 80)
62306a36Sopenharmony_ci    .set K_XMM, 48
62306a36Sopenharmony_ci  .endif
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci  .if ((i < 16) || ((i >= 80) && (i < (80 + W_PRECALC_AHEAD))))
62306a36Sopenharmony_ci    .set i, ((\r) % 80)	    # pre-compute for the next iteration
62306a36Sopenharmony_ci    .if (i == 0)
62306a36Sopenharmony_ci	W_PRECALC_RESET
62306a36Sopenharmony_ci    .endif
62306a36Sopenharmony_ci	W_PRECALC_00_15
62306a36Sopenharmony_ci  .elseif (i<32)
62306a36Sopenharmony_ci	W_PRECALC_16_31
62306a36Sopenharmony_ci  .elseif (i < 80)   // rounds 32-79
62306a36Sopenharmony_ci	W_PRECALC_32_79
62306a36Sopenharmony_ci  .endif
62306a36Sopenharmony_ci.endm
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci.macro W_PRECALC_RESET
62306a36Sopenharmony_ci  .set W,          W0
62306a36Sopenharmony_ci  .set W_minus_04, W4
62306a36Sopenharmony_ci  .set W_minus_08, W8
62306a36Sopenharmony_ci  .set W_minus_12, W12
62306a36Sopenharmony_ci  .set W_minus_16, W16
62306a36Sopenharmony_ci  .set W_minus_20, W20
62306a36Sopenharmony_ci  .set W_minus_24, W24
62306a36Sopenharmony_ci  .set W_minus_28, W28
62306a36Sopenharmony_ci  .set W_minus_32, W
62306a36Sopenharmony_ci.endm
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci.macro W_PRECALC_ROTATE
62306a36Sopenharmony_ci  .set W_minus_32, W_minus_28
62306a36Sopenharmony_ci  .set W_minus_28, W_minus_24
62306a36Sopenharmony_ci  .set W_minus_24, W_minus_20
62306a36Sopenharmony_ci  .set W_minus_20, W_minus_16
62306a36Sopenharmony_ci  .set W_minus_16, W_minus_12
62306a36Sopenharmony_ci  .set W_minus_12, W_minus_08
62306a36Sopenharmony_ci  .set W_minus_08, W_minus_04
62306a36Sopenharmony_ci  .set W_minus_04, W
62306a36Sopenharmony_ci  .set W,          W_minus_32
62306a36Sopenharmony_ci.endm
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci.macro W_PRECALC_SSSE3
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci.macro W_PRECALC_00_15
62306a36Sopenharmony_ci	W_PRECALC_00_15_SSSE3
62306a36Sopenharmony_ci.endm
62306a36Sopenharmony_ci.macro W_PRECALC_16_31
62306a36Sopenharmony_ci	W_PRECALC_16_31_SSSE3
62306a36Sopenharmony_ci.endm
62306a36Sopenharmony_ci.macro W_PRECALC_32_79
62306a36Sopenharmony_ci	W_PRECALC_32_79_SSSE3
62306a36Sopenharmony_ci.endm
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci/* message scheduling pre-compute for rounds 0-15 */
62306a36Sopenharmony_ci.macro W_PRECALC_00_15_SSSE3
62306a36Sopenharmony_ci  .if ((i & 3) == 0)
62306a36Sopenharmony_ci	movdqu	(i*4)(BUFFER_PTR), W_TMP1
62306a36Sopenharmony_ci  .elseif ((i & 3) == 1)
62306a36Sopenharmony_ci	pshufb	XMM_SHUFB_BSWAP, W_TMP1
62306a36Sopenharmony_ci	movdqa	W_TMP1, W
62306a36Sopenharmony_ci  .elseif ((i & 3) == 2)
62306a36Sopenharmony_ci	paddd	(K_BASE), W_TMP1
62306a36Sopenharmony_ci  .elseif ((i & 3) == 3)
62306a36Sopenharmony_ci	movdqa  W_TMP1, WK(i&~3)
62306a36Sopenharmony_ci	W_PRECALC_ROTATE
62306a36Sopenharmony_ci  .endif
62306a36Sopenharmony_ci.endm
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci/* message scheduling pre-compute for rounds 16-31
62306a36Sopenharmony_ci *
62306a36Sopenharmony_ci * - calculating last 32 w[i] values in 8 XMM registers
62306a36Sopenharmony_ci * - pre-calculate K+w[i] values and store to mem, for later load by ALU add
62306a36Sopenharmony_ci *   instruction
62306a36Sopenharmony_ci *
62306a36Sopenharmony_ci * some "heavy-lifting" vectorization for rounds 16-31 due to w[i]->w[i-3]
62306a36Sopenharmony_ci * dependency, but improves for 32-79
62306a36Sopenharmony_ci */
62306a36Sopenharmony_ci.macro W_PRECALC_16_31_SSSE3
62306a36Sopenharmony_ci  # blended scheduling of vector and scalar instruction streams, one 4-wide
62306a36Sopenharmony_ci  # vector iteration / 4 scalar rounds
62306a36Sopenharmony_ci  .if ((i & 3) == 0)
62306a36Sopenharmony_ci	movdqa	W_minus_12, W
62306a36Sopenharmony_ci	palignr	$8, W_minus_16, W	# w[i-14]
62306a36Sopenharmony_ci	movdqa	W_minus_04, W_TMP1
62306a36Sopenharmony_ci	psrldq	$4, W_TMP1		# w[i-3]
62306a36Sopenharmony_ci	pxor	W_minus_08, W
62306a36Sopenharmony_ci  .elseif ((i & 3) == 1)
62306a36Sopenharmony_ci	pxor	W_minus_16, W_TMP1
62306a36Sopenharmony_ci	pxor	W_TMP1, W
62306a36Sopenharmony_ci	movdqa	W, W_TMP2
62306a36Sopenharmony_ci	movdqa	W, W_TMP1
62306a36Sopenharmony_ci	pslldq	$12, W_TMP2
62306a36Sopenharmony_ci  .elseif ((i & 3) == 2)
62306a36Sopenharmony_ci	psrld	$31, W
62306a36Sopenharmony_ci	pslld	$1, W_TMP1
62306a36Sopenharmony_ci	por	W, W_TMP1
62306a36Sopenharmony_ci	movdqa	W_TMP2, W
62306a36Sopenharmony_ci	psrld	$30, W_TMP2
62306a36Sopenharmony_ci	pslld	$2, W
62306a36Sopenharmony_ci  .elseif ((i & 3) == 3)
62306a36Sopenharmony_ci	pxor	W, W_TMP1
62306a36Sopenharmony_ci	pxor	W_TMP2, W_TMP1
62306a36Sopenharmony_ci	movdqa	W_TMP1, W
62306a36Sopenharmony_ci	paddd	K_XMM(K_BASE), W_TMP1
62306a36Sopenharmony_ci	movdqa	W_TMP1, WK(i&~3)
62306a36Sopenharmony_ci	W_PRECALC_ROTATE
62306a36Sopenharmony_ci  .endif
62306a36Sopenharmony_ci.endm
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci/* message scheduling pre-compute for rounds 32-79
62306a36Sopenharmony_ci *
62306a36Sopenharmony_ci * in SHA-1 specification: w[i] = (w[i-3] ^ w[i-8]  ^ w[i-14] ^ w[i-16]) rol 1
62306a36Sopenharmony_ci * instead we do equal:    w[i] = (w[i-6] ^ w[i-16] ^ w[i-28] ^ w[i-32]) rol 2
62306a36Sopenharmony_ci * allows more efficient vectorization since w[i]=>w[i-3] dependency is broken
62306a36Sopenharmony_ci */
62306a36Sopenharmony_ci.macro W_PRECALC_32_79_SSSE3
62306a36Sopenharmony_ci  .if ((i & 3) == 0)
62306a36Sopenharmony_ci	movdqa	W_minus_04, W_TMP1
62306a36Sopenharmony_ci	pxor	W_minus_28, W		# W is W_minus_32 before xor
62306a36Sopenharmony_ci	palignr	$8, W_minus_08, W_TMP1
62306a36Sopenharmony_ci  .elseif ((i & 3) == 1)
62306a36Sopenharmony_ci	pxor	W_minus_16, W
62306a36Sopenharmony_ci	pxor	W_TMP1, W
62306a36Sopenharmony_ci	movdqa	W, W_TMP1
62306a36Sopenharmony_ci  .elseif ((i & 3) == 2)
62306a36Sopenharmony_ci	psrld	$30, W
62306a36Sopenharmony_ci	pslld	$2, W_TMP1
62306a36Sopenharmony_ci	por	W, W_TMP1
62306a36Sopenharmony_ci  .elseif ((i & 3) == 3)
62306a36Sopenharmony_ci	movdqa	W_TMP1, W
62306a36Sopenharmony_ci	paddd	K_XMM(K_BASE), W_TMP1
62306a36Sopenharmony_ci	movdqa	W_TMP1, WK(i&~3)
62306a36Sopenharmony_ci	W_PRECALC_ROTATE
62306a36Sopenharmony_ci  .endif
62306a36Sopenharmony_ci.endm
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci.endm		// W_PRECALC_SSSE3
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci#define K1	0x5a827999
62306a36Sopenharmony_ci#define K2	0x6ed9eba1
62306a36Sopenharmony_ci#define K3	0x8f1bbcdc
62306a36Sopenharmony_ci#define K4	0xca62c1d6
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci.section .rodata
62306a36Sopenharmony_ci.align 16
62306a36Sopenharmony_ci
62306a36Sopenharmony_ciK_XMM_AR:
62306a36Sopenharmony_ci	.long K1, K1, K1, K1
62306a36Sopenharmony_ci	.long K2, K2, K2, K2
62306a36Sopenharmony_ci	.long K3, K3, K3, K3
62306a36Sopenharmony_ci	.long K4, K4, K4, K4
62306a36Sopenharmony_ci
62306a36Sopenharmony_ciBSWAP_SHUFB_CTL:
62306a36Sopenharmony_ci	.long 0x00010203
62306a36Sopenharmony_ci	.long 0x04050607
62306a36Sopenharmony_ci	.long 0x08090a0b
62306a36Sopenharmony_ci	.long 0x0c0d0e0f
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci.section .text
62306a36Sopenharmony_ci
62306a36Sopenharmony_ciW_PRECALC_SSSE3
62306a36Sopenharmony_ci.macro xmm_mov a, b
62306a36Sopenharmony_ci	movdqu	\a,\b
62306a36Sopenharmony_ci.endm
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci/*
62306a36Sopenharmony_ci * SSSE3 optimized implementation:
62306a36Sopenharmony_ci *
62306a36Sopenharmony_ci * extern "C" void sha1_transform_ssse3(struct sha1_state *state,
62306a36Sopenharmony_ci *					const u8 *data, int blocks);
62306a36Sopenharmony_ci *
62306a36Sopenharmony_ci * Note that struct sha1_state is assumed to begin with u32 state[5].
62306a36Sopenharmony_ci */
62306a36Sopenharmony_ciSHA1_VECTOR_ASM     sha1_transform_ssse3
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci.macro W_PRECALC_AVX
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci.purgem W_PRECALC_00_15
62306a36Sopenharmony_ci.macro  W_PRECALC_00_15
62306a36Sopenharmony_ci    W_PRECALC_00_15_AVX
62306a36Sopenharmony_ci.endm
62306a36Sopenharmony_ci.purgem W_PRECALC_16_31
62306a36Sopenharmony_ci.macro  W_PRECALC_16_31
62306a36Sopenharmony_ci    W_PRECALC_16_31_AVX
62306a36Sopenharmony_ci.endm
62306a36Sopenharmony_ci.purgem W_PRECALC_32_79
62306a36Sopenharmony_ci.macro  W_PRECALC_32_79
62306a36Sopenharmony_ci    W_PRECALC_32_79_AVX
62306a36Sopenharmony_ci.endm
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci.macro W_PRECALC_00_15_AVX
62306a36Sopenharmony_ci  .if ((i & 3) == 0)
62306a36Sopenharmony_ci	vmovdqu	(i*4)(BUFFER_PTR), W_TMP1
62306a36Sopenharmony_ci  .elseif ((i & 3) == 1)
62306a36Sopenharmony_ci	vpshufb	XMM_SHUFB_BSWAP, W_TMP1, W
62306a36Sopenharmony_ci  .elseif ((i & 3) == 2)
62306a36Sopenharmony_ci	vpaddd	(K_BASE), W, W_TMP1
62306a36Sopenharmony_ci  .elseif ((i & 3) == 3)
62306a36Sopenharmony_ci	vmovdqa	W_TMP1, WK(i&~3)
62306a36Sopenharmony_ci	W_PRECALC_ROTATE
62306a36Sopenharmony_ci  .endif
62306a36Sopenharmony_ci.endm
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci.macro W_PRECALC_16_31_AVX
62306a36Sopenharmony_ci  .if ((i & 3) == 0)
62306a36Sopenharmony_ci	vpalignr $8, W_minus_16, W_minus_12, W	# w[i-14]
62306a36Sopenharmony_ci	vpsrldq	$4, W_minus_04, W_TMP1		# w[i-3]
62306a36Sopenharmony_ci	vpxor	W_minus_08, W, W
62306a36Sopenharmony_ci	vpxor	W_minus_16, W_TMP1, W_TMP1
62306a36Sopenharmony_ci  .elseif ((i & 3) == 1)
62306a36Sopenharmony_ci	vpxor	W_TMP1, W, W
62306a36Sopenharmony_ci	vpslldq	$12, W, W_TMP2
62306a36Sopenharmony_ci	vpslld	$1, W, W_TMP1
62306a36Sopenharmony_ci  .elseif ((i & 3) == 2)
62306a36Sopenharmony_ci	vpsrld	$31, W, W
62306a36Sopenharmony_ci	vpor	W, W_TMP1, W_TMP1
62306a36Sopenharmony_ci	vpslld	$2, W_TMP2, W
62306a36Sopenharmony_ci	vpsrld	$30, W_TMP2, W_TMP2
62306a36Sopenharmony_ci  .elseif ((i & 3) == 3)
62306a36Sopenharmony_ci	vpxor	W, W_TMP1, W_TMP1
62306a36Sopenharmony_ci	vpxor	W_TMP2, W_TMP1, W
62306a36Sopenharmony_ci	vpaddd	K_XMM(K_BASE), W, W_TMP1
62306a36Sopenharmony_ci	vmovdqu	W_TMP1, WK(i&~3)
62306a36Sopenharmony_ci	W_PRECALC_ROTATE
62306a36Sopenharmony_ci  .endif
62306a36Sopenharmony_ci.endm
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci.macro W_PRECALC_32_79_AVX
62306a36Sopenharmony_ci  .if ((i & 3) == 0)
62306a36Sopenharmony_ci	vpalignr $8, W_minus_08, W_minus_04, W_TMP1
62306a36Sopenharmony_ci	vpxor	W_minus_28, W, W		# W is W_minus_32 before xor
62306a36Sopenharmony_ci  .elseif ((i & 3) == 1)
62306a36Sopenharmony_ci	vpxor	W_minus_16, W_TMP1, W_TMP1
62306a36Sopenharmony_ci	vpxor	W_TMP1, W, W
62306a36Sopenharmony_ci  .elseif ((i & 3) == 2)
62306a36Sopenharmony_ci	vpslld	$2, W, W_TMP1
62306a36Sopenharmony_ci	vpsrld	$30, W, W
62306a36Sopenharmony_ci	vpor	W, W_TMP1, W
62306a36Sopenharmony_ci  .elseif ((i & 3) == 3)
62306a36Sopenharmony_ci	vpaddd	K_XMM(K_BASE), W, W_TMP1
62306a36Sopenharmony_ci	vmovdqu	W_TMP1, WK(i&~3)
62306a36Sopenharmony_ci	W_PRECALC_ROTATE
62306a36Sopenharmony_ci  .endif
62306a36Sopenharmony_ci.endm
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci.endm    // W_PRECALC_AVX
62306a36Sopenharmony_ci
62306a36Sopenharmony_ciW_PRECALC_AVX
62306a36Sopenharmony_ci.purgem xmm_mov
62306a36Sopenharmony_ci.macro xmm_mov a, b
62306a36Sopenharmony_ci	vmovdqu	\a,\b
62306a36Sopenharmony_ci.endm
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci
62306a36Sopenharmony_ci/* AVX optimized implementation:
62306a36Sopenharmony_ci *  extern "C" void sha1_transform_avx(struct sha1_state *state,
62306a36Sopenharmony_ci *				       const u8 *data, int blocks);
62306a36Sopenharmony_ci */
62306a36Sopenharmony_ciSHA1_VECTOR_ASM     sha1_transform_avx