modules/echo-cancel/adrian-aec.c

53a5a1b3Sopenharmony_ci/* aec.cpp
53a5a1b3Sopenharmony_ci *
53a5a1b3Sopenharmony_ci * Copyright (C) DFS Deutsche Flugsicherung (2004, 2005).
53a5a1b3Sopenharmony_ci * All Rights Reserved.
53a5a1b3Sopenharmony_ci *
53a5a1b3Sopenharmony_ci * Acoustic Echo Cancellation NLMS-pw algorithm
53a5a1b3Sopenharmony_ci *
53a5a1b3Sopenharmony_ci * Version 0.3 filter created with www.dsptutor.freeuk.com
53a5a1b3Sopenharmony_ci * Version 0.3.1 Allow change of stability parameter delta
53a5a1b3Sopenharmony_ci * Version 0.4 Leaky Normalized LMS - pre whitening algorithm
53a5a1b3Sopenharmony_ci */
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci#ifndef _GNU_SOURCE
53a5a1b3Sopenharmony_ci#define _GNU_SOURCE
53a5a1b3Sopenharmony_ci#endif
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci#ifdef HAVE_CONFIG_H
53a5a1b3Sopenharmony_ci#include <config.h>
53a5a1b3Sopenharmony_ci#endif
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci#include <math.h>
53a5a1b3Sopenharmony_ci#include <string.h>
53a5a1b3Sopenharmony_ci#include <stdint.h>
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci#include <pulse/xmalloc.h>
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci#include "adrian-aec.h"
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci#ifndef DISABLE_ORC
53a5a1b3Sopenharmony_ci#include "adrian-aec-orc-gen.h"
53a5a1b3Sopenharmony_ci#endif
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci#ifdef __SSE__
53a5a1b3Sopenharmony_ci#include <xmmintrin.h>
53a5a1b3Sopenharmony_ci#endif
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci/* Vector Dot Product */
53a5a1b3Sopenharmony_cistatic REAL dotp(REAL a[], REAL b[])
53a5a1b3Sopenharmony_ci{
53a5a1b3Sopenharmony_ci  REAL sum0 = 0.0f, sum1 = 0.0f;
53a5a1b3Sopenharmony_ci  int j;
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci  for (j = 0; j < NLMS_LEN; j += 2) {
53a5a1b3Sopenharmony_ci    // optimize: partial loop unrolling
53a5a1b3Sopenharmony_ci    sum0 += a[j] * b[j];
53a5a1b3Sopenharmony_ci    sum1 += a[j + 1] * b[j + 1];
53a5a1b3Sopenharmony_ci  }
53a5a1b3Sopenharmony_ci  return sum0 + sum1;
53a5a1b3Sopenharmony_ci}
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_cistatic REAL dotp_sse(REAL a[], REAL b[])
53a5a1b3Sopenharmony_ci{
53a5a1b3Sopenharmony_ci#ifdef __SSE__
53a5a1b3Sopenharmony_ci  /* This is taken from speex's inner product implementation */
53a5a1b3Sopenharmony_ci  int j;
53a5a1b3Sopenharmony_ci  REAL sum;
53a5a1b3Sopenharmony_ci  __m128 acc = _mm_setzero_ps();
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci  for (j=0;j<NLMS_LEN;j+=8)
53a5a1b3Sopenharmony_ci  {
53a5a1b3Sopenharmony_ci    acc = _mm_add_ps(acc, _mm_mul_ps(_mm_load_ps(a+j), _mm_loadu_ps(b+j)));
53a5a1b3Sopenharmony_ci    acc = _mm_add_ps(acc, _mm_mul_ps(_mm_load_ps(a+j+4), _mm_loadu_ps(b+j+4)));
53a5a1b3Sopenharmony_ci  }
53a5a1b3Sopenharmony_ci  acc = _mm_add_ps(acc, _mm_movehl_ps(acc, acc));
53a5a1b3Sopenharmony_ci  acc = _mm_add_ss(acc, _mm_shuffle_ps(acc, acc, 0x55));
53a5a1b3Sopenharmony_ci  _mm_store_ss(&sum, acc);
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci  return sum;
53a5a1b3Sopenharmony_ci#else
53a5a1b3Sopenharmony_ci  return dotp(a, b);
53a5a1b3Sopenharmony_ci#endif
53a5a1b3Sopenharmony_ci}
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ciAEC* AEC_init(int RATE, int have_vector)
53a5a1b3Sopenharmony_ci{
53a5a1b3Sopenharmony_ci  AEC *a = pa_xnew0(AEC, 1);
53a5a1b3Sopenharmony_ci  a->j = NLMS_EXT;
53a5a1b3Sopenharmony_ci  AEC_setambient(a, NoiseFloor);
53a5a1b3Sopenharmony_ci  a->dfast = a->dslow = M75dB_PCM;
53a5a1b3Sopenharmony_ci  a->xfast = a->xslow = M80dB_PCM;
53a5a1b3Sopenharmony_ci  a->gain = 1.0f;
53a5a1b3Sopenharmony_ci  a->Fx = IIR1_init(2000.0f/RATE);
53a5a1b3Sopenharmony_ci  a->Fe = IIR1_init(2000.0f/RATE);
53a5a1b3Sopenharmony_ci  a->cutoff = FIR_HP_300Hz_init();
53a5a1b3Sopenharmony_ci  a->acMic = IIR_HP_init();
53a5a1b3Sopenharmony_ci  a->acSpk = IIR_HP_init();
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci  a->aes_y2 = M0dB;
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci  a->fdwdisplay = -1;
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci  if (have_vector) {
53a5a1b3Sopenharmony_ci      /* Get a 16-byte aligned location */
53a5a1b3Sopenharmony_ci      a->w = (REAL *) (((uintptr_t) a->w_arr) - (((uintptr_t) a->w_arr) % 16) + 16);
53a5a1b3Sopenharmony_ci      a->dotp = dotp_sse;
53a5a1b3Sopenharmony_ci  } else {
53a5a1b3Sopenharmony_ci      /* We don't care about alignment, just use the array as-is */
53a5a1b3Sopenharmony_ci      a->w = a->w_arr;
53a5a1b3Sopenharmony_ci      a->dotp = dotp;
53a5a1b3Sopenharmony_ci  }
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci  return a;
53a5a1b3Sopenharmony_ci}
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_civoid AEC_done(AEC *a) {
53a5a1b3Sopenharmony_ci    pa_assert(a);
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci    pa_xfree(a->Fx);
53a5a1b3Sopenharmony_ci    pa_xfree(a->Fe);
53a5a1b3Sopenharmony_ci    pa_xfree(a->acMic);
53a5a1b3Sopenharmony_ci    pa_xfree(a->acSpk);
53a5a1b3Sopenharmony_ci    pa_xfree(a->cutoff);
53a5a1b3Sopenharmony_ci    pa_xfree(a);
53a5a1b3Sopenharmony_ci}
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci// Adrian soft decision DTD
53a5a1b3Sopenharmony_ci// (Dual Average Near-End to Far-End signal Ratio DTD)
53a5a1b3Sopenharmony_ci// This algorithm uses exponential smoothing with different
53a5a1b3Sopenharmony_ci// ageing parameters to get fast and slow near-end and far-end
53a5a1b3Sopenharmony_ci// signal averages. The ratio of NFRs term
53a5a1b3Sopenharmony_ci// (dfast / xfast) / (dslow / xslow) is used to compute the stepsize
53a5a1b3Sopenharmony_ci// A ratio value of 2.5 is mapped to stepsize 0, a ratio of 0 is
53a5a1b3Sopenharmony_ci// mapped to 1.0 with a limited linear function.
53a5a1b3Sopenharmony_cistatic float AEC_dtd(AEC *a, REAL d, REAL x)
53a5a1b3Sopenharmony_ci{
53a5a1b3Sopenharmony_ci  float ratio, stepsize;
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci  // fast near-end and far-end average
53a5a1b3Sopenharmony_ci  a->dfast += ALPHAFAST * (fabsf(d) - a->dfast);
53a5a1b3Sopenharmony_ci  a->xfast += ALPHAFAST * (fabsf(x) - a->xfast);
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci  // slow near-end and far-end average
53a5a1b3Sopenharmony_ci  a->dslow += ALPHASLOW * (fabsf(d) - a->dslow);
53a5a1b3Sopenharmony_ci  a->xslow += ALPHASLOW * (fabsf(x) - a->xslow);
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci  if (a->xfast < M70dB_PCM) {
53a5a1b3Sopenharmony_ci    return 0.0f;   // no Spk signal
53a5a1b3Sopenharmony_ci  }
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci  if (a->dfast < M70dB_PCM) {
53a5a1b3Sopenharmony_ci    return 0.0f;   // no Mic signal
53a5a1b3Sopenharmony_ci  }
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci  // ratio of NFRs
53a5a1b3Sopenharmony_ci  ratio = (a->dfast * a->xslow) / (a->dslow * a->xfast);
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci  // Linear interpolation with clamping at the limits
53a5a1b3Sopenharmony_ci  if (ratio < STEPX1)
53a5a1b3Sopenharmony_ci    stepsize = STEPY1;
53a5a1b3Sopenharmony_ci  else if (ratio > STEPX2)
53a5a1b3Sopenharmony_ci    stepsize = STEPY2;
53a5a1b3Sopenharmony_ci  else
53a5a1b3Sopenharmony_ci    stepsize = STEPY1 + (STEPY2 - STEPY1) * (ratio - STEPX1) / (STEPX2 - STEPX1);
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci  return stepsize;
53a5a1b3Sopenharmony_ci}
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_cistatic void AEC_leaky(AEC *a)
53a5a1b3Sopenharmony_ci// The xfast signal is used to charge the hangover timer to Thold.
53a5a1b3Sopenharmony_ci// When hangover expires (no Spk signal for some time) the vector w
53a5a1b3Sopenharmony_ci// is erased. This is my implementation of Leaky NLMS.
53a5a1b3Sopenharmony_ci{
53a5a1b3Sopenharmony_ci  if (a->xfast >= M70dB_PCM) {
53a5a1b3Sopenharmony_ci    // vector w is valid for hangover Thold time
53a5a1b3Sopenharmony_ci    a->hangover = Thold;
53a5a1b3Sopenharmony_ci  } else {
53a5a1b3Sopenharmony_ci    if (a->hangover > 1) {
53a5a1b3Sopenharmony_ci      --(a->hangover);
53a5a1b3Sopenharmony_ci    } else if (1 == a->hangover) {
53a5a1b3Sopenharmony_ci      --(a->hangover);
53a5a1b3Sopenharmony_ci      // My Leaky NLMS is to erase vector w when hangover expires
53a5a1b3Sopenharmony_ci      memset(a->w_arr, 0, sizeof(a->w_arr));
53a5a1b3Sopenharmony_ci    }
53a5a1b3Sopenharmony_ci  }
53a5a1b3Sopenharmony_ci}
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci#if 0
53a5a1b3Sopenharmony_civoid AEC::openwdisplay() {
53a5a1b3Sopenharmony_ci  // open TCP connection to program wdisplay.tcl
53a5a1b3Sopenharmony_ci  fdwdisplay = socket_async("127.0.0.1", 50999);
53a5a1b3Sopenharmony_ci};
53a5a1b3Sopenharmony_ci#endif
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_cistatic REAL AEC_nlms_pw(AEC *a, REAL d, REAL x_, float stepsize)
53a5a1b3Sopenharmony_ci{
53a5a1b3Sopenharmony_ci  REAL e;
53a5a1b3Sopenharmony_ci  REAL ef;
53a5a1b3Sopenharmony_ci  a->x[a->j] = x_;
53a5a1b3Sopenharmony_ci  a->xf[a->j] = IIR1_highpass(a->Fx, x_);     // pre-whitening of x
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci  // calculate error value
53a5a1b3Sopenharmony_ci  // (mic signal - estimated mic signal from spk signal)
53a5a1b3Sopenharmony_ci  e = d;
53a5a1b3Sopenharmony_ci  if (a->hangover > 0) {
53a5a1b3Sopenharmony_ci    e -= a->dotp(a->w, a->x + a->j);
53a5a1b3Sopenharmony_ci  }
53a5a1b3Sopenharmony_ci  ef = IIR1_highpass(a->Fe, e);     // pre-whitening of e
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci  // optimize: iterative dotp(xf, xf)
53a5a1b3Sopenharmony_ci  a->dotp_xf_xf += (a->xf[a->j] * a->xf[a->j] - a->xf[a->j + NLMS_LEN - 1] * a->xf[a->j + NLMS_LEN - 1]);
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci  if (stepsize > 0.0f) {
53a5a1b3Sopenharmony_ci    // calculate variable step size
53a5a1b3Sopenharmony_ci    REAL mikro_ef = stepsize * ef / a->dotp_xf_xf;
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci#ifdef DISABLE_ORC
53a5a1b3Sopenharmony_ci    // update tap weights (filter learning)
53a5a1b3Sopenharmony_ci    int i;
53a5a1b3Sopenharmony_ci    for (i = 0; i < NLMS_LEN; i += 2) {
53a5a1b3Sopenharmony_ci      // optimize: partial loop unrolling
53a5a1b3Sopenharmony_ci      a->w[i] += mikro_ef * a->xf[i + a->j];
53a5a1b3Sopenharmony_ci      a->w[i + 1] += mikro_ef * a->xf[i + a->j + 1];
53a5a1b3Sopenharmony_ci    }
53a5a1b3Sopenharmony_ci#else
53a5a1b3Sopenharmony_ci    update_tap_weights(a->w, &a->xf[a->j], mikro_ef, NLMS_LEN);
53a5a1b3Sopenharmony_ci#endif
53a5a1b3Sopenharmony_ci  }
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci  if (--(a->j) < 0) {
53a5a1b3Sopenharmony_ci    // optimize: decrease number of memory copies
53a5a1b3Sopenharmony_ci    a->j = NLMS_EXT;
53a5a1b3Sopenharmony_ci    memmove(a->x + a->j + 1, a->x, (NLMS_LEN - 1) * sizeof(REAL));
53a5a1b3Sopenharmony_ci    memmove(a->xf + a->j + 1, a->xf, (NLMS_LEN - 1) * sizeof(REAL));
53a5a1b3Sopenharmony_ci  }
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci  // Saturation
53a5a1b3Sopenharmony_ci  if (e > MAXPCM) {
53a5a1b3Sopenharmony_ci    return MAXPCM;
53a5a1b3Sopenharmony_ci  } else if (e < -MAXPCM) {
53a5a1b3Sopenharmony_ci    return -MAXPCM;
53a5a1b3Sopenharmony_ci  } else {
53a5a1b3Sopenharmony_ci    return e;
53a5a1b3Sopenharmony_ci  }
53a5a1b3Sopenharmony_ci}
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ciint AEC_doAEC(AEC *a, int d_, int x_)
53a5a1b3Sopenharmony_ci{
53a5a1b3Sopenharmony_ci  REAL d = (REAL) d_;
53a5a1b3Sopenharmony_ci  REAL x = (REAL) x_;
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci  // Mic Highpass Filter - to remove DC
53a5a1b3Sopenharmony_ci  d = IIR_HP_highpass(a->acMic, d);
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci  // Mic Highpass Filter - cut-off below 300Hz
53a5a1b3Sopenharmony_ci  d = FIR_HP_300Hz_highpass(a->cutoff, d);
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci  // Amplify, for e.g. Soundcards with -6dB max. volume
53a5a1b3Sopenharmony_ci  d *= a->gain;
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci  // Spk Highpass Filter - to remove DC
53a5a1b3Sopenharmony_ci  x = IIR_HP_highpass(a->acSpk, x);
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci  // Double Talk Detector
53a5a1b3Sopenharmony_ci  a->stepsize = AEC_dtd(a, d, x);
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci  // Leaky (ageing of vector w)
53a5a1b3Sopenharmony_ci  AEC_leaky(a);
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci  // Acoustic Echo Cancellation
53a5a1b3Sopenharmony_ci  d = AEC_nlms_pw(a, d, x, a->stepsize);
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci#if 0
53a5a1b3Sopenharmony_ci  if (fdwdisplay >= 0) {
53a5a1b3Sopenharmony_ci    if (++dumpcnt >= (WIDEB*RATE/10)) {
53a5a1b3Sopenharmony_ci      // wdisplay creates 10 dumps per seconds = large CPU load!
53a5a1b3Sopenharmony_ci      dumpcnt = 0;
53a5a1b3Sopenharmony_ci      write(fdwdisplay, ws, DUMP_LEN*sizeof(float));
53a5a1b3Sopenharmony_ci      // we don't check return value. This is not production quality!!!
53a5a1b3Sopenharmony_ci      memset(ws, 0, sizeof(ws));
53a5a1b3Sopenharmony_ci    } else {
53a5a1b3Sopenharmony_ci      int i;
53a5a1b3Sopenharmony_ci      for (i = 0; i < DUMP_LEN; i += 2) {
53a5a1b3Sopenharmony_ci        // optimize: partial loop unrolling
53a5a1b3Sopenharmony_ci        ws[i] += w[i];
53a5a1b3Sopenharmony_ci        ws[i + 1] += w[i + 1];
53a5a1b3Sopenharmony_ci      }
53a5a1b3Sopenharmony_ci    }
53a5a1b3Sopenharmony_ci  }
53a5a1b3Sopenharmony_ci#endif
53a5a1b3Sopenharmony_ci
53a5a1b3Sopenharmony_ci  return (int) d;
53a5a1b3Sopenharmony_ci}