Speech Recognition Basic

Based on lecture notes from Dessi Puji Lestari ST, M.Eng., Ph.D. - STEI ITB

1. Introduction

  • Definisi AI
  • Lingkup AI
  • Speech processing
  • Alur umum
  • Studi kasus dan contoh aplikasi
  • Teknologi utama:
    • Signal processing
    • Pattern recognition
    • Natural language
    • Linguistics
    Komponen modern speech recognition:
    • Signal modeling
    • Network searching
    • Language understanding
  • Proses speech recognition:
    • Features: Gelombang tekanan suara ⇨ signal capturing ⇨ feature extraction
    • Classifier = f(Stored accoustic models, Features)
  • Konfigurasi utama:
    • Pelatihan: Korpus suara, pembuatan model akustik, korpus teks, pembuatan model bahasa
    • Pengenalan: Model akustik, pembuatan model kata, model kata, leksikon, model bahasa, classifier
  • Internal problem space
  • Perkembangan teknologi automatic speech recognition
  • Teknologi sekarang:
    • Machine learning
    • Statistical pattern recognition
    • Data driven approach
    • Stochastic modeling
    • Dynamic programming
    • Deep learning
  • Tantangan utama: variasi akustik pada suara
  • Goals
  • Course contents
  • Referensi

2. Speech Production and Classification

  • Isi:
    • Mekanisme produksi speech
    • Variasi pola suara fonetik
    • Elemen dari bahasa
  • Speech signal
    • Unit dasar dari speech signal adalah sound
    • Speech signal terdiri dari rangkaian sound
    • Klasifikasi suara pada speech dilakukan untuk mengerti speech
  • Terminologi:
    • Phoneme
    • Phonemics
    • Phonetics
    • Prosody

3. Capturing Speech

  • Isi:
    • Organ pendengaran
    • Penangkapan sinyal:
      1. Microphone
      2. Sampling
      3. Quantization
      4. Endpointing

4. Feature Extraction: MFCC

  • Mengekstrak fitur dari speech signal
  • Mel Feature Cepstrum Coefficients: MFCC
  • Fungsi audio signal
  • Menggabungkan fungsi sinusoid
  • Merepresentasikan informasi akustik:
    • Keeps all. Ambil semua informasi yang membedakan tiap phones
    • Compact. Hilangkan selain itu (informasi-informasi redundan)
  • Fitur-fitur yang paling membedakan
  • Informasi untuk diekstrak
  • Sumber dan filter
  • Fitur yang paling membedakan: Pola frekuensi
  • Fungsi utama Mel Frequency Cepstrum Coefficients: Merepresentasikan envelope dari power spectrum pada waktu singkat, secara akurat

5. Automatic Speech Recognition

5.1 Dynamic Time Wrapping

  • Isi:
    • Brute force
    • Dynamic time warping
    • Single template
    • Generalized template
  • Review feature computation
  • Rentang kapabilitas dari Automatic Speech Recognition Systems
  • Mengenali kata-kata yang terisolasi dengan template
  • Permasalahan: kata-kata yang sama tiap kali diucapkan bentuk sinyalnya berbeda
  • Non linear sequence alignment
  • Brute force
  • Dynamic programming for Speech Template Matching: Dynamic Time Warping
  • DTW: Single template
    • 2D Matrix of template-input frames of speech
    • Determining transitions: 0 degree arrow, 45 degree arrow, 60 degree arrow
    • Trellis (searching) structure
    • Distance (dissimilarity) measure: Euclidean
    • Distance (dissimilarity) measure: Manhattan, Weighted Minkowski Norms
    • DTW Algorithm: Nerapin dynamic programming untuk cari minimum cost path pada struktur Trellis
    • Calculate cost
    • Handling silence
    • Isolated word ASR
    • Time synchronous search
    • Dealing with Recognition Errors
    • Problem of DTW Algorithm
    • Confidence score
    • Hypothesis generation
    • N-Best list
    • DTW using scores