Speech Recognition Basic

Based on lecture notes from Dessi Puji Lestari ST, M.Eng., Ph.D. - STEI ITB

1. Introduction

  • Definisi AI
  • Lingkup AI
  • Speech processing
  • Alur umum
  • Studi kasus dan contoh aplikasi
  • Teknologi utama:
    • Signal processing
    • Pattern recognition
    • Natural language
    • Linguistics
    Komponen modern speech recognition:
    • Signal modeling
    • Network searching
    • Language understanding
  • Proses speech recognition:
    • Features: Gelombang tekanan suara ⇨ signal capturing ⇨ feature extraction
    • Classifier = f(Stored accoustic models, Features)
  • Konfigurasi utama:
    • Pelatihan: Korpus suara, pembuatan model akustik, korpus teks, pembuatan model bahasa
    • Pengenalan: Model akustik, pembuatan model kata, model kata, leksikon, model bahasa, classifier
  • Internal problem space
  • Perkembangan teknologi automatic speech recognition
  • Teknologi sekarang:
    • Machine learning
    • Statistical pattern recognition
    • Data driven approach
    • Stochastic modeling
    • Dynamic programming
    • Deep learning
  • Tantangan utama: variasi akustik pada suara
  • Goals
  • Course contents
  • Referensi

2. Speech Production and Classification

  • Isi:
    • Mekanisme produksi speech
    • Variasi pola suara fonetik
    • Elemen dari bahasa
  • Speech signal
    • Unit dasar dari speech signal adalah sound
    • Speech signal terdiri dari rangkaian sound
    • Klasifikasi suara pada speech dilakukan untuk mengerti speech
  • Terminologi:
    • Phoneme
    • Phonemics
    • Phonetics
    • Prosody

3. Capturing Speech

  • Isi:
    • Organ pendengaran
    • Penangkapan sinyal:
      1. Microphone
      2. Sampling
      3. Quantization
      4. Endpointing

4. Feature Extraction: MFCC

  • Mengekstrak fitur dari speech signal
  • Mel Feature Cepstrum Coefficients: MFCC
  • Fungsi audio signal
  • Menggabungkan fungsi sinusoid
  • Merepresentasikan informasi akustik:
    • Keeps all. Ambil semua informasi yang membedakan tiap phones
    • Compact. Hilangkan selain itu (informasi-informasi redundan)
  • Fitur-fitur yang paling membedakan
  • Informasi untuk diekstrak
  • Sumber dan filter
  • Fitur yang paling membedakan: Pola frekuensi
  • Fungsi utama Mel Frequency Cepstrum Coefficients: Merepresentasikan envelope dari power spectrum pada waktu singkat, secara akurat

5. Automatic Speech Recognition

5.1 Dynamic Time Wrapping

  • Isi:
    • Brute force
    • Dynamic time warping
    • Single template
    • Generalized template
  • Review feature computation
  • Rentang kapabilitas dari Automatic Speech Recognition Systems
  • Mengenali kata-kata yang terisolasi dengan template
  • Permasalahan: kata-kata yang sama tiap kali diucapkan bentuk sinyalnya berbeda
  • Non linear sequence alignment
  • Brute force
  • Dynamic programming for Speech Template Matching: Dynamic Time Warping
  • DTW: Single template
    • 2D Matrix of template-input frames of speech
    • Determining transitions: 0 degree arrow, 45 degree arrow, 60 degree arrow
    • Trellis (searching) structure
    • Distance (dissimilarity) measure: Euclidean
    • Distance (dissimilarity) measure: Manhattan, Weighted Minkowski Norms
    • DTW Algorithm: Nerapin dynamic programming untuk cari minimum cost path pada struktur Trellis
    • Calculate cost
    • Handling silence
    • Isolated word ASR
    • Time synchronous search
    • Dealing with Recognition Errors
    • Problem of DTW Algorithm
    • Confidence score
    • Hypothesis generation
    • N-Best list
    • DTW using scores

5.2 Hidden Markov Model

  • Review masalah perbedaan segmen kalimat dan DTW
  • Model transition structure
  • Transition behavior
  • Transition score: Viterbi training
  • Viterbi alignment
  • Hidden Markov Model (HMM)
    • Data sekarang dipengaruhi data sebelumnya (tdak independen)
    • Yang terobservasi adalah sequen dari state, yang tersembunyi adalah markov chain
    • Tiap posisi punya probabilitas bergerak ke posisi tertentu lainnya
  • HMM Structure:
    1. States and Transitions
    2. A set of probability distribution
  • HMM process
  • HMM as process abstraction of speech production
  • HMM as model of process
  • Topology and parameter of HMM
  • Log likelihood for Scores
  • Gaussian Distribution
  • Continuous Speech
  • Isolated Words vs Continuous Speech
  • Word-based Model
  • Phone based model

5.3 Bayesian Classification - Language Models

  • Bayesian Classification
  • Prior knowledge and probability
    • Pengetahuan yang telah diketahui sebelumnya
    • Probability of prior knowledge is called prior probability
  • Incorporating prior knowledge
    • Menggunakan prior knowledge pada speech recognition
    • Contoh: ketika 2 template sama-sama match, dipilih yang prior knowledge nya lebih besar
  • Incorporationg A posteriori probability
    • A posteriori digunakan untuk memilih kelas kata yang tepat dari input suara
    • Input: Observed speech
    • Output: Word classes
    • Given acoustic observations A, choose word sequence W which maximizes a posteriori probability P(W|A)
    • W* = argmax P(W|A)
  • Bayes rule, digunakan untuk mencari P(W|A), = P(A|W)P(W)/P(A)
  • Acoustic model
    • P(A|W) Probabilitas ngehasilin sequen observasi akustik A, given sequen kata W
    • Biasanya direpresentasikan menggunakan Hidden Markov Model
  • Language Model
    • Misal kedengernya "Mau pergi bajak wah", dengan language model bisa dapet "sawah"
    • Humans use tremendous amount of context to "fill in holes" in what they hear, and to disambiguate between confusable words
    • Such knowledge is called a language model (LM)
    • P(W) is a priori probability of word
    • Obtained from our expectation of the relative frequency of occurence of the word
  • Impact of LM on ASR: increasing the accuracy
  • Syntax and semantic
    • Human knowledge about context is far too rich to capture in a formal model
    • In particular, humans rely on meaning
    • Speech recognizers only use models relating to word sequences. i.e. focus on syntax rather than semantics
  • Importance of semantics
  • Types of grammar:
    1. Rule-based LM - Grammar
      1. Finite state grammars (FSGs)
      2. Context free grammars (CSGs)
    2. Statistical-based LM
  • Sentence HMM for FSG
  • Rule-based grammar
  • Grammar for free speech
  • N-grams
  • N-gram problems
  • Discounting and smoothing
  • Language weight
  • Optimizing language weight
  • Evaluation Metric for ASR
  • Word error rate
  • Typical configuration of LVCSR system
  • Gimana gabungin dua model itu ?

5.4 Deep Neural Network for Acoustic Modeling in Speech Recognition

  • Poin utama: DNN-HMM sebagai Current state of the art
  • GMM-HMM
    • Kebanyakan ASR system menggunakan:
      • HMM memodelkan variabilitas temporal
      • Gaussian mixture models nentuin seberapa sesuai state HMM dengan 1 frame dari koefisien representasi input akustik (contoh MFCC)
    • Apa itu variabilitas temporal ?
  • GMM-HMM untuk model akustik
    • Apa itu Gaussian Mixture Model ?
    • Pada GMM-HMM, GMM digunakan pada simpul terobservasi
  • Kelebihan GMM
    • Dapat memodelkan probabilitas distribusi dengan level akurasi cukup baik
    • Cukup mudah menyesuaikan dengan data latih dengan menggunakan algoritma EM (Expectation Maximization) Segmental K-Means
  • Kekurangan GMM
    • Ga efisien memodelkan data yg ada di / deket ruang non-linear (?)
    • Dimensi jauh lebih rendah dibanding jumlah parameter yang ada di jendela (?) dimana mengandung ratusan koefisien
  • Alternatif GMM
    • Feed-forward neural network
      • Menggunakan rangkaian frames koefisien (?) sebagai input
      • Menghasilkan peluang posterior dari state HMM sebagai output
    • Kelebihan:
      • ANN yang dilatih dengan turunan propagasi error berpotensi mempelajari dengan lebih baik data yang terletak dekat dengan ruang non-linear
    • ANN nya digunain untuk memprediksi state HMM dari jendela koefisien akustik - a single layer of non-linear hidden units
    • Dulu kinerja ANN belum ngelebihin GMM
  • DNN untuk model akustik
  • DNN-HMM hybrid system
  • Kelebihan dan kekurangan DNN
  • Tandem system
  • Kelebihan tandem system
  • Tantangan
  • Komentar si insan: Udah ada GMM, dengan berbagai kelebihannya, tapi tetep kurang baik untuk data yg deket ruang non-linear. Apa berati frame data akustik ketika mulai tidak linear ? misal tiba2 lonjak

6. Automatic Speech Synthesizer

  • Speech synthesize
    • Inti nya: konversi input teks ke synthetic speech
    • Dapat digunakan untuk membacakan teks pada email, sms, koran, serta dapat menjadi output suara untuk robot
  • Timelines of speech synthesis
    • Penelitian banyak di 40 taun terakhir
    • Quality and intelligibility metode terbaru udah bagus
  • Research about speech synthesizing
    • 1791 - Wolfgang von Kempelen
    • 1846 - Euphonia
    • 1960 - First synthesis by computer (TTS)
  • Concatenative Synthesis
    • Yang banyak dipake sekarang
  • Modern Text-To-Speech (TTS)
    • Yang banyak dipake sekarang
  • Process in speech synthesizer
  • Two main components: NLP DSP
  • NLP
  • Text analyzer preprocessor
  • Text analysis
  • Syllable detector and Letter-to-Sound converter
  • Prosody
  • Intonation making
  • DSP
  • HMM-based speech synthesizer
  • Concatenative synthesis
  • Evaluation methods
    • Semantically Unpredictable Score
    • Mean Opinion Score (MOS)
  • Summary
    • Synthesis bisa dibagi menjadi 2:
      1. NLP
        • Text analysis
        • Linguistic analysis
      2. DSP
        • Waveform synthesis: diphone voices, unit selection voices

7. Speaker Recognition

  • Speech as biometric
  • Biometric criteria
  • Speech characteristics
  • Speaker recognition
    • Verification
    • Idenfification
    • Detection
    • Tracking
    • Diarization