Pengertian dan Contoh Skripsi : Pengenalan Percakapan

2.4. Pengenalan Percakapan
Speech Recognition atau pengenalan percakapan adalah proses yang mengkonversi  sinyal  percakapan  menjadi  kata-kata  teridentifikasi,  dengan melalui serangkaian algoritma12). Aplikasi-aplikasi yang terlahir dari teknologi tersebut adalah voice dialing (contohnya call home”), call routing (contohnya “I would like to make a collect call), simple data entry, dan persiapan membuat dokumen terstruktur.

2.4.1.   Sejarah Pengenalan Percakapan
Penelitian dalam Pengenalan Percakapan Otomatis (Automatic Speec Recognition—ASR) sudah dimulai lebih dari 60 tahun yang lalu5). Percobaan  pertama  untuk  membuat  sistem  ASR  dengan  mesin berlangsung pada tahun 1950an, saat banyak peneliti berusaha mengeksploitasi ide-ide mendasar dari fonetika akustik. Pada tahun 1952 di Laboraturium Bell, Davis, Biddulph, dan Balashek membangun sebuah sistem untuk mengenali digit yang diucapkan oleh satu pembicara. Sistem tersebut bekerja dengan cara mengukur resonansi spektral di daerah vokal pada tiap digitnya. Dengan usaha mandiri di RCA Laboratories  pada tahun 1956, Olson dan Belar mencoba untuk mengenali 10 suku kata berbeda pada satu pembicara,  yang kemudian diwujudkan dalam 10 kata dengan suku kata satu (monosyllabic words). Sistem tersebut juga bekerja dengan pengukuran spektral terutama di daerah vokal. Pada tahun 1959, pada sebuah Universitas di Inggris, Fry dan Denes mencoba membuat pengenal fonem untuk mengenali 4 vokal dan 9 konsonan. Mereka menggunakan Spectrum Analyzer dan pattern matcher untuk membuat keputusan pengenalan. Aspek yang tergolong baru dalam penelitian ini adalah penggunaan informasi statistik tentang urutan fonem di Inggris yang diperbolehkan (sintaks bahasa yang belum sempurna). Kasusnya adalah untuk meningkatkan akurasi  fonem keseluruhan untuk kata-kata yang terdiri dari dua fonem atau lebih. Usaha lain yang dilakukan dalam periode ini adalah pengenal vokal dari Forgie and Forgie, yang dibuat di MIT  Lincoln  Laboratories  pada taun 1959,  yang mana mengenali 10 vokal yang melekat dalam format /b/-vokal-/t/ tanpa tergantung pada pembicaranya. Pada sistem ini digunakan Filter Bank Analyzer untuk menghasilkan  informasi  spektral,  dan   estimasi  variasi   waktu   dari resonansi pernapasan manusia dibuat untuk menentukan vokal mana yang dibicarakan.

Pada tahun 1960an beberapa ide-ide mendasar dalam pengenalan percakapan bermunculan dan dipublikasikan. Namun, ide-ide tersebut berawal  di  Jepang  saat  beberapa  peneliti  Jepang  membuat  special- purpose hardware sebagai bagian dari sistemnya. Satu sistemnya, yang dibuat oleh Suzuki dan Nakata dari Lab Radio Research di Tokyo, adalah perangkat  keras  pengenal  vokal.  Sistem  tersebut  menggunakan elaborated filter bank spectrum analyzer yang menghubungkan semua output dari tiap kanal analis spektrum (dengan diberi nilai) ke sirkuit vowel-decision. Disini menggunakan skema logis keputusan mayoritas yang digunakan untuk memilih vokal yang diucapkan. Perangkat keras Jepang lainnya yang dibuat oleh Doshita dari Universitas Kyoto pada tahun   1962   adalah   pengenal   fonem Dalam   perangkat   keras   ini, diperlukan  pembagi  percakapan  dengan  analisis  zero-crossing  dari banyak daerah berbeda di suara input untuk menghasilkan output yang terkenali. Usaha orang Jepang yang ketiga adalah perangkat keras pengenal digit dari Nagata di Laboratorium NEC pada tahun 1963. Perangkat keras ini merupakan yang paling terkenal sebagai percobaan pertama dalam pengenalan percakapan di NEC dan merupakan awal dari program riset yang lama dan sangat produktif. Sekitar tahun 1960an dibuat tiga proyek yang berdampak sangat besar dalam penelitian dan pengembangan pengenalan percakapan selama 20 tahun terakhir. Proyek pertama adalah hasil usaha Martin dan teman- temannya  di  Laboratorium  RCA,  yang  dimulai  pada  akhir  1960an. Proyek ini mengembangkan solusi realistis untuk permasalahan yang berhubungan dengan ketidakseragaman skala waktu pada kasus-kasus percakapan.  Martin  mengembangkan  beberapa  metoda  normalisasi- waktu, berdasarkan pada kemampuan untuk mendeteksi awal dan akhir percakapan, yang secara signifikan mengurangi variasi nilai pengenalan. Martin mengembangkan metode tersebut dan berhasil mempublikasikan produk   pengenalan  percakapannya  dengan  dibantu  oleh  Threshold Technology Company. Pada saat itu pula, di The Soviet Union, Vintsyuk mengusulkan penggunaan metode dynamic programming untuk menyamaratakan waktu pada sepasang ungkapan, yang kemudian dinamakan metoda dynamic time warping. Walaupun inti dari konsep dynamic time warping dikembangkan di dalam proyek Vintsyuk, namun proyek ini tidak terdengar sampai ke belahan bumi bagian barat hingga awal 1980an, dimana metode-metode formal sudah diusulkan dan diimplementasikan oleh peneliti lain.

Karya  sukses  terakhir  pada  tahun  1960an  adalah  penelitian perintis dari Reddy di bidang pengenalan percakapan kontinyu dengan penelusuran dinamis fonem-fonem. Penelitian Reddy selanjutnya berkembang menjadi program riset pengenalan percakapan di Universitas Carnegie Mellon yang sampai saat ini merupakan pemimpin sistem pengenalan percakapan kontinyu.
Pada tahun 1970an, riset pengenalan percakapan meraih banyak pengembangan-pengembangan. Pertama pengembangan di bidang kata terisolasi atau pengenalan ungkapan diskrit oleh Velichko dan Zagoruyko di Russia, Sakoe dan Chiba di Jepang, dan Itakura di Amerika. Velichko dan Zagoruyko mempelajari pengembangan ide-ide pengenalan-pola dalam pengenalan percakapan. Chiba dan Sakoe meneliti bagaimana Dynamic  Programming  dapat  diaplikasikan  dengan  baik.  Penelitian
Itakura menunjukkan ide Linear Predictive Coding (LPC), yang pada saat itu  sudah  pernah  digunakan  dalam  Low-bit-rate  Speech  Coding,  dan dapat dikembangkan dalam sistem rekognisi percakapan melalui penggunaan  pengukuran  jarak  teratur  berdasarkan  parameter  spektral LPC.
Pengembangan lain di tahun 1970an adalah awal dari penelitian panjang dalam pengenalan percakapan di IBM dimana para peneliti mempelajari tiga tugas berbeda selama hampir dua dekade. Tiga tugas tersebut adalah : New Raleigh Language untuk operasi basis data sederhana, The Laser Patent Text Language untuk merekam paten laser, dan tugas korespondensi kantor, serta Tangora, untuk pengucapan memo sederhana.



Pada AT&T Bell Labs, peneliti memulai serangkaian eksperimen yang bertujuan membuat sistem rekognisi percakapan yang benar-benar tidak tergantung pada pembicaranya. Untuk mencapainya, algoritma clustering digunakan untuk menentukan beberapa pola berbeda yang diperlukan  untuk  merepresentasikan  semua  variasi  kata-kata  berbeda pada populasi pengguna yang luas. Penelitian ini telah dikembangkan selama lebih dari 10 tahun sehingga tehnik untuk membuat pola bebas- pembicara (Independent Speaker) saat ini dapat digunakan dengan bebas.Setelah rekognisi kata terisolasi menjadi kunci fokus riset di tahun 1970an, masalah rekognisi kata tersambung menjadi fokus  riset pada tahun 1980an. Tujuannya adalah untuk menciptakan sistem kokoh yang mampu mengenali serangkaian kata-kata yang diucapkan dengan lancar berdasarkan pada penyesuaian pola-pola berkesinambungan pada kata- kata individu. Banyak algoritma pengenalan kata tersambung yang diformulasikan dan diimplementasikan, diantaranya :
-    pendekatan pemrograman dinamis dua-tingkat oleh Sakoe di Nippon Electric Corporation (NEC)
-     metode one-pass oleh Birdle dan Brown di Joint Speech Research Unit (JSRU) di Inggris
-     pendekatan pembangunan tingkat oleh Myers dan Rabiner di Bell Labs, dan
-    pendekatan pembuatan tingkat singkronisasi kerangka oleh Lee dan Rabiner di Bell Labs.

Tiap prosedur penyesuaian ‘optimal’ ini memiliki keuntungan implementasinya masing-masing, yang dieksploitasi untuk banyak tugas. Penelitian percakapan pada tahun 1980an dicirikan dengan adanya pergeseran teknologi dari pendekatan berdasarkan cetakan (template) ke metoda   modeling   statistikal—terutama  pendekatan  Hidden   Markov Model (HMM). Walaupun metodologi HMM dapat dipahami oleh beberapa laboratorium (terutama IBM,  Institute for  Defense Analyses (IDA),   dan  Dragon   Systems),  namun  belum  dapat  disebarluaskan sebelum pertengahan tahun 1980an, dimana pada saat itu tehnik ini telah diaplikasikan ke seluruh laboratorium riset pengenalan percakapan di dunia.
Teknologi ‘baru’ lainnya yang dikenalkan di akhir tahun 1980an adalah ide atau gagasan mengaplikasikan jaringan syaraf tiruan (JST) atau Artificial Neural Network (ANN) pada permasalahan pengenalan percakapan. JST  pertama kali  dikenalkan pada  tahun 1950an, namun tidak pernah terbukti berguna karena memiliki banyak masalah dalam prakteknya. Namun, pada tahun 1980an, pemahaman mendalam tentang keuntungan dan kerugian dari JST dipelajari, sebagaimana dengan hubungan teknologi tersebut dengan metode klasifikasi sinyal klasik. Beberapa cara baru untuk mengimplementasikan sistem juga dikenalkan.
Tahun 1980an merupakan dekade dimana motivasi utama diberikan untuk mengembangkan sistem pengenalan percakapan kontinyu oleh komunitas Defense Advanced Research Projects Agency (DARPA). Sponsor program riset besar ini bertujuan meraih akurasi tinggi untuk pengenalan percakapan kontinyu 1000 kata. Kontribusi riset utama dihasilkan  oleh  CMU  (juga  dikenal  dengan  SPHINX  System),  BBN dengan Bylos System, Lincoln Labs, SRI, MIT, dan AT&T Bell Labs. Program DARPA  berlanjut  sampai  tahun  1990an,  dengan  pergeseran tekanan kepada bahasa natural di pengenalnya. Pada waktu yang sama, teknologi pengenalan percakapan telah banyak digunakan dalam jaringan telefon untuk mengotomasikan juga mengembangkan servis-servis operator.

2.4.2.   Hidden Markov Model
Hidden Markov Model (HMM) merupakan pendekatan yang dapat mengelompokkan sifat-sifat spektral dari tiap bagian suara pada beberapa pola4). Teori dasar dari HMM adalah dengan mengelompokkan sinyal suara  sebagai  proses  parametrik  acak,  dan  parameter  proses  tersebut dapat dikenali (diperkirakan) dalam akurasi yang tepat.

2.4.2.1.Arsitektur Hidden Markov Model
Diagram dibawah menunjukkan arsitektur umum dari HMM, seperti disajikan pada gambar 2.1. Tiap bentuk oval mewakili variabel random yang dapat mengambil nilai. Variabel random x(t) yaitu nilai dari variabel tersembunyi pada waktu t. Variabel random y(t) yaitu nilai variabel yang diteliti pada waktu t. Tanda panah pada diagram menunjukkan ketergantungan kondisi.
Dari diagram, ini jelas bahwa nilai variabel tersembunyi x(t) (pada waktu t) hanya tergantung pada nilai variabel tersembunyi x(t-1) (pada waktu t-1). Serupa, nilai variabel yang diteliti y(t) hanya tergantung pada nilai variabel tersembunyi x(t) (keduanya pada waktu t).

2.4.2.2.Implementasi HMM pada Pengenalan Suara4)
Salah satu implementasi HMM yang digunakan pada skripsi ini adalah implementasi HMM pada sistem pengenalan suara. Diagram blok disajikan pada gambar tersebut menunjukkan diagram blok dari pendekatan pengenalan pola pada sistem pengenalan suara kontinyu. Langkah-langkah pengenalan pola secara umum dapat dijelaskan sebagai berikut:
Suara yang menjadi input pada Gambar 2.2 akan melalui proses Feature Analysis yang memfilter suara input menjadi spektral-spektral suara. Setelah melalui proses Feature Analysis, spektral suara kemudian akan dipecah menjadi suku kata-suku kata pada proses Unit Matching System. Pada proses Unit Matching System, sistem akan membaca database suku kata untuk kemudian dicari suku kata-suku kata yang mirip dengan spektral suara input. Pada Lexical Decoding, tiap suku kata yang terdapat di Unit Matching System disusun menjadi kata berdasarkan Word Dictionary. Pada Synctactic Analysis, tiap kata yang terdapat di Lexical Decoding disusun menjadi frase berdasarkan database frase Grammar. Dengan berdasarkan pada database Task Model, Semantic Analysis memungkinkan pembentukan kalimat dari frase-frase yang ada di Syntactic Analysis.
Sedangkan pengertian dari tiap-tiap proses adalah sebagai berikut:

a.   Feature Analysis
Merupakan  analisis  spektral  dan  atau  temporal  dari  sinyal suara yang dilakukan untuk mengobservasi vektor yang akan digunakan untuk melatih HMM yang mengelompokkan berbagai suara percakapan.

b.   Unit Matching System
Unit Matching System bertugas menyamakan semua bagian- bagian  percakapan  unit  dengan  input  percakapan.  Teknik untuk memberikan nilai kesesuain, dan menentukan nilai pasangan terbaik (subyek ke leksikal dan batasan sintaktik sistem) termasuk tumpukan prosedur dekoding, dan prosedur penilaian  akses  leksikal.  Kemungkinan  dapat  memuat  unit sub-kata linguistik seperti  phones,  diphones,  demisyllables, dan syllables, juga unit derivasinya seperti fenemes, fenones, dan unit akustik. Kemungkinan lain juga meliputi unit kata keseluruhan, dan bahkan unit yang berkorespondensi ke kelompok 2 atau lebih kata (frase dan preposisi seperti and an, in the, of a, dll). Secara umum, makin sederhana unitnya (contohnya phones), maka makin sedikit dari mereka yang berada di dalam bahasa, dan makin kompleks strukturnya di percakapan kontinyu. Untuk rekognisi suara skala besar (menggunakan lebih  dari  1000  kata),  penggunaan sub-kata unit percakapan semakin dibutuhkan karena sulit untuk merekam set pelatihan yang cukup untuk mendisain unit-unit HMM jika katanya terlalu banyak. Namun, untuk aplikasi spesialisasi (contohnya menggunakan kosakata yang sedikit, dan  tugas-tugas  yang  dibatasi),  menganggap  kata  sebagai basis unit percakapan merupakan hal yang masuk akal dan praktis.

c.   Lexical Decoding
Proses ini meletakkan batasan-batasan pada unit matching system sehingga jalan-jalan yang dilalui merupakan jalan-jalan yang berhubungan dengan bagian-bagian percakapan yang terdapat pada kamus kata. Prosedur ini menjelaskan bahwa kamus kata pengenalan suara harus dispesifikasikan dalam istilah unit dasar yang dipilih untuk pengenalan. Spesifikasi tersebut dapat berupa satu atau lebih state jaringan terbatas, atau berupa statistikal. Pada kasus dimana unit yang dipilih adalah   kata-kata   (atau   kombinasi   kata—frase),   langkah Lexical Decoding dapat dihilangkan dan struktur pengenalan dapat disederhanakan.

d.   Syntactic Analysis
Proses ini, meletakkan batasan-batasan lebih jauh pada sistem  penyesuaian  unit  sehingga  jalur  yang  dicari  benar- benar merupakan jalur yang berisikan kata-kata yang sesuai dengan kata-kata inputnya. Kata kata dalam jalur tersebut terdiri  atas  kata-kata  dan  kata-kata  tersebut  memiliki rangkaian  yang  sesuai  dengan  yang  terletak  pada  kamus katanya. Kamus kata tersebut dapat direpresentasikan dengan jaringan state deterministik terbatas (dimana semua kombinasi kata yang diterima oleh kamus kata disebutkan), atau dengan kamus kata statistikal. Contohnya model kata trigram yang mana kemungkinan urutan 3 kata spesifik sudah ditentukan. Untuk beberapa tugas kontrol dan perintah, hanya satu kata dari beberapa set terbatas yang dibutuhkan untuk dikenali. Oleh sebab itu, kamus katanya bersifat trivial atau kadang- kadang tidak diperlukan. Tugas-tugas tersebut biasanya termasuk kedalam tugas pengenalan kata terisolasi. Untuk aplikasi lain (contohnya rangkaian digit) kamus kata yang sangat sederhana sudah cukup memenuhi persyaratan tersebut. Namun, ada tugas-tugas dimana kamus kata menjadi faktor dominan. Maka kamus kata  dapat mengembangkan performa rekognisi dengan menghasilkan    batasan-batasan pada rangkaian unit percakapan yang merupakan kandidat-kandidat valid.  Walaupun  hal  ini  menambah  batasan-batasan  lebih lanjut dalam proses pengenalan

e.   Semantic Analysis
Proses ini, seperti pada synctactic analysis maupun lexical decoding,  menambah batasan-batasan lebih  lanjut  pada  set jalur  pencarian  rekognisi  percakapan  input.  Namun,  pada
Semantic Analysis, batasan-batasan tersebut diatur melalui model dinamis dari state rekognisi. Berdasarkan state rekognisi, beberapa string input yang benar dieliminasi secara syntactic dari beberapa pilihan. Hal ini membuat tugas rekognisi lebih mudah dan dapat meningkatkan performa sistem.