Browsing Audio Data
Browsing merupakan aktivitas menjelajahi
dunia maya (Internet) untuk mencari informasi yang terkini tanpa batas
dan tanpa birokrasi atau dikenal juga dengan istilah surfing internet
(berselancar di dunia maya), software yang digunakan dikenal dengan nama
web browser. Beberapa contoh web browser adalah Mozilla Firefox,
Internet aexplorer, Opera, Chrome, dll.
Dalam beberapa tahun terakhir,
perkembangan Internet telah didefinisikan kembali berbagai bidang
hiburan, khususnya, yaitu musik. Hari ini, real-time Internet Real audio
streaming musik dan MP3 secara teratur dinikmati oleh jutaan pendengar.
Makalah ini menyajikan multimedia yang berpusat manusia audio (audio
informasi) sistem pencarian melalui jaringan komputer.
Karya ini juga telah diurus memainkan
audio yang terus-menerus tanpa ada data yang mengganggu dengan
menerapkan mekanisme streaming dan buffering. Arsitektur sistem
client-server berikut model. Database digunakan untuk menyimpan
informasi metadata audio. Server audio yang bertanggung jawab untuk
mengambil informasi dari database untuk memenuhi permintaan klien. Klien
menyediakan antarmuka komputer manusia untuk pengguna melalui antarmuka
pengguna grafis untuk browsing, mencari dan memainkan audio yang
menarik melalui jaringan. Berdasarkan masukan klien permintaan pengguna
ke server untuk mendapatkan informasi audio (seperti daftar film-film
bahasa tertentu, daftar lagu-lagu film tertentu dan daftar lagu
berdasarkan pencocokan pengguna memasukkan teks lirik). Audio
pengambilan informasi dari basis data akan dilakukan oleh server
berbasis teks menggunakan metode pencarian.
Browsing Audio Data merupakan metode
browsing jaringan yang digunakan untuk browsing video / audio data yang
ditangkap oleh sebuah IP kamera. Sebuah komputer lokal digabungkan ke
LAN (local area network) untuk mendeteksi IP kamera. Jaringan video /
audio metode browsing mencakupi langkah-langkah sebagai berikut :
@ Menjalankan sebuah program aplikasi komputer lokal untuk mendapatkan kode identifikasi yang disimpan dalam kamera IP.
@ Transmisi untuk mendaftarkan kode identifikasi ke DDNS ( Dynamic Domain Name Server) oleh program aplikasi.
@ Mendapatkan kamera IP
pribadi alamat dan alamat server pribadi sehingga pasangan IP kamera
dan kontrol kamera IP melalui kamera IP pribadi alamat dan alamat server
pribadi compile ke layanan server melalui alamat server pribadi
sehingga untuk mendapatkan video / audio data yang ditangkap oleh kamera
IP, dimana server layanan menangkap video / audio data melalui
Internet.
Browsing audio data tidak semudah
browsing dokumen cetak, karena adanya sifat temporal suara. Ketika
melakukan browsing terhadap dokumen, kita dapat dengan cepat mengalihkan
fokus perhatian dengan membaca sepintas isi dari dokumen tersebut. Kita
dapat mengetahui ukuran dan struktur dokumen, dan menggunakan memori
spasial visual untuk mengingat dan mencari spesifik topik. Namun,
ketika browsing suatu rekaman audio, kita harus berulang kali memainkan
dan melompati bagian tertentu, tanpa memainkannya, kita tidak bisa
menyadari suara atau isinya. Kita harus mendengarkan semua stream audio
untuk dapat menangkap semua isinya.
Beberapa bentuk informasi yang dapat
dicari (browsed) melalui internet, yaitu: informasi berupa teks
(text/plain, text/html), image (image/gif, image/jpeg, image/png), video
(video/mpeg, video/quicktime), audio (audio/basic, audio/wav) dan
application (application/msword, application/octet-stream).
Speech Recognation
1. PENGERTIAN SPEECH RECOGNITION
Speech
Recognition adalah proses identifikasi suara berdasarkan kata yang
diucapkan dengan melakukan konversi sebuah sinyal akustik, yang
ditangkap oleh audio device (perangkat input suara).
Speech Recognition juga merupakan sistem yang digunakan untuk mengenali
perintah kata dari suara manusia dan kemudian diterjemahkan menjadi suatu data
yang dimengerti oleh komputer. Pada saat ini, sistem ini digunakan untuk
menggantikan peranan input dari keyboard dan mouse.
Keuntungan
dari sistem ini adalah pada kecepatan dan kemudahan dalam
penggunaannya. Kata – kata yang ditangkap dan dikenali bisa jadi sebagai
hasil akhir, untuk sebuah aplikasi seperti command & control,
penginputan data, dan persiapan dokumen. Parameter yang dibandingkan
ialah tingkat penekanan suara yang kemudian akan dicocokkan dengan
template database yang tersedia. Sedangkan sistem pengenalan suara
berdasarkan orang yang berbicara dinamakan speaker recognition. Pada
makalah ini hanya akan dibahas mengenai speech recognition karena
kompleksitas algoritma yang diimplementasikan lebih sederhana daripada
speaker recognition. Algoritma yang akan diimplementasikan pada bahasan
mengenai proses speech recognition ini adalah algoritma FFT (Fast
Fourier Transform), yaitu algoritma yang cukup efisien dalam pemrosesan
sinyal digital (dalam hal ini suara) dalam bentuk diskrit. Algoritma ini
mengimplementasikan algoritma Divide and Conquer untuk pemrosesannya.
Konsep utama algoritma ini adalah mengubah sinyal suara yang berbasis
waktu menjadi berbasis frekuensi dengan membagi masalah menjadi beberapa
upa masalah yang lebih kecil. Kemudian, setiap upa masalah diselesaikan
dengan cara melakukan pencocokan pola digital suara.
2. SEJARAH SPEECH RECOGNITION
Biometrik,
termasuk di dalamnya speech recognition, secara umum digunakan untuk
identifikasi dan verifikasi. Identifikasi ialah mengenali identitas
subyek, dilakukan perbandingan kecocokan antara data biometric subyek
dalam database berisi record karakter subyek. Sedangkan verifikasi
adalah menentukan apakah subyek sesuai dengan apa yang dikatakan
terhadap dirinya.
Biometrik
merupakan suatu metoda untuk mengenali manusia berdasarkan pada satu
atau lebih ciri-ciri fisik atau tingkah laku yang unik. Biometric
Recognition atau biasa disebut dengan Sistem pengenalan biometric
mengacu pada identifikasi secara otomatis terhadap manusia berdasarkan
psikological atau karakteristik tingkah laku manusia. Ada beberapa jenis
teknologi biometric antara lain suara (speech recognition).
Metode
Hidden Markov Model mulai diperkenalkan dan dipelajari pada akhir tahun
1960, metode yang berupa model statistik dari rantai Markov ini semakin
banyak dipakai pada tahun-tahun terakhir terutama dalam bidang speech
recognition, seperti dijelaskan oleh Lawrence R. Rabiner dalam
laporannya yang berjudul “A Tutorial on Hidden Markov Models and
Selected Applications in Speech Recognition”
Proses
dalam dunia nyata secara umum menghasilkan observable output yang dapat
dikarakterisasikan sebagai signal. Signal bisa bersifat diskrit
(karakter dalam alfabet) maupun kontinu (pengukuran temperatur, alunan
musik). Signal bisa bersifat stabil (nilai statistiknya tidak berubah
terhadap waktu) maupun nonstabil (nilai signal berubah-ubah terhadap
waktu). Dengan melakukan pemodelan terhadap signal secara benar, dapat
dilakukan simulasi terhadap sumber dan pelatihan sebanyak mungkin
melalui proses simulasi tersebut. Sehingga model dapat diterapkan dalam
sistem prediksi, sistem pengenalan, maupun sistem identifikasi. Secara
garis besar model signal dapat dikategorikan menjadi 2 golongan yaitu :
model deterministik dan model statistikal. Model deterministik
menggunakan nilai-nilai properti dari sebuah signal seperti : amplitudo,
frekuensi, fase dari gelombang sinus. Sedangkan model statistikal
menggunakan nilai-nilai statistik dari sebuah signal seperti: proses
Gaussian, proses Poisson, proses Markov, dan proses Hidden Markov.
Suatu model HMM secara umum memiliki unsur-unsur sebagai berikut:
· N,
yaitu jumlah state dalam model. Secara umum state saling terhubung satu
dengan yang lain, dan suatu state bisa mencapai semua state yang lain
dan sebaliknya (disebut model ergodic). Namun hal tersebut tidak mutlak,
terdapat kondisi lain dimana suatu state hanya bisa berputar ke diri
sendiri dan berpindah ke satu state berikutnya, hal ini bergantung pada
implementasi dari model.
· M,
yaitu jumlah observation symbol secara unik pada tiap statenya,
misalnya: karakter dalam alfabet, dimana state adalah huruf dalam kata.
· State Transition Probability { } -> ij A a
· Observation Symbol Probability pada state j, { } () -> j Bb k
· Initial State Distribution -> i p p
Dengan
memberikan nilai pada N, M, A, B, dan p , HMM dapat digunakan sebagai
generator untuk menghasilkan urutan observasi. dimana tiap observasi t o
adalah salah satu simbol dari V, dan T adalah jumlah observasi dalam
suatu sequence.
3. SKEMA UTAMA DAN ALGORITMA SPEECH RECOGNITION
Terdapat 4 langkah utama dalam sistem pengenalan suara:
· Penerimaan data input
· Ekstraksi, yaitu penyimpanan data masukan sekaligus pembuatan database untuk template.
· Pembandingan / pencocokan, yaitu tahap pencocokan data baru dengan data suara (pencocokan tata bahasa) pada template.
· Validasi identitas pengguna.
Secara
umum, speech recognizer memproses sinyal suara yang masuk dan
menyimpannya dalam bentuk digital. Hasit proses digitalisasi tersebut
kemudian dikonversi dalam bentuk spektrum suara yang akan dianalisa
dengan membandingkannya dengan template suara pada database sistem.
Gambar 2. Spektrum Suara
Sebelumnya,
data suara masukan dipilah-pilah dan diproses satu per satu berdasarkan
urutannya. Pemilahan ini dilakukan agar proses analisis dapat dilakukan
secara paralel. Proses yang pertama kali dilakukan ialah memproses
gelombang kontinu spektrum suara ke dalam bentuk diskrit. Langkah
berikutnya ialah proses kalkulasi yang dibagi menjadi dua bagian :
· Transformasi gelombang diskrit menjadi array data.
· Untuk masing-masing elemen pada aiTay data, hitung "ketinggian" gelombang (frekuensi).
Objek permasaiahan yang akan dibagi adalah masukan berukuran n, berupa data diskrit gelombang suara.
Ketika
mengkonversi gelombang suara ke dalam bentuk diskrit, gelombang
diperlebar dengan cara memperinci berdasarkan waktu. Hal ini dilakukan
agar proses algontma seianjutnya (pencocokan) lebih mudah diiakukan.
Namun, efek buruknya ialah array of array data yang terbentuk akan lebih
banyak.
Gambar 3. Contoh Hasit Konversi Sinyal Diskrit
Dari
tiap elemen array data tersebut, dikonversi ke dalam bentuk bilangan
biner. Data biner tersebut yang nantinya akan dibandingkan dengan
template data suara.
Proses divide and conquer:
· Pilih
sebuah angkaN, dimana N merupakan bilangan bulat kelipatan 2.Bilangan
ini berfungsi untuk menghitung jumlah elemen transformasi FFT.
· Bagi
dua data diskrit secara (dengan menerapkan algoritma divide and
conquer) menjadi data diskrit yang lebih kecii berukuran N = N,.N2.
· Objek data dimasukkan ke dalam table (sebagai elemen tabel).
· Untuk
setiap eiemen data, dicocokkan dengan data pada template (pada data
template juga dilakukan pemrosesan digitaiisasi menjadi data diskrit,
dengan cara yang sama dengan proses digitaiisasi data masukan bam yang
ingin dicocokkan).
· Setiap
upa masalah disatukan kembali dan dianalisis secara keseluruhan,
kecocokan dari segi tata bahasa dan apakah data yang diucapkan sesuai
dengan kata yang tersedia pada template data.
· Verifikasi data. Jika sesuai, proses iebih lanjut, sesuai dengan aplikasi yang mengimplementasikan algoritma ini.
4. IMPLEMENTASI SPEECH RECOGNITION
Hardware yang dibutuhkan dalam implementasi Speech Recognition :
· Sound
card : Merupakan perangkat yang ditambahkan dalam suatu Komputer yang
fungsinya sebagai perangkat input dan output suara untuk mengubah sinyal
elektrik, menjadi analog maupun menjadi digital.
· Microphone
: Perangkat input suara yang berfungsi untuk mengubah suara yang
melewati udara, air dari benda orang menjadi sinyal elektrik.
· Komputer
atau Komputer Server : Dalam proses suara digital menterjemahkan
gelombang suara menjadi suatu simbol biasanya menjadi suatu nomor biner
yang dapat diproses lagi kemudian diidentifikasikan dan dicocokan dengan
database yang berisi berkas suara agar dapat dikenali.
Contoh Implementasi teknologi Speech Recognition :
Saat
ini pada tahun 2010 Microsoft windows vista dan windows 7 , speech
recognition telah disertakan dalam system operasinya . sebagaimana
fungsi dari speech recognition menterjemahkan pengucapan kata – kata
kedalam bentuk teks digital. Salah
satu implementasi speech recognition adalah pada konfrensi PBB dimana
seluruh Negara tergabung dalam keanggotaan nya , fungsi speech
recognition dalam hal ini menterjemahkan bahasa pembicara dari suatu
Negara kedalam bahasa yang dipahami pendengar . Contoh penggunaan lain
speech recognition adalah Perawatan kesehatan.
Dalam
perawatan kesehatan domain, bahkan di bangun meningkatkan teknologi
pengenalan suara, transcriptionists medis (MTs) belum menjadi usang.
Layanan yang diberikan dapat didistribusikan daripada diganti. Pengenalan
pembicaraan dapat diimplementasikan di front-end atau back-end dari
proses dokumentasi medis. Front-End SR adalah salah satu alat untuk
mengidentifikasi kata-kata yang ucapkan dan ditampilkan tepat setelah
mereka berbicara Back-End SR atau SR tangguhan adalah di mana penyedia
menentukan menjadi sebuah sistem dikte digital, dan suara yang diarahkan
melalui pidato-mesin pengakuan dan draft dokumen diakui dirutekan
bersama dengan file suara yang asli ke MT / editor, yang mengedit draft
dan memfinalisasi laporan. Ditangguhkan SR sedang banyak digunakan dalam
industri saat ini.
Banyak
aplikasi Electronic Medical Records (EMR) dapat menjadi lebih efektif
dan dapat dilakukan lebih mudah bila digunakan dalam hubungannya dengan
pengenalan-mesin bicara. Pencarian, query, dan pengisian formulir semua
bisa lebih cepat untuk melakukan dengan suara dibandingkan dengan
menggunakan keyboard.