Oct 23, 2020   8:06 a.m. Alojza
Academic information system

Persons at STU


This page displays all publicly accessible information about the desired person. Some information about the person's occupation and offices may be hidden.

prof. Ing. Gregor Rozinaj, PhD.
Identification number: 1945
University e-mail: gregor.rozinaj [at] stuba.sk
 
Director - Institute of Multimedia Information and Communication Technologies (FEEIT)
 

Contacts
     
     Projects     Publications     Bodies
     
Supervised theses
     

Basic information

Basic information about a final thesis

Type of thesis:
Diploma thesis
Thesis title:
KINECT AS AN INPUT DEVICE FOR SPEECH RECOGNITION
Written by (author):
Ing. Tomáš Trenčanský
Department:
Institute of Multimedia Information and Communication Technologies (FEEIT)
Thesis supervisor:
Opponent:Ing. Mário Varga
Final thesis progress:
Final thesis was successfully defended.


Additional information

Additional information about the final thesis follows. Click on the language link to display the information in the desired language.

Language of final thesis:Slovak

Slovak        English

Title of the thesis:
Kinect ako vstupné zariadenie pre rozpoznavanie reči
Summary:
Diplomová práca je zameraná na vyhodnotenie vhodnosti zariadenia Kinect ako vstupného zariadenia pre rozpoznávanie reči. Cieľom bolo bližšie sa oboznámiť s komponentmi zariadenia, vypracovať možnosti využitia Kinectu a zamerať sa najmä na prácu s mikrofónovým poľom Kinectu. Vypracovať možnosti práce s mikrofónovým poľom a taktiež aj s audio vizuálnym rozpoznávaním reči. V praktickej časti sme mali za úlohu vytvoriť softvér, ktorý dokáže nahrávať audio dáta, ukladať vizuálne dáta o pohybe úst a tváre a taktiež uhol hovoriaceho voči Kinectu. Náš softvér sme vytvorili za pomoci voľne prístupných vzoriek spoločnosti Microsoft: Audio Basic- WPF a Face Tracking Basic- WPF. Ďalej sme mali za úlohu vytvoriť pomocou nášho programu viackanálovú a multimodálnu rečovú databázu pre testovanie akustických modelov reči. Naša databáza nie je dostatočne veľká pre trénovanie akustických modelov. Nahrali sme iba testovaciu a vytvorili nastroj pomocou, ktorého sa dá trénovacia databáza nahrať. Pri nahrávaní sme použili 4 rôzne typy mikrofónov - Kinect, náhlavový mikrofón ,stolový mikrofón a štúdiový mikrofón. Databáza obsahuje aj synchrónny kanál s uloženými informáciami o polohe tváre a úst nasnímané Kinectom (Face Tracking). Nakoniec sme robili experimenty s rozpoznávaním reči. Vyhodnotili sme úspešnosť rozpoznania (Word Error Rate) na testovacej databáze a porovnali sme úspešnosť rozpoznania pre rôzne typy mikrofónov. Všetky ciele práce, ktoré sme si stanovili boli splnené.
Key words:
Kinect, rozpoznávanie reči, nahrávanie

Display and download files

To display the final thesis assignment form click on the Display the final thesis assignment form icon. The following icons - Final thesis, Thesis appendices, Supervisor's review, Opponent's review - relate to the final thesis and can be downloaded. They could be displayed on condition they have been inserted and are available publicly.

Parts of thesis with postponed release:

Final thesis (final thesis appendices) unlimited
Reviews for final thesis unlimited