Jun 27, 2019   8:01 a.m. Ladislav
Academic information system

Summary of topics offered - Slovak university of technology in Bratislava


Basic information

Type of work: Diploma thesis
Topic: Sémantická analýza textu využitím strojového učenia
Title of topic in English: Semantic text analysis using machine learning
State of topic: approved (prof. Dr. Ing. Miloš Oravec - Study programme supervisor)
Thesis supervisor: doc. Ing. Milan Vojvoda, PhD.
Faculty: Faculty of Electrical Engineering and Information Technology
Supervising department: Institute of Computer Science and Mathematics - FEEIT
Max. no. of students: 1
Academic year:2018/2019
Proposed by: doc. Ing. Milan Vojvoda, PhD.
Summary: Dolovanie informácií z dát je jedna z najrýchlejšie vyvíjajúcich sa oblastí informatiky. Zatiaľ čo dolovanie štruktúrovaných dát už dosahuje dobré výsledky a využitie aj v praxi, v oblasti dolovania informácií z textu, teda neštruktúrovaných dát, je veľký priestor pre pokrok. Automatické rozoznanie obsahu veľkého množstva dokumentov otvára možnosti využitia týchto informácií v praxi. S využiteľnosťou výpočtových kapacít grafických kariet sa s obľubou pre tento účel používajú modely hlbokých neurónových sietí. Výzvou však ostáva správny návrh riešenia pre dosiahnutie požadovaného výsledku, teda správnu prípravu vstupných dát, vhodnú reprezentáciu dát ako vstupu do modelu, architektúru neurónovej siete a jej trénovanie. Správna príprava dát zahŕňa aj kompenzáciu chybovosti ľuďmi zadávaného textového vstupu, obzvlášť pri jazyku s diakritikou akým je slovenčina. Cieľom práce je navrhnúť a implementovať model, ktorý z obsahu textového dokumentu odhadne témy obsiahnuté v dokumente a emočnú angažovanosť autora (negatívny alebo pozitívny postoj autora). Práca bude vypracovaná v spolupráci s firmou Slovenská sporiteľňa a.s.. Úlohy: 1. Analyzujte doménu automatického spracovania textových dokumentov a sémantickej analýzy textu. 2. Identifikujte požadovaný výstup analýzy dokumentov a analyzujte existujúce riešenie podobných problémov. 3. Navrhnite a implementujte vlastné riešenie zohľadňujúc špecifickosť slovenčiny a prostredia banky. 4. Otestujte vlastné riešenie na skutočných dátach v prostredí banky a vhodne vyhodnoťte presnosť výsledkov. Zoznam odbornej literatúry: 1. ”Multi-Level Topical Text Categorization with Wikipedia”, N. Guo, Y. He, C. Yan, L. Liu and C. Wang, 2016 IEEE/ACM 9th International Conference on Utility and Cloud Computing (UCC), Shanghai, 2016, pp. 343-352. doi: 10.1145/2996890.3007856 2. ”A multi-stage method for content classification and opinion mining on weblog comments”, Alfaro, César et al., Annals OR 236 (2016): 197-213. https://doi.org/10.1007/s10479-013-1449-6 3. ”Semantic expansion using word embedding clustering and convolutional neural network for improving short text classification”, Peng Wang, Bo Xu, Jiaming Xu, Guanhua Tian, Cheng-Lin Liu, Hongwei Hao, 2016, Neurocomputing, 174, 806-814, https://doi.org/10.1016/j.neucom.2015.09.096. Vedúci práce: Ing. Oliver Moravčík E-mail vedúceho práce: moravcik.oliver@slsp.sk Telefónne číslo: +421 904 519 388



Limitations of the topic

To sign up for a topic it is necessary to fulfil one of the following restrictions

Limit to study programme
The table shows limitations of study programme, field, track the student has to be enrolled in to be able to register for a given topic.

ProgrammeTrackTrack
I-API Applied Informatics-- not entered -- -- not entered --

Limit to courses
The table shows limitations of a course the student has to complete to be able to register for a given topic.

DepartmentCourse title
No suitable data found.