Jan 24, 2020   5:26 p.m. Timotej
Academic information system

Persons at STU


This page displays all publicly accessible information about the desired person. Some information about the person's occupation and offices may be hidden.

Bc. Ondrej Harnúšek
Identification number: 79545
University e-mail: xharnusek [at] stuba.sk
 
2533T07  Intelligent Software Systems I-ISS2
FIIT I-ISS2 den [term 1, year 1]
Master type of study, full-time, attendance method form
1st year of study / 1st semester of study

Contacts     Graduate     Final thesis     Publications     

Basic information

Basic information about a final thesis

Type of thesis: Bachelor thesis
Thesis title:Tool for determining similarity of texts
Written by (author): Bc. Ondrej Harnúšek
Department: Institute of Informatics, Information Systems and Software Engineering (FIIT)
Thesis supervisor: Ing. Miroslav Blšták, PhD.
Opponent:Samuel Pecár
Final thesis progress:Final thesis was successfully defended.


Additional information

Additional information about the final thesis follows. Click on the language link to display the information in the desired language.

Language of final thesis:Slovak

Slovak        English

Title of the thesis:Nástroj na určovanie podobnosti textov
Summary:Určovanie podobnosti textov má uplatnenie pri vyhľadávaní informácií, detekcii plagiarizmu, zhlukovaní dokumentov, strojovom preklade alebo sumarizácii textu. Metódy, schopné vyjadriť mieru významovej podobnosti textov, rozdeľujeme na základe prístupu, akým sémantickú informáciu odvodzujú. Sú to metódy založené na znalostiach a metódy založené na korpuse. V práci sme sa zamerali na návrh nástroja na určovanie sémantickej podobnosti viet v slovenskom jazyku na základe významovej podobnosti slov. Nástroj poskytuje korpusovú metódu založenú na synonymickom slovníku a znalostnú metódu založenú na Word2Vec modeli. Ich výstupom je hodnota z intervalu <0,1>. Pri predspracovaní viet je nástroj schopný využívať lematizáciu, určovanie slovných druhov alebo odstránenie stop slov. Na porovnanie metód a ich parametrov sme použili evaluáciu na korpuse viet získaných z Wikipédie a manuálne určené hodnoty podobnosti získané z experimentu. Najnižšia chyba korpusovej metódy je 0.1541 a najnižšia chyba znalostnej metódy je 0.1808. Samotná priemerná odchýlka hodnôt získaných z experimentu je pritom 0.1658. Výhodou nášho nástroja je možnosť zameniť inštanciu Word2Vec modelu alebo synonymického slovníka.
Key words:sémantická podobnosť, synonymický slovník, Word2vec

Display and download files

To display the final thesis assignment form click on the Display the final thesis assignment form icon. The following icons - Final thesis, Thesis appendices, Supervisor's review, Opponent's review - relate to the final thesis and can be downloaded. They could be displayed on condition they have been inserted and are available publicly.

Display the assignment form

Parts of thesis with postponed release:

Final thesis (final thesis appendices) unlimited
Reviews for final thesis unlimited