24. 1. 2020  4:44 Timotej
Akademický informační systém

Lidé na STU


Na této stránce máte zobrazeny všechny veřejně přístupné údaje o zadané osobě. Některé informace o personálním zařazení a funkcích osoby mohou být skryty.

Bc. Ondrej Harnúšek
Identifikační číslo: 79545
Univerzitní e-mail: xharnusek [at] stuba.sk
 
2533T07  inteligentné softvérové systémy I-ISS2
FIIT I-ISS2 pres [sem 1, roč 1]
Inženýrský typ studia, denní presenční forma
1. ročník / 1. semestr studia

Kontakty     Absolvent     Závěrečná práce     Publikace     

Základní informace

Základní informace o závěrečné práci

Typ práce: Bakalářská práce
Název práce:Nástroj na určovanie podobnosti textov
Autor: Bc. Ondrej Harnúšek
Pracoviště: Ústav informatiky, informačných systémov a softvérového inžinierstva (FIIT)
Vedoucí práce: Ing. Miroslav Blšták, PhD.
Oponent:Samuel Pecár
Stav závěrečné práce:Závěrečná práce byla úspěšně obhájena


Doplňující informace

Následují doplňující informace závěrečné práce. Kliknutím na odkaz s názvem jazyka zvolíte, v jakém jazyce mají být informace zobrazeny.

Jazyk zpracování závěrečné práce:slovenský jazyk

slovenský jazyk        anglický jazyk

Název práce:Nástroj na určovanie podobnosti textov
Abstrakt:Určovanie podobnosti textov má uplatnenie pri vyhľadávaní informácií, detekcii plagiarizmu, zhlukovaní dokumentov, strojovom preklade alebo sumarizácii textu. Metódy, schopné vyjadriť mieru významovej podobnosti textov, rozdeľujeme na základe prístupu, akým sémantickú informáciu odvodzujú. Sú to metódy založené na znalostiach a metódy založené na korpuse. V práci sme sa zamerali na návrh nástroja na určovanie sémantickej podobnosti viet v slovenskom jazyku na základe významovej podobnosti slov. Nástroj poskytuje korpusovú metódu založenú na synonymickom slovníku a znalostnú metódu založenú na Word2Vec modeli. Ich výstupom je hodnota z intervalu <0,1>. Pri predspracovaní viet je nástroj schopný využívať lematizáciu, určovanie slovných druhov alebo odstránenie stop slov. Na porovnanie metód a ich parametrov sme použili evaluáciu na korpuse viet získaných z Wikipédie a manuálne určené hodnoty podobnosti získané z experimentu. Najnižšia chyba korpusovej metódy je 0.1541 a najnižšia chyba znalostnej metódy je 0.1808. Samotná priemerná odchýlka hodnôt získaných z experimentu je pritom 0.1658. Výhodou nášho nástroja je možnosť zameniť inštanciu Word2Vec modelu alebo synonymického slovníka.
Klíčová slova:sémantická podobnosť, synonymický slovník, Word2vec

Zobrazení a stahování souborů

Pokud chcete zobrazit zadání závěrečné práce, klikněte na ikonu Zobrazit zadání. Ikony Závěrečná práce, Přílohy práce, Posudek vedoucího a Posudek oponenta představují soubory týkající se závěrečné práce, které je možné stáhnout. Budou zobrazeny pouze v případě, že je soubor vložen a zároveň je veřejný.

Zobrazit zadání

Části práce s odloženým zveřejněním:

Závěrečná práce (přílohy závěrečné práce) neomezeně
Posudky závěrečné práce neomezeně