14. 12. 2019  3:07 Branislava, Bronislava
Akademický informačný systém

Ľudia na STU


Na tejto stránke máte zobrazené všetky verejne prístupne údaje o zadanej osobe. Niektoré informácie o personálnom zaradení a funkciách osoby môžu byť skryté.

Bc. Ondrej Harnúšek
Identifikačné číslo: 79545
Univerzitný e-mail: xharnusek [at] stuba.sk
 
2533T07  inteligentné softvérové systémy I-ISS2
FIIT I-ISS2 den [sem 1, roč 1]
Inžiniersky typ štúdia, denná prezenčná forma
1. ročník / 1. semester štúdia

Kontakty     Absolvent     Záverečná práca     Publikácie     

Základné informácie

Základné informácie o záverečnej práci

Typ práce: Bakalárska práca
Názov práce:Nástroj na určovanie podobnosti textov
Autor: Bc. Ondrej Harnúšek
Pracovisko: Ústav informatiky, informačných systémov a softvérového inžinierstva (FIIT)
Vedúci práce: Ing. Miroslav Blšták, PhD.
Oponent:Samuel Pecár
Stav záverečnej práce:Záverečná práca bola úspešne obhájená


Doplňujúce informácie

Nasledujú doplňujúce informácie záverečnej práce. Kliknutím na odkaz s názvom jazyka vyberiete, v akom jazyku majú byť informácie zobrazené.

Jazyk spracovania záverečnej práce:slovenský jazyk

slovenský jazyk        anglický jazyk

Názov práce:Nástroj na určovanie podobnosti textov
Abstrakt:Určovanie podobnosti textov má uplatnenie pri vyhľadávaní informácií, detekcii plagiarizmu, zhlukovaní dokumentov, strojovom preklade alebo sumarizácii textu. Metódy, schopné vyjadriť mieru významovej podobnosti textov, rozdeľujeme na základe prístupu, akým sémantickú informáciu odvodzujú. Sú to metódy založené na znalostiach a metódy založené na korpuse. V práci sme sa zamerali na návrh nástroja na určovanie sémantickej podobnosti viet v slovenskom jazyku na základe významovej podobnosti slov. Nástroj poskytuje korpusovú metódu založenú na synonymickom slovníku a znalostnú metódu založenú na Word2Vec modeli. Ich výstupom je hodnota z intervalu <0,1>. Pri predspracovaní viet je nástroj schopný využívať lematizáciu, určovanie slovných druhov alebo odstránenie stop slov. Na porovnanie metód a ich parametrov sme použili evaluáciu na korpuse viet získaných z Wikipédie a manuálne určené hodnoty podobnosti získané z experimentu. Najnižšia chyba korpusovej metódy je 0.1541 a najnižšia chyba znalostnej metódy je 0.1808. Samotná priemerná odchýlka hodnôt získaných z experimentu je pritom 0.1658. Výhodou nášho nástroja je možnosť zameniť inštanciu Word2Vec modelu alebo synonymického slovníka.
Kľúčové slová:sémantická podobnosť, synonymický slovník, Word2vec

Zobrazenie a sťahovanie súborov

Pokiaľ chcete zobraziť zadanie záverečnej práce, kliknite na ikonu Zobraziť zadanie. Ikony Záverečná práca, Prílohy práce, Posudok vedúceho a Posudok oponenta predstavujú súbory týkajúce sa záverečnej práce, ktoré je možné stiahnuť. Budú zobrazené iba v prípade, že je súbor vložený a zároveň je verejný.

Zobraziť zadanie

Časti práce s odloženým zverejnením:

Záverečná práca (prílohy záverečnej práce) neobmedzene
Posudky záverečnej práce neobmedzene