Oct 22, 2019   10:06 p.m. Sergej
Academic information system

Final theses


Basic information

Basic information about a final thesis

Type of thesis: Bachelor thesis
Thesis title:Searching for Thematically Similar Documents
Written by (author): Ing. Barbora Brocková
Department: Institute of Informatics, Information Systems and Software Engineering (FIIT)
Thesis supervisor: Ing. Tomáš Kučečka
Opponent:Mgr. Jozef Tvarožek, PhD.
Final thesis progress:Final thesis was successfully defended.


Additional information

Additional information about the final thesis follows. Click on the language link to display the information in the desired language.

Language of final thesis:Slovak

Slovak        English

Title of the thesis:Vyhľadávanie tematicky podobných dokumentov
Summary:V súčasnosti nám vyhľadávacie nástroje ponúkajú vyhľadávanie tematicky podobných dokumentov metódou porovnávania kľúčových slov a frekventovaných množín. Možné je aj vyhľadávanie dokumentov na základe referencií, ktoré sa nachádzajú pri citovanom dokumente. Používateľ len klikne na odkaz s referenciami a zobrazí sa mu zoznam všetkých dokumentov, ktoré citujú vybraný dokument. V našej práci sme sa rozhodli porovnať dva prístupy pri vyhľadávaní tematicky podobných dokumentov -- na základe kľúčových slov a na základe referencií. Implementovali sme metódu porovnávania dokumentov na základe ich kľúčových slov a vypočítali podobnosti medzi dokumentmi. Pre dvojice dokumentov, v ktorých jeden dokument je citovaný druhým dokumentom, sme porovnali podobnosti s podobnosťami dokumentov v korpuse a zistili sme, že väčšina citovaných dokumentov sa nachádza medzi podobnejšími dokumentmi v korpuse. Ďalej sme skúmali ako na podobnosť dokumentov vplýva rozšírenie vlastného textu o text, ktorý ich cituje. Zistili sme, že citovaným dokumentom sa podobnosť zvýšila, ale necitujúcim sa mohla aj znížiť. Okrem vzájomnej podobnosti dokumentov, ktorá je počítaná ako kosínusová podobnosť, sme priradili dokumenty do zhlukov frekventovaných množín pomocou Apriori algoritmu. Dokumenty v rámci zhluku sme označili za podobné a zistili sme, že vo viacerých zhlukoch sa nachádzali dvojice citovaných aj citujúcich dokumentov.
Key words:zhlukovanie, podobnosť, citácie

Display and download files

To display the final thesis assignment form click on the Display the final thesis assignment form icon. The following icons - Final thesis, Thesis appendices, Supervisor's review, Opponent's review - relate to the final thesis and can be downloaded. They could be displayed on condition they have been inserted and are available publicly.

Display the assignment form

Parts of thesis with postponed release:

Final thesis (final thesis appendices) unlimited
Reviews for final thesis unlimited