D O K U M E N T U M A Z O N O S Í T Ó F á j l n é v : timar_bajzat_palko_jokai_stilometria.jpg F ő c í m : A szerzői "ujjlenyomat" stilometriai koncepciója Jókai Mór prózájának szövegterében B e s o r o l á s i c í m : Szerzői "ujjlenyomat" stilometriai koncepciója Jókai Mór prózájának szövegterében S z e r e p : létrehozó B e s o r o l á s i n é v : Bajzát U t ó n é v : Tímea Borbála I n v e r t á l a n d ó n é v : N S z e r e p : létrehozó B e s o r o l á s i n é v : Timári U t ó n é v : Mária I n v e r t á l a n d ó n é v : N S z e r e p : létrehozó B e s o r o l á s i n é v : Nemeskey U t ó n é v : Dávid I n v e r t á l a n d ó n é v : N S z e r e p : létrehozó B e s o r o l á s i n é v : Palkó U t ó n é v : Gábor I n v e r t á l a n d ó n é v : N E s e m é n y : felvéve I d ő p o n t : 2021-11-24 E s e m é n y : elérhető I d ő p o n t : 2021-04-08 D á t u m r a v o n a t k o z ó m e g j e g y z é s : Az előadás időpontja. A t í p u s n e v e : prezentáció A t í p u s n e v e : előadás M e g n e v e z é s : Prezentáció M e g n e v e z é s : Könyvtártudomány - prezentáció M e g n e v e z é s : Networkshop 2021 M e g n e v e z é s : Videotorium A j o g t u l a j d o n o s n e v e : Timári Mária, Bajzát Tímea Borbála, Nemeskey Dávid, Palkó Gábor S z e r z ő i j o g i m e g j e g y z é s e k : Jogvédett T é m a k ö r : Könyvtártan, információtudomány A l t é m a k ö r : Tudománytörténet T é m a k ö r : Irodalomtörténet, irodalomtudomány A l t é m a k ö r : Szövegtan T é m a k ö r : Szépirodalom, népköltészet A l t é m a k ö r : Klasszikus magyar irodalom T á r g y s z ó : magyar irodalom M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : műelemzés M i n ő s í t ő : műfaj T á r g y s z ó : statisztika M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : vizsgálat M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : 2021 M i n ő s í t ő : időszak T á r g y s z ó : 19. század M i n ő s í t ő : időszak K é p a l á í r á s : A szerzői "ujjlenyomat" stilometriai koncepciója Jókai Mór prózájának szövegterében N y e r s v a g y O C R - e s s z ö v e g : A szerzői "ujjlenyomat" stilometriai koncepciója Jókai Mór prózájának szövegterében
Timári Mária - Bajzát Tímea Borbála -
Nemeskey Dávid - Palkó Gábor
A kutatás előzménye
A Jókai kritikai kiadást készítő kutatócsoport megkeresése -> néhány mű szerzőségének azonosítása
A stilometriában alkalmazható távolságmérések és beállítások ismerete a magyar nyelvre és Jókai prózájára vonatkozóan
Aktuális cél:
Jókai Mór szövegeinek nyelvezetéről egy széles körű stilometriai elemzés készítése nyelvstatisztikai vizsgálatok alapján tehát Jókai Mór szerzői ujjlenyomatának megalkotása
Korpuszok
I. Jókai-korpusz
Unikornis kiadó Jókai-sorozata + Révai testvérek kiadásai (1847 - 1907)
TXT formátum
66 regény, 6 elbeszélés, 14 további kötet (447 novella, elbeszélés, rege, mese)
II. Referencia korpusz
1846 - 1907 között keletkezett regények (Jókai Mór életművével párhuzamos)
56 szerző; 132 regény
A vizsgálatokhoz alkalmazott korpuszok
Jókai Mór szerzői ujjlenyomatának nyelvstatisztikai vizsgálatához:
I. 15 szöveges korpusz (TXT formátum)
3 Jókai-regény
4 szerzőtől további 12 regény
II. 69 szöveges korpusz (TXT formátum)
3 Jókai-regény
22 szerzőtől további 66 regény
A fastText szóvektoros vizsgálathoz alkalmazott korpusz (TXT formátum)
Jókai-korpusz (66 regény, 6 elbeszélés, 14 további kötet) + 8 naplórészlet/cikk, 2 útleírás, 9 korábbi kiadású novella
Referencia korpusz teljes anyaga (132 regény 55 szerzőtől)
Duplum-szűrés
Ismétlődő szövegek a kötetekben -> duplumok szűrése
Minden novella és elbeszélés csak egyszer forduljon elő a korpuszban
Intratextusok (ismétlődő szövegrészletek) bennhagyása (nagyrészt útleírások)
A duplum-szűréshez felhasznált kódot szeretnénk továbbfejleszteni azért, hogy az ELTE BTK Irodalomtudományi Intézete és a Digitális Bölcsészet Tanszék által létrehozott Stilometriai Kutatócsoportban az intertextus és az intratextus azonosítására tudjuk felhasználni más kutatásokban is.
A vizsgálat
Stylo
Előzetes vizsgálatok: manuálisan, a különböző paramétereket egyesével beállítva
Kevéssé átlátható
Nem megoldható benne minden távolságmérés
Pystyle
Mike Kestemont által készített, de már sok éve nem frissített, python programnyelvre átírt implementációja a Stylonak
Pydelta
Dokumentációval rendelkező kód
Kód és narráció
A Stylo-tól való ellépés és a Python-ban való futtatás előnyei:
Automatizálás, több száz beállítás lefuttatásának lehetősége.
Ellenőrizhetőség, megismételhetőség, átláthatóság.
Openscience elvek, kódok közzététele.
Stylo-ban nem elérhető beállítások futtatása.
Feature-ök keverése
Beállítások
MFW: A rövidítés a Most Frequent Words (leggyakoribb szavak) szóhármasra utal, ugyanakkor ezek nem feltétlenül szavakat jelentenek, hanem inkább szövegelemeket.
N-gram: Egy adott szöveg- vagy beszédminta N elemének egybefüggő sorozata.
Nem csupán szó n-gramokkal, de karakter n-gramokkal is tudunk számolni.
Culling: Az itt megadott szám jelentése, hogy a szó- vagy betűkombinációnak a korpuszban található szövegek hány százalékában kell előfordulnia ahhoz, hogy felhasználásra kerüljön az elemzés során.
Felhasznált távolságmértékek
Burrows deltája az egyik leggyakrabban használt távolságmérték. A 𝜇𝑖 és a 𝜎𝑖 a vizsgált szó átlagos előfordulását és szórását jelöli az egész korpuszban.
Eder deltája a Burrows-delta egy módosított verziója. Valamelyest megnöveli a gyakoribb szavak súlyozását, a ritkábbakét pedig csökkenti.
Az 𝑛𝑖 a vizsgált i-edik szó helye a listában, felülről.
A Koszinusztávolság (Cosine) szintén egy jól ismert, gyakran használt távolságmérték.
Két N dimenziójú vektor közötti hasonlóság mértéke a vektorok közötti szög koszinuszának
Eredmények
Korpusz: 15 szöveg
Culling: 10%
Feature: char 3-gram
Korpusz: 69 szöveg
Culling: 10%
Feature: char 3-gram
Korpusz: 15 szöveg
Culling: 10%
Feature: word 2-gram
Korpusz: 69 szöveg
Culling: 10%
Feature: word 2-gram
Vektortér - szóbeágyazás
Tóth Krisztina a Könyves Magazinban megjelent interjújában kifejtette, hogy mivel a gyermekek az iskolában olvasott művekből építik fel, milyenek a nemi szerepek, Jókai Mór Az aranyember című regényét ki kellene venni a kötelező olvasmányok közül.
"Tímea nem szereti a férjét, de engedelmesen szolgálja. Soha nincs egy rossz szava sem. Noémi szerelmes, de osztozik a férfin, sose kérdez, csak örül. Nem lázadozik hanem csinosan várja Tímárt, amikor az éppen ráér."
Hansági Ágnes a következőket írja Jókaival kapcsolatban:
"Timea ráadásul kifejezetten modern, emancipált nővé válik a regény végére."
"Jókai egyébként az egyik leginkább nőpárti írónk volt. A nőírókról folyó vitában kiállt mellettük."
Vektortér - szóbeágyazás
Felhasznált korpuszok:
Jókai-korpusz (66 regény, 6 elbeszélés, 14 kötet) + 8 naplórészlet, 2 útleírás, 9 korábbi kiadású novella
Referencia korpusz teljes anyaga (132 regény 55 szerzőtől)
Eredmények:
Köszönjük a figyelmet! D o k u m e n t u m n y e l v e : magyar K a p c s o l ó d ó d o k u m e n t u m n e v e : Bajzát Tímea Borbála - Szemes Botond - Szlávich Eszter: A magyar regény korpusza és a "távoli olvasás" A f o r m á t u m n e v e : PowerPoint prezentáció O l d a l a k s z á m a : 16 T e c h n i k a i m e g j e g y z é s : Microsoft Office PowerPoint 2016 M e t a a d a t a d o k u m e n t u m b a n : N A f o r m á t u m n e v e : PDF dokumentum O l d a l a k s z á m a : 16 M e t a a d a t a d o k u m e n t u m b a n : N A f o r m á t u m n e v e : HTML dokumentum T e c h n i k a i m e g j e g y z é s : HTML 5 verzió M e t a a d a t a d o k u m e n t u m b a n : N L e g j o b b f o r m á t u m : JPEG képállomány L e g n a g y o b b k é p m é r e t : 770x433 pixel L e g j o b b f e l b o n t á s : 72 DPI S z í n : színes T ö m ö r í t é s m i n ő s é g e : közepesen tömörített Á l t a l á n o s m e g j e g y z é s : Networkshop 2021 konferencia A z a d a t r e k o r d s t á t u s z a : KÉSZ S z e r e p / m i n ő s é g : katalogizálás A f e l d o l g o z ó n e v e : Nagy Zsuzsanna |