D O K U M E N T U M A Z O N O S Í T Ó F á j l n é v : indig_balazs_portal_probaja_a_webaratas.jpg F ő c í m : A portál próbája a webaratás! B e s o r o l á s i c í m : Portál próbája a webaratás! E g y é b c í m : Magyar nyelvű hírportálok archívumainak vizsgálata a digitális örökség szemszögéből M i n ő s í t ő : alcím S z e r e p : létrehozó B e s o r o l á s i n é v : Indig U t ó n é v : Balázs I n v e r t á l a n d ó n é v : N E s e m é n y : felvéve I d ő p o n t : 2022-01-12 E s e m é n y : elérhető I d ő p o n t : 2021-11-24 D á t u m r a v o n a t k o z ó m e g j e g y z é s : Az előadás időpontja. A t í p u s n e v e : prezentáció A t í p u s n e v e : előadás M e g n e v e z é s : Prezentáció M e g n e v e z é s : Könyvtártudomány - prezentáció M e g n e v e z é s : OSZK Webarchívum A j o g t u l a j d o n o s n e v e : Indig Balázs S z e r z ő i j o g i m e g j e g y z é s e k : Jogvédett T é m a k ö r : Számítástechnika, hálózatok A l t é m a k ö r : Internetes technológia T é m a k ö r : Számítástechnika, hálózatok A l t é m a k ö r : Internet használat T é m a k ö r : Könyvtártan, információtudomány A l t é m a k ö r : Elektronikus szöveg és könyvtár T á r g y s z ó : portáloldal M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : web M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : digitális archívum M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : 2021 M i n ő s í t ő : időszak K é p a l á í r á s : A portál próbája a webaratás! Magyar nyelvű hírportálok archívumainak vizsgálata a digitális örökség szemszögéből N y e r s v a g y O C R - e s s z ö v e g : A portál próbája a webaratás!
Magyar nyelvű hírportálok archívumainak vizsgálata a digitális örökség szemszögéből
Indig Balázs
DigitÁlis ÖRÖKSÉg Nemzeti LaboRatÓRium ELTE BTK TI DigitÁlis BÖlcsÉszet TanszÉK
2021. november 24.
Bevezetés
A Digitális Örökség Nemzeti laboratórium (DH-Lab) feladata:
Az eleve digitális (born digital) kulturális örökségünk archiválása
Nagy tömegű, magyar szöveget is tartalmazó anyag
sajtóanyagok
médiatermékek
web 2.0-es források (blog, fórum, chat, stb.)
határon innen és túl
bármilyen jellegű kutatás, illetve oktatás számára
bölcsészeti, társadalomtudományi
piaci
elérhető, értelmezhető legyen
széles körben
szemantikus mélységben
Gépi feldolgozásra
Jó minőségű be- és kimenetek előállításával
szabványos, nemzetközi projektekben is használható
a teljesség igényével, filológiai minőségben
A legnagyobb volumenű filológiai projekt
Kezdetnek 6 millió cikk 25 hírportálról
Megfelel 20 évig 20 nyomtatott napilap minden számának (40 cikk per lapszám)
A papír alapú forrásokhoz képest nagyságrendekkel bonyolultabb
A hitelesség kérdése
A módosulás/sérülés/eltűnés kérdése
A teljesség kérdése
A két évvel ezelőtti előadásom: http://videotorium.hu/hu/recordings/35075
Probléma
A magyar hírportálok teljesen átlagosak: „Wordpress az egész világ”
A portálok 60%-a és az összes weboldal 40%-a ilyen (forrás)
„Széthekkelt Wordpress”
A Wordpress mindent tud, de...
„Nyílt forrásom hatalom, nyílt forrásom eladom”
Ez nem egy kialakult világ, fejlődik, frissül
Hibák jönnek és hibák mennek
Nincs felelőse, nincs értéke
Stratégiai kérdések
Titkolózni kell, mert a XXXXXX ellopja
Csak az új cikkek számítanak, mert azokból van reklámbevétel
Monetizálni kell a vagyont! (A régi/népszerű cikkek paywall mögé kerülnek.)
Mi lesz a digitális örökséggel?
Élen járó példák
Wikipedia!
Mindenkinek ugyanazt mutatja, nincs személyre szabott tartalom
Emberek által olvasható permalinkek
Verziókezelt, metaadatolt (GIT, mint minta)
Minden módosításnak van dátuma és szerkesztője (a visszavonásnak is)
Minden módosítás elérhető és hivatkozható
Ezt mind tudja a Wordpress is! Csak be kell kapcsolni...
A crawlerek a Wordpress dolgaira tanulnak rá
Vannak újdonságok, amik még a küszöbön állnak: Blockchain-alapú hitelesítés
A tartalom hitelességét egy olyan elosztott hálózat garantálná, mint ami a Bitcoin-ét
Ha a szereplők is akarják...
Portált crawljáról, archivistát kitartásáról!
Lehet akármilyen a portál kinézete, amíg
Van napi, havi, éves cikkarchívum, szükség esetén ezeken belül lapozás
Minden cikk egyszer szerepel az archívumban, de egyszer legalább szerepel
Minden cikk egyedi azonosítóval rendelkezik vagy teljesen rendezhető
Emberek által olvasható permalink minden oldalra
Ha változott a link, átirányítás a régiről az új linkre
Az új linken jelzés: "csak a link új, a tartalom megegyezik" (pl. egyedi cikkazonosító)
Szabványos, géppel olvasható metaadatok
A formázás és a tartalom szétválasztása: a formai változtatás nem ront el tartalmat
Nincsenek végtelen közvetítések
Néhány érdekes hiba, amivel eddig találkoztunk
A rovatok eltűnnek, átneveződnek, elérhetetlenné válnak
A cikkek URL-jébe valami hiba kerül (pl. URL-kódolás és az Unicode karakterek)
Rovatonként van csak archívum, az alrovatok duplikálják az archívumot
Angol- és magyarnyelvű cikkek vegyesen
Dátum scripttel van csak generálva (pl. tegnap, múlthéten)
Ismétlődő reklám "cikkek" az archívumban
Nem működő formázási elemek (pl. lapozások)
Latin-1 vagy Latin-2 kódolás 2021-ben (!)
Import hibák (pl. másodpercre azonos időben megjelent cikkek, kódolási hibák)
Különféle (teljesen másként működő) portálok összedrótozása
Hiányos, rossz, ellentmondásos metaadatok (meta tag vs. ember számára látható)
Az említett hibák kezelése
A saját crawlerünk a fenti hibákat kezelni tudja (Indig és tsai. 2020)
A formázást a saját megoldásunkkal hibátlanul egységesítjük (HTML2TEI)
Automatikusan összevetjük, kiegészítjük az archívumainkat
Archive.org
CommonCrawl
Vizsgáljuk a konkurens megoldásokat, amit lehet, automatikusan összehasonlítunk
Felajánljuk a segítségünket a portál üzemeltetőknek!
A legrosszabb, ami történhet egy oldallal, ha az emberek nem látogatják
A hibák eltántorítják a felhasználókat, a crawlereket viszont nem
Nem elég csak jó tartalmat szolgáltatni, a hosszútávú megbízhatóság is fontos
Haladni kell a web fejlődésével, de nem a minőség rovására
A hitelesség kérdése
Miért bízna bárki bennünk?
Mi történik, ha feltörik a mi archívumainkat?
Ugyanez igaz a portálüzemeltetőkre vagy az Archive.org-ra!
A hibajelző- és hibajavító-kódoknak külön szakterülete van
Blockchain: teljesen digitális pénzeket alapoznak rá
Hibajavító-kódok + Blockchain = WarChain (Lendák, Indig és Palkó 2021)
Jelenleg kísérleti stádiumban van, a crawler(ek) kimenetének validálására tervezve
Ha be tudnánk építeni a Wordpressbe...
Összefoglalás
A DH-LAB feladata a kutatás, fejlesztés a digitális örökség területén
A memóriaintézmények feladata az anyagok megőrzése
Szabványos, filológiai minőségű kimenet, összevethető más gyűjteményekkel
Hatalmas adatmennyiség, hibák és hibalehetőségek tárháza
A portálok nagy része Wordpress (és a hibák ebből fakadnak)
A saját megoldásaink kezelik az eddig szóbajött hibákat
A hitelesség kérdése felmerül a portáloknál és a webarchívumoknál is
Blockchain-re alapuló hitelességellenőrzés, kísérleti stádiumban
Közeljövő: Eszközök és archívumok automatikus összevetése, napi webaratás
Köszönöm a figyelmet!
https://dh-lab.hu/ https://elte-dh.hu/ https://github.com/elte-dh
https://zenodo.org/communities/elte-dh D o k u m e n t u m n y e l v e : magyar K a p c s o l ó d ó d o k u m e n t u m n e v e : Indig Balázs: Online sajtócikkek adatbázisba rendezése webaratás segítségével A f o r m á t u m n e v e : PowerPoint prezentáció O l d a l a k s z á m a : 12 T e c h n i k a i m e g j e g y z é s : Microsoft Office PowerPoint 2016 M e t a a d a t a d o k u m e n t u m b a n : N A f o r m á t u m n e v e : PDF dokumentum O l d a l a k s z á m a : 12 M e t a a d a t a d o k u m e n t u m b a n : N A f o r m á t u m n e v e : HTML dokumentum T e c h n i k a i m e g j e g y z é s : HTML 5 verzió M e t a a d a t a d o k u m e n t u m b a n : N L e g j o b b f o r m á t u m : JPEG képállomány L e g n a g y o b b k é p m é r e t : 770x433 pixel L e g j o b b f e l b o n t á s : 96 DPI S z í n : színes T ö m ö r í t é s m i n ő s é g e : közepesen tömörített A z a d a t r e k o r d s t á t u s z a : KÉSZ S z e r e p / m i n ő s é g : katalogizálás A f e l d o l g o z ó n e v e : Nagy Zsuzsanna |