D O K U M E N T U M A Z O N O S Í T Ó 
 F á j l n é v : indig_balazs_portal_probaja_a_webaratas.jpg
C Í M 
F ő c í m : A portál próbája a webaratás!
B e s o r o l á s i   c í m : Portál próbája a webaratás!
E G Y É B   C Í M 
E g y é b   c í m : Magyar nyelvű hírportálok archívumainak vizsgálata a digitális örökség szemszögéből
M i n ő s í t ő : alcím
A L K O T Ó 
S z e r e p : létrehozó
B e s o r o l á s i   n é v : Indig
U t ó n é v : Balázs
I n v e r t á l a n d ó   n é v : N
D Á T U M 
E s e m é n y : felvéve
I d ő p o n t : 2022-01-12
E s e m é n y : elérhető
I d ő p o n t : 2021-11-24
D á t u m r a   v o n a t k o z ó   m e g j e g y z é s : Az előadás időpontja.
D O K U M E N T U M T Í P U S 
A   t í p u s   n e v e : prezentáció
A   t í p u s   n e v e : előadás
R É S Z G Y Ű J T E M É N Y 
M e g n e v e z é s : Prezentáció
M e g n e v e z é s : Könyvtártudomány - prezentáció
E R E D E T I   K I A D V Á N Y ,   O B J E K T U M 
S Z Á R M A Z Á S I   H E L Y 
M e g n e v e z é s : OSZK Webarchívum
J O G K E Z E L É S 
A   j o g t u l a j d o n o s   n e v e : Indig Balázs
S z e r z ő i   j o g i   m e g j e g y z é s e k : Jogvédett
T É M A 
T é m a k ö r : Számítástechnika, hálózatok
A l t é m a k ö r : Internetes technológia
T é m a k ö r : Számítástechnika, hálózatok
A l t é m a k ö r : Internet használat
T é m a k ö r : Könyvtártan, információtudomány
A l t é m a k ö r : Elektronikus szöveg és könyvtár
T Á R G Y S Z Ó 
T á r g y s z ó : portáloldal
M i n ő s í t ő : tárgyszó/kulcsszó
T á r g y s z ó : web
M i n ő s í t ő : tárgyszó/kulcsszó
T á r g y s z ó : digitális archívum
M i n ő s í t ő : tárgyszó/kulcsszó
I D Ő - H E L Y   T Á R G Y S Z Ó 
T á r g y s z ó : 2021
M i n ő s í t ő : időszak
L E Í R Á S 
K é p a l á í r á s : A portál próbája a webaratás!
Magyar nyelvű hírportálok archívumainak vizsgálata a digitális örökség szemszögéből
N y e r s   v a g y   O C R - e s   s z ö v e g : A portál próbája a webaratás! Magyar nyelvű hírportálok archívumainak vizsgálata a digitális örökség szemszögéből Indig Balázs DigitÁlis ÖRÖKSÉg Nemzeti LaboRatÓRium ELTE BTK TI DigitÁlis BÖlcsÉszet TanszÉK 2021. november 24. Bevezetés A Digitális Örökség Nemzeti laboratórium (DH-Lab) feladata: Az eleve digitális (born digital) kulturális örökségünk archiválása Nagy tömegű, magyar szöveget is tartalmazó anyag sajtóanyagok médiatermékek web 2.0-es források (blog, fórum, chat, stb.) határon innen és túl bármilyen jellegű kutatás, illetve oktatás számára bölcsészeti, társadalomtudományi piaci elérhető, értelmezhető legyen széles körben szemantikus mélységben Gépi feldolgozásra Jó minőségű be- és kimenetek előállításával szabványos, nemzetközi projektekben is használható a teljesség igényével, filológiai minőségben A legnagyobb volumenű filológiai projekt Kezdetnek 6 millió cikk 25 hírportálról Megfelel 20 évig 20 nyomtatott napilap minden számának (40 cikk per lapszám) A papír alapú forrásokhoz képest nagyságrendekkel bonyolultabb A hitelesség kérdése A módosulás/sérülés/eltűnés kérdése A teljesség kérdése A két évvel ezelőtti előadásom: http://videotorium.hu/hu/recordings/35075 Probléma A magyar hírportálok teljesen átlagosak: „Wordpress az egész világ” A portálok 60%-a és az összes weboldal 40%-a ilyen (forrás) „Széthekkelt Wordpress” A Wordpress mindent tud, de... „Nyílt forrásom hatalom, nyílt forrásom eladom” Ez nem egy kialakult világ, fejlődik, frissül Hibák jönnek és hibák mennek Nincs felelőse, nincs értéke Stratégiai kérdések Titkolózni kell, mert a XXXXXX ellopja Csak az új cikkek számítanak, mert azokból van reklámbevétel Monetizálni kell a vagyont! (A régi/népszerű cikkek paywall mögé kerülnek.) Mi lesz a digitális örökséggel? Élen járó példák Wikipedia! Mindenkinek ugyanazt mutatja, nincs személyre szabott tartalom Emberek által olvasható permalinkek Verziókezelt, metaadatolt (GIT, mint minta) Minden módosításnak van dátuma és szerkesztője (a visszavonásnak is) Minden módosítás elérhető és hivatkozható Ezt mind tudja a Wordpress is! Csak be kell kapcsolni... A crawlerek a Wordpress dolgaira tanulnak rá Vannak újdonságok, amik még a küszöbön állnak: Blockchain-alapú hitelesítés A tartalom hitelességét egy olyan elosztott hálózat garantálná, mint ami a Bitcoin-ét Ha a szereplők is akarják... Portált crawljáról, archivistát kitartásáról! Lehet akármilyen a portál kinézete, amíg Van napi, havi, éves cikkarchívum, szükség esetén ezeken belül lapozás Minden cikk egyszer szerepel az archívumban, de egyszer legalább szerepel Minden cikk egyedi azonosítóval rendelkezik vagy teljesen rendezhető Emberek által olvasható permalink minden oldalra Ha változott a link, átirányítás a régiről az új linkre Az új linken jelzés: "csak a link új, a tartalom megegyezik" (pl. egyedi cikkazonosító) Szabványos, géppel olvasható metaadatok A formázás és a tartalom szétválasztása: a formai változtatás nem ront el tartalmat Nincsenek végtelen közvetítések Néhány érdekes hiba, amivel eddig találkoztunk A rovatok eltűnnek, átneveződnek, elérhetetlenné válnak A cikkek URL-jébe valami hiba kerül (pl. URL-kódolás és az Unicode karakterek) Rovatonként van csak archívum, az alrovatok duplikálják az archívumot Angol- és magyarnyelvű cikkek vegyesen Dátum scripttel van csak generálva (pl. tegnap, múlthéten) Ismétlődő reklám "cikkek" az archívumban Nem működő formázási elemek (pl. lapozások) Latin-1 vagy Latin-2 kódolás 2021-ben (!) Import hibák (pl. másodpercre azonos időben megjelent cikkek, kódolási hibák) Különféle (teljesen másként működő) portálok összedrótozása Hiányos, rossz, ellentmondásos metaadatok (meta tag vs. ember számára látható) Az említett hibák kezelése A saját crawlerünk a fenti hibákat kezelni tudja (Indig és tsai. 2020) A formázást a saját megoldásunkkal hibátlanul egységesítjük (HTML2TEI) Automatikusan összevetjük, kiegészítjük az archívumainkat Archive.org CommonCrawl Vizsgáljuk a konkurens megoldásokat, amit lehet, automatikusan összehasonlítunk Felajánljuk a segítségünket a portál üzemeltetőknek! A legrosszabb, ami történhet egy oldallal, ha az emberek nem látogatják A hibák eltántorítják a felhasználókat, a crawlereket viszont nem Nem elég csak jó tartalmat szolgáltatni, a hosszútávú megbízhatóság is fontos Haladni kell a web fejlődésével, de nem a minőség rovására A hitelesség kérdése Miért bízna bárki bennünk? Mi történik, ha feltörik a mi archívumainkat? Ugyanez igaz a portálüzemeltetőkre vagy az Archive.org-ra! A hibajelző- és hibajavító-kódoknak külön szakterülete van Blockchain: teljesen digitális pénzeket alapoznak rá Hibajavító-kódok + Blockchain = WarChain (Lendák, Indig és Palkó 2021) Jelenleg kísérleti stádiumban van, a crawler(ek) kimenetének validálására tervezve Ha be tudnánk építeni a Wordpressbe... Összefoglalás A DH-LAB feladata a kutatás, fejlesztés a digitális örökség területén A memóriaintézmények feladata az anyagok megőrzése Szabványos, filológiai minőségű kimenet, összevethető más gyűjteményekkel Hatalmas adatmennyiség, hibák és hibalehetőségek tárháza A portálok nagy része Wordpress (és a hibák ebből fakadnak) A saját megoldásaink kezelik az eddig szóbajött hibákat A hitelesség kérdése felmerül a portáloknál és a webarchívumoknál is Blockchain-re alapuló hitelességellenőrzés, kísérleti stádiumban Közeljövő: Eszközök és archívumok automatikus összevetése, napi webaratás Köszönöm a figyelmet! https://dh-lab.hu/ https://elte-dh.hu/ https://github.com/elte-dh https://zenodo.org/communities/elte-dh
D o k u m e n t u m   n y e l v e : magyar
K A P C S O L A T O K 
K a p c s o l ó d ó   d o k u m e n t u m   n e v e : Indig Balázs: Online sajtócikkek adatbázisba rendezése webaratás segítségével
F O R M Á T U M 
A   f o r m á t u m   n e v e : PowerPoint prezentáció
O l d a l a k   s z á m a : 12
T e c h n i k a i   m e g j e g y z é s : Microsoft Office PowerPoint 2016
M e t a a d a t   a   d o k u m e n t u m b a n : N
A   f o r m á t u m   n e v e : PDF dokumentum
O l d a l a k   s z á m a : 12
M e t a a d a t   a   d o k u m e n t u m b a n : N
A   f o r m á t u m   n e v e : HTML dokumentum
T e c h n i k a i   m e g j e g y z é s : HTML 5 verzió
M e t a a d a t   a   d o k u m e n t u m b a n : N
M I N Ő S É G 
L e g j o b b   f o r m á t u m : JPEG képállomány
L e g n a g y o b b   k é p m é r e t : 770x433 pixel
L e g j o b b   f e l b o n t á s : 96 DPI
S z í n : színes
T ö m ö r í t é s   m i n ő s é g e : közepesen tömörített
S T Á T U S Z 
A z   a d a t r e k o r d   s t á t u s z a : KÉSZ
F E L D O L G O Z Ó 
S z e r e p   /   m i n ő s é g : katalogizálás
A   f e l d o l g o z ó   n e v e : Nagy Zsuzsanna