D O K U M E N T U M A Z O N O S Í T Ó 
 F á j l n é v : kpeter_webarch.jpg
C Í M 
F ő c í m : Web harvesztelés
B e s o r o l á s i   c í m : Web harvesztelés
E G Y É B   C Í M 
E g y é b   c í m : Automatikus módszerekkel
M i n ő s í t ő : alcím
A L K O T Ó 
S z e r e p : létrehozó
B e s o r o l á s i   n é v : Kovács
U t ó n é v : Péter
I n v e r t á l a n d ó   n é v : N
D Á T U M 
E s e m é n y : felvéve
I d ő p o n t : 2016-08-04
E s e m é n y : létrehozva
I d ő p o n t : 2010-03-19
D á t u m r a   v o n a t k o z ó   m e g j e g y z é s : A prezentáció készítésének dátuma
D O K U M E N T U M T Í P U S 
A   t í p u s   n e v e : prezentáció
R É S Z G Y Ű J T E M É N Y 
M e g n e v e z é s : Prezentáció
M e g n e v e z é s : Könyvtártudomány - prezentáció
E R E D E T I   K I A D V Á N Y ,   O B J E K T U M 
S Z Á R M A Z Á S I   H E L Y 
M e g n e v e z é s : Networkshop
J O G K E Z E L É S 
C r e a t i v e   C o m m o n s   k ó d : Attribution-NonCommercial 2.5
T É M A 
T é m a k ö r : Számítástechnika, hálózatok
A l t é m a k ö r : Internet általában
T é m a k ö r : Számítástechnika, hálózatok
A l t é m a k ö r : Internet használat
T Á R G Y S Z Ó 
T á r g y s z ó : internet
M i n ő s í t ő : tárgyszó/kulcsszó
T á r g y s z ó : alkalmazás
M i n ő s í t ő : tárgyszó/kulcsszó
T á r g y s z ó : web
M i n ő s í t ő : tárgyszó/kulcsszó
T á r g y s z ó : weblap
M i n ő s í t ő : tárgyszó/kulcsszó
T á r g y s z ó : adatgyűjtés
M i n ő s í t ő : tárgyszó/kulcsszó
T á r g y s z ó : adatfeldolgozás
M i n ő s í t ő : tárgyszó/kulcsszó
I D Ő - H E L Y   T Á R G Y S Z Ó 
L E Í R Á S 
K é p a l á í r á s : Webharvesztelés Automatikus módszerekkel
N y e r s   v a g y   O C R - e s   s z ö v e g : Web harvesztelés Automatikus módszerekkel Kovács Péter Országos Széchényi Könyvtár Miről lesz szó? Mi is az a web harvesztelés? Mire és hol használjuk? Miért hasznos? Saját megvalósításaink Mi a web harvesztelés? (web aratás) Interneten található weboldalak begyűjtése, majd az adatok feldolgozása (Pl.: kereshetővé tétele) Lépések Adatok begyűjtése (crawl) Feldolgozás (index) Közzététel (search) Nem egy új keletű dolog Mire és hol használjuk a szolgáltatást, miért hasznos? Főként keresésre használjuk Otthon, munkahelyen, iskolákban – mindenhol, ahol internet van Hasznos Gyors, egyszerű keresés Szűrési lehetőségek („” , site: stb.) Tárolt változat Hasznosak, ingyenesek, DE… Nem a sajátunk, ezért Nem azt aratjuk, amit mi szeretnénk Nem akkor aratunk, amikor mi szeretnénk Forráskód nincs a birtokukban, ez fejlesztési szempontból hátrány Harvesztelt adatok sincsenek a birtokunkban Kulturális értékeket meg kell őrizni, ennek a legjobb módja, ha eltároljuk őket Saját megoldások Szerettünk volna olyan megoldást, ahol MI irányítjuk a harvesztelést + adott esetben fejleszteni is tudjuk a szolgáltatást 3 dolog hiányzott: Szerver, tárhely, ember. Open Source programokat kerestünk Ingyenesek Forráskód, beállítások elérhetők Segítség (Forum, wiki, howto) Szerver Teszteléshez használt konfiguráció (Hp Proliant ML350) 2 magos Intel Xeon Processzor (32 bit) 2 GB RAM SCSI merevlemez Javasolt szerver konfiguráció (Ideális esetben 3 szerver) 2*2 vagy 1*4 magos processzor (64 bit) 8 GB RAM SAS vagy SSD merevlemez Operációs rendszer Debian linux 5.0 (Lenny) Linux disztribúciók közül az egyik legjobb Vannak tapasztalataink Gyors, stabil, biztonságos Ingyenes Felhasznált programok Crawler – adatok begyűjtését végzi Indexer - fulltext kereséshez Indexer – URL kereséshez Java alap kereső felületekhez használjuk Folyamat Adat gyűjtés (Crawl) Adatok indexelése (Fulltext és URL kereséshez) Központi adattároló (Storage) Kereső felületek Heritrix Aktuális stabil verzió: 3.0.0 Weboldalak begyűjtését végzi (crawl) Warc.gz fájlokban tárolja az adatokat WARC (Web ARChive) fájl – képeket, dokumentumokat stb. is a fájlban tárolunk Tömörített fájl – helymegtakarítás fontos a nagyobb harveszteléseknél Szabványnak köszönhetően más programok gond nélkül kezelik WARC fájl – timestamp (időbélyeg) Fájl névben van egy időbélyeg – mikor készült a fájl Minden egyes url mellé a Heritrix szintén hozzáad egy időbélyeget Pl.: 20090914123124 – Egyedi Fontos szerepe van Heritrix - GUI nutchwax Jelenlegi stabil verzió 0.13 Begyűjtött adatokat indexeljük vele I/O műveletek miatt magas memória és gyors merevlemez igény Index adatbázisban keresünk Fulltext keresés Mindent leindexel ami a warc fájlban van Szöveges dokumentumokban (PDF, DOC, RTF stb.) is kereshetek Képek, videók, flash fájlok stb nevére kereshetek Nutchwax - Search Java alapú kereső, Apache Tomcat alatt fut Java miatt lassú, nem könnyű szerkeszteni Nutchwax - Opensearch Nem kell hozzá Java, HTML alapú Gyors, könnyű beágyazni weblapokba Nucthwax – search vs. opensearch Opensearch - all versions Wayback machine Jelenlegi stabil verzió 1.4.2 Szintén a begyűjtött adatokat indexeljük vele Index adatbázisában keresünk (kisebb méret) URL-ek keresésére használjuk Kezeli az időbélyegeket Azonos URL címek között különbséget tesz Verziókövetésre kiváló Timestamp példa http://www.oszk.hu/index.html aratva lett: 20090914123124 = 2009.09.14 12:31:24 20091023092522 = 2009.10.22 09:25:22 Bár az URL cím ugyanaz, az időbélyeg, mint egy egyedi azonosító megkülönbözteti a 2 harvesztelést Wayback kereső www.oszk.hu/index.html - 2009.09.14 www.oszk.hu/index.html - 2009.10.22 Heritrix vs. Google Hol tartunk, tervek Tesztelési fázis Kell még tesztelni Új szerver – 6.0-ás Debián tesztje Tervek Teljes magyar domain (.hu) fél évenkénti, illetve különböző oldalak - események időszakos harvesztelése Két további szerverre lenne szükség, ezzel kapcsolatban már fordultunk a fenntartókhoz Forrásanyagok http://crawler.archive.org/ http://archive-access.sourceforge.net/projects/nutch/ http://www.archive.org/web/web.php http://tomcat.apache.org/ Köszönöm a figyelmet kovacs.peter@oszk.hu
D o k u m e n t u m   n y e l v e : magyar
K A P C S O L A T O K 
K a p c s o l ó d ó   d o k u m e n t u m   n e v e : Drótos László: Mi a MIA? Javaslat egy Magyar Internet Archívum létrehozására
F O R M Á T U M 
A   f o r m á t u m   n e v e : PowerPoint prezentáció
O l d a l a k   s z á m a : 28
T e c h n i k a i   m e g j e g y z é s : Microsoft Office PowerPoint 2003
M e t a a d a t   a   d o k u m e n t u m b a n : N
A   f o r m á t u m   n e v e : HTML dokumentum
T e c h n i k a i   m e g j e g y z é s : HTML 5 verzió
M e t a a d a t   a   d o k u m e n t u m b a n : N
M I N Ő S É G 
L e g j o b b   f o r m á t u m : JPEG képállomány
L e g n a g y o b b   k é p m é r e t : 770x433 pixel
L e g j o b b   f e l b o n t á s : 96 DPI
S z í n : színes
T ö m ö r í t é s   m i n ő s é g e : közepesen tömörített
S T Á T U S Z 
A z   a d a t r e k o r d   s t á t u s z a : KÉSZ
F E L D O L G O Z Ó 
S z e r e p   /   m i n ő s é g : katalogizálás
A   f e l d o l g o z ó   n e v e : Nagy Zsuzsanna