Metatieto ja dokumentointi>><<Kuinka digitoidaan ja arkistoidaan


Tiedostomuodot ja tallennusmediat

Tiedostomuodot voidaan jakaa säilytyskelpoisiin (eli arkistokelpoisiin) ja siirtokelpoisiin tiedostomuotoihin. Molempien tiedostomuotojen ominaisuuksiin kuuluu se, että ne ovat laajasti käytössä, minkä lisäksi säilytyskelpoiset tiedostomuodot ovat myös vapaasti käytettävissä, eli niiden käyttämiseen ei tarvita kaupallisia oikeuksia (toisin sanoen niiden käyttö on ilmaista). Siirtokelpoisista tiedostomuodoista voidaan tuottaa myös säilytyskelpoinen tiedostomuoto.

Oikein valittujen tiedostomuotojen tärkeyttä ei voi aliarvioida luotettavan pitkäaikaissäilytyksen näkökulmasta. Kaikille aineistotyypeille ei ole vielä vakiintunutta arkistokelpoista tiedostomuotoa, ja eri arkistoilla on erilaisia suosituksia. Esimerkiksi Kansalliset pitkäaikaissäilytyspalvelut (PAS) asettaa tiedostomuodoille seuraavia vaatimuksia:

  • Tiedostoissa EI SAA käyttää salasanasuojauksia eikä mitään muita salaustekniikoita. Näiden käyttäminen hankaloittaa aineistojen pitkäaikaista säilyttämistä, ja joissakin tapauksissa jopa estää sen.
  • Tiedostoissa EI SAA käyttää DRM (Digital Rights Management) -tekniikoita. Nämä voivat aiheuttaa ongelmia jopa bittitason säilyttämiselle.
  • Tiedostoja EI SAA pakata. Monet tiedostomuodot ovat pakattuja ja tällainen pakkaaminen on sallittua, mutta esimerkiksi erillinen pakkaaminen (zip jne.) on kiellettyä.
  • Tiedostosta EI SAA puuttua sen esittämiseen tarvittavia ulkoisia komponentteja. Tällaisia ovat esimerkiksi fontit ja muut linkitetyt aineistot, jotka vaikuttavat tiedoston esittämiseen.

Arkistokelpoiset tiedostomuodot vaihtelevat tiedoston tyypin mukaan. Tässä on esitelty muutamia suositeltuja tiedostomuotoja erityyppisille tiedostoille, kuten kuville ja dokumenteille.

PDF-tiedostoja varten on määritelty arkistointiin tarkoitettu PDF/A-standardi (PDF-Archive). PDF/A:sta on useita eri versioita, joista uusin on PDF/A-3, ja esimerkiksi PAS-palvelun suositus on PDF/A-1a ja PDF/A-1b. PDF/A-tiedostossa ei ole sellaisia tavallisen PDF-tiedoston ominaisuuksia, jotka ovat haitallisia tiedon luotettavalle pitkäaikaissäilyttämiselle, kuten salaus, äänet ja tekstiin upotetut hyperlinkit. Alla olevassa taulukossa on vertailtu eri PDF-tiedostojen ominaisuuksia.

TiedostomuotoStandardi Ominaisuudet Arkistokelpoisuus
PDFISO 32000-2Ei arkistokelpoinen. Tavallinen PDF-tiedosto sisältää esimerkiksi upotettuja linkkejä ja tekstin muotoiluja, jotka eivät sovellu arkistointiin.Ei
PDF/A-1 ISO 19005-1PAS-palvelun suosittelema standardi, josta on poistettu kaikki sellaiset ominaisuudet, jotka eivät sovi pitkäaikaissäilyttämiseen. Kyllä
PDF/A-2ISO 19005-2Sisältää mahdollisuuden upottaa muita PDF/A-tiedostoja, minkä avulla voidaan muodostaa useista dokumenteista koostuva kokoelma yhteen tiedostoon.Kyllä
PDF/A-3ISO 19005-3Vastaa PDF/A-2 -standardia, minkä lisäksi dokumenttiin voidaan upottaa muita tiedostoja (kuten tekstitiedostoja ja taulukkotiedostoja).Kyllä
Tavalliset txt-muotoiset tekstitiedostot soveltuvat myös arkistointiin yksinkertaisuutensa vuoksi, eli ne eivät sisällä esimerkiksi kuvia tai tekstin muotoilua. Tekstiä voidaan myös arkistoida CSV-muodossa (Comma Separated Values). CSV-tiedostoissa teksti on tallennettu taulukkomuodossa, ja rivit ja kentät on eroteltu pilkuilla ja rivinvaihdoilla. PDF/A on kuitenkin monipuolisin vaihtoehto, ja yleisenä ohjenuorana sitä voidaan pitää parhaana vaihtoehtona tekstiä sisältävien dokumenttien arkistoimiseen. PDF/A-tiedostoja pystytään myös vaivatta avaamaan verkkoselaimilla, mikä ei onnistu esimerkiksi TIFF-kuvatiedostoilla. PDF/A on myös aineistojen julkaisuun vaivattomasti soveltuva formaatti.

Ääntä voidaan tallentaa useissa eri muodoissa. Vaikka MP3 on kenties suosituin tiedostomuoto musiikin tallentamiseen, niin häviöllisenä formaattina se ei kuitenkaan ole ihanteellinen valinta pitkäaikaissäilytykseen. WAV (Waveform Audio Format) on suosittu pakkaamaton ja häviötön muoto, ja tarkemmin sanottuna PCM-koodattu WAV on hyvä valinta arkistointia varten. FLAC (Free Lossless Audio Codec) on myös kelvollinen häviötön formaatti. Äänen ja audiovisuaalisen arkistoinnin kansainvälinen yhdistys (IASA) kuitenkin suosittelee äänitiedostojen arkistointiin BWF-muotoa (Broadcast Wave Format). BWF on korkealaatuinen ääniformaatti ja se on myös yhteensopiva WAV-tiedostojen kanssa. BWF on myös PAS-palveluiden suositeltujen ääniformaattien listalla.

Videotiedostot muodostuvat niin sanotusta säiliömuodosta (container) ja koodekista (codec). Säiliömuoto on käytännössä kääre, jonka sisälle on tallennettu eri bittivirtoja, joista olennaisimpia ovat videon liikkuva kuva ja ääni. Muita bittivirtoja ovat esimerkiksi metatiedot tai vaikkapa elokuvien tekstitykset. Koodekin tehtävä puolestaan on ohjelmallisesti valmistella säiliömuodon sisältämät bittivirrat eri käyttötarkoituksiin, kuten videon toistaminen tai editoiminen. Koodekit voivat olla joko häviöllisiä tai häviöttömiä. Häviölliset menetelmät huonontavat videon ja äänen laatua, vaikka niillä saadaan kuitenkin pienennettyä tiedoston kokoa. Häviöttömät koodekit tuottavat parempaa laatua, mutta vastaavasti tiedostokoot ovat suurempia.

Suosituimpia ja yleisimpiä säiliömuotoja ovat AVI ja MOV. AVI-tiedostoissa usein käytetty koodekki on MPEG-4 AVC (H.264), jota käytetään esimerkiksi HD-televisiolähetyksissä ja Blu-ray-levyillä. Laajan levinneisyyden takia H.264 onkin hyvä valinta, jos halutaan varmistaa mahdollisimman suuri yhteensopivuus eri ohjelmien ja laitteiden kanssa. Myös esimerkiksi YouTube tukee näitä tiedostomuotoja, mikä kannattaa huomioida, jos vaikkapa digitoituja VHS-kotivideoita on tarkoitus jakaa verkossa. H.264 on kuitenkin häviöllisesti pakattua, joten laadullisesti on olemassa parempia vaihtoehtoja. Esimerkiksi JPEG 2000 on häviötön tiedostomuoto, ja sen säiliömuotona voi toimia Material Exchange Format (MXF) tai Motion JPEG 2000 (MJ2). Useat suuret organisaatiot suosivatkin MXF-kääreeseen tallennettua JPEG2000-videota. Suosittuihin säiliömuotoihin lukeutuu myös MOV (Quicktime), joka on laajalti käytössä pakkaamattoman videon pitkäaikaissäilytyksessä, ja sille löytyy myös tuki useista eri ohjelmista.

Vanhojen filmielokuvien digitointiin käytetään myös Digital Picture Exchange –formaattia (DPX), joka tallentaa jokaisen filmin kuvan yksittäisenä tiedostona. Tästä syystä DPX ei siis ole kovin käytännöllinen vaihtoehto omien kotifilmien digitointiin ja säilytykseen.

Videotiedostoille ei oikeastaan ole mitään täysin vakiintunutta arkistointikelpoista tiedostomuotoa, joka olisi jokaisen arkiston käytössä, vaan eri arkistot ovat valinneet käyttämänsä tiedostomuodot omien kriteerien perusteella. Kansalliset pitkäaikaissäilytyspalvelut (PAS-palvelut) hyväksyvät videotiedostoista MXF- tai MJ2-kääreeseen tallennettua JPEG 2000 –videota, MPEG-4-videoita ja DPX-videoita.

  BBC on ainoa arkisto maailmassa, joka käyttää videoiden arkistointiin MXF-kääreesssä pakkaamatonta ja häviötöntä v210-muotoa.

Tällainen videotiedosto vaatii kuitenkin valtavasti tallennustilaa: yksi tunti tällä menetelmällä tallennettua liikkuvaa kuvaa vaatii noin 100 gigatavua tallennustilaa. Videotiedostot vaativatkin yleensä runsaasti tallennustilaa, ja esimerkiksi tunnin mittainen video normaalilla DVD-laadulla vaatii lähes 4 gigatavua tallennustilaa. Videotiedoston kokoon pystyy kuitenkin vaikuttamaan huomattavasti laskemalla videon laatua. Arkistointiin soveltuvana tiedostomuotona pidetään myös pakkaamatonta AVI-formaattia. MP4/M4V-muodot ovat pakattuja ja laadultaan AVI-tiedostoja heikompia, vaikka niiden etuna on tiedostojen pienempi koko.


Kuvatiedostoja arkistoidaan useimmiten TIFF-muodossa, koska se on häviötön ja korkealaatuinen tiedostomuoto.  300 DPI:n tarkkuudella skannatut TIFF-kuvat ovat useimpiin tarkoituksiin riittävän korkealaatuisia. Suurin osa valmiiksi saatavilla olevista kuvista on kuitenkin yleensä JPEG-muotoisia, koska esimerkiksi kännykkäkamerat tuottavat oletuksena JPEG-muotoisia digitaalisia kuvia. JPEG tosin on häviöllinen formaatti ja siksi TIFF-kuvissa on parempi laatu. JPEG-muodosta on myös olemassa laadukkaampi JPEG 2000 -muoto (JP2), joka mahdollistaa sekä häviöttömän että häviöllisen kuvan pakkaamisen. JPEG 2000 onkin JPEG:tä parempi vaihtoehto kuvien pitkäaikaissäilyttämiseen, koska paremmasta laadusta huolimatta myös tiedostot ovat pienempiä.

PNG on myös korkealaatuinen kuvaformaatti, jota voidaan käyttää kuvien arkistointiin. PNG löytyy myös PAS-palveluiden sositeltujen tiedostomuotojen listalta.

Pakkaamaton PNG
Pakattu JPEG

Yllä on vertailtu pakatun JPEG-kuvan ja pakkaamattoman PNG-kuvan laatua (ympyrää sivuttain raahaamalla voi vertailla näitä kahta kuvaa). Kuvasta voi havaita, kuinka paljon pakkaaminen saattaa vaikuttaa kuvanlaatuun. Laadun kuitenkin huomaa myös tiedostojen koossa: heikkolaatuinen JPEG-kuva on kooltaan vain 257 kilotavua, kun laadukas PNG-kuva vie hulppeat 30 megatavua.

Kiteytettynä voitaisiin sanoa, että tiedosto on säilytyskelpoinen silloin kun sen sisältämä tieto säilyy ja pysyy muuttumattomana ajankulusta huolimatta. Tiedostomuotoina on hyvä käyttää formaatteja, joiden tekniset tiedot ovat julkisesti saatavilla. Avoimiin standardeihin perustuvat tiedostomuodot ovat arkistointia silmällä pitäen parempi vaihtoehto kuin yksityisomistukselliset formaatit. Kysynnän ja tarjonnan lakeja mukaillen suosituimmille tiedostomuodoille löytyy myös laajemmin yhteensopivia ohjelmistoja verrattuna sellaisiin tiedostomuotoihin, joilla on vain pieni käyttäjäryhmä. Arkistoitavan formaatin tärkeimpiä ominaisuuksia on pysyvyys, eli formaatin tulisi pysyä muuttumattomana pitkiäkin aikoja. Mikäli formaattiin tulee muutoksia, sen uudempien versioiden pitäisi olla yhteensopivia vanhojen versioiden kanssa.

Yksityisomistuksellisia tiedostoja hallinnoivat organisaatiot ja kaupalliset tahot jotka pitävät tiedostomuotojen tarkat tiedot piilossa yleisöltä. Tällaisia tiedostoja voi käsitellä vain tietyillä ohjelmilla ja ne vaativat käyttöoikeuksia johonkin ohjelmistoon. Avoimet tiedostomuodot sen sijaan ovat täysin julkisia, hyvin dokumentoituja ja niitä voi käsitellä laajasti eri ohjelmilla ja alustoilla. Avointen tiedostojen saatavuus on siis parempi, ja tästä syystä niitä pidetään yleisesti paremmin pitkäaikaissäilytykseen sopivina.

Tallennusmediat

Digitaaliset tiedostot pitää tietenkin tallentaa johonkin, missä niitä voidaan säilyttää pitkiäkin aikoja, ja henkilökohtaiseen digiarkistointiin on monia säilytysvaihtoehtoja. Yleisimpiä tallennusmedioita ovat

  • tietokoneen kovalevyt
  • USB-muistit
  • ulkoiset kovalevyt
  • optiset mediat (esim. DVD-levyt)
  • LTO-nauhat

Ulkoiset kovalevyt ovat helposti siirreltävissä paikasta toiseen, ja lisäksi niiden tallennuskapasiteetti on riittävä esimerkiksi kuvien tallentamista varten. Tavanomaiset USB-muistitikut ovat myös helposti siirreltävissä, vaikka niiden tallennuskapasiteetti ja kestävyys ei ole ulkoisten kovalevyjen kanssa samalla viivalla.

Tiedostojen, varsinkin videoiden ja kuvien, tallentaminen CD- ja DVD-levyille on melko suosittu digisäilytysmenetelmä. Näiden optisten tallennusmenetelmien huono puoli on kuitenkin kömpelö käytettävyys, ja esimerkiksi ulkoiselta kovalevyltä tiedostot on nopeampi avata. Lisäksi heikkolaatuisilta optisilta levyiltä tieto saattaa alkaa kadota jo kymmenessä vuodessa.

Kannattaa myös muistaa, että arkisto ei ole sama asia kuin varmuuskopio, vaikka se voikin sellaisena myös toimia. Oman digitaalisen aineiston säilömisessä on hyvä muistaa niin sanottu ”3-2-1” –sääntö: aineistosta on kolme eri kopiota, jotka on tallennettu kahdelle eri alustalle ja yksi kopio sijaitsee maantieteellisesti erillään muista kopioista.

Suurissa arkistoissa käytetään LTO-nauhoja suurten tietomäärien tallentamiseen. Nauhatallennus onkin halvin vaihtoehto runsaasti tallennustilaa vaativien aineistojen säilyttämiseen, vaikka toisaalta nauha-aseman hinta on korkeampi kuin tavanomaisten tallennusvälineiden kuten kiintolevyjen. Nauhatallennus on taloudellinen vaihtoehto vasta siinä vaiheessa kun aletaan puhua petatavujen tallennustarpeesta, ja tästä syystä on harvoin taloudellista käyttää nauhatallennusta omaan kotikäyttöön tarkoitetun digiarkiston tallennusmuotona. Esimerkiksi vuonna 2024 valmistuvan maailman suurimman radioteleskooppi Square Kilometer Arrayn päivittäin tuottama data vaatisi yli 300 tavallista kiintolevyä, jos jokaisen kiintolevyn tallennuskapasiteetti olisi kolme teratavua. Nauhat myös säästävät energiaa verrattuna tavanomaisiin kiintolevyihin.

Kaikilla tallennusformaateilla on omat rajoitteensa, eikä mikään formaatti kestä ikuisesti. Mitä enemmän tallennusvälinettä käytetään, sitä suurempi on riski, että se vahingoittuu. Tallennusvälineet pitääkin säilyttää turvallisessa ympäristössä, missä ne eivät altistu ilmankosteudelle tai lämpötilojen vaihtelulle.

Säilytysmenetelmät ja -järjestelmät vanhenevat ajan kuluessa, ja aineisto pitäisi säännöllisesti siirtää uudempiin järjestelmiin. Tällaista siirtämistä kutsutaan migraatioksi. Tavanomaiset tallennusmenetelmät myös eroavat hieman arkistointiin soveltuvista tallennusmenetelmistä. Siinä missä tavanomaisilla kovalevyillä ja muistitikuilla säilytettyä tietoa käytetään jatkuvasti, niin arkistoissa säilytetty tieto saattaa pysyä käyttämättömänä pitkiäkin aikoja, ja tämä asettaa erilaisia vaatimuksia arkistointiin tarkoitetuille tallennusmenetelmille. Tallennusvälineiden suunnittelussa pitää ottaa huomioon pitkä aikaväli ja niiden pitää myös olla kestäviä ja mahdollistaa säilytetyn tiedon eheyden tehokas seuranta.

Sähköinen arkisto ei täysin palvele tarkoitustaan, jos se ei kestä koko suunnitellun elinkaarensa ajan. Sähköisen arkiston hallinta ja ylläpito helpottuu, kun arkistossa ei käytetä useita eri tiedostomuotoja. Ennen arkistointiprojektin aloittamista onkin järkevää päättää, mikä on pienin mahdollinen määrä eri tiedostomuotoja jolla pystytään toteuttamaan haluttu arkisto.

  Arkistokelpoiset tiedostomuodot ovat korkealaatuisia

Pakkaamattomat tiedostomuodot mahdollisimman korkealla laadulla ovat arkistointiin paras vaihtoehto. Näin varmistetaan, että arkistoitavassa tiedostossa ei katoa alkuperäisen dokumentin sisältämää informaatiota.


  Kaikille aineistostyypeille ei vielä ole vakiintunutta tiedostomuotoa

Eri arkistoilla on omat suosituksensa arkistoitavista tiedostomuodoista.Testaa, kuinka hyvin hallitset tämän aihepiirin.

Jatka lukemista