Tiedostomuodot ja tallennusmediat>><<Johdanto digitointiin ja digiarkistointiin


Kuinka digitoidaan ja arkistoidaan

Digitointia voi tehdä itse kotona, ja lisäksi useat kirjastot tarjoavat kansalaisille maksuttoman mahdollisuuden digitoida henkilökohtaisia aineistoja. Mikäli digitoitavaa aineistoa on paljon tai tekninen toteutus vaikuttaa liian haastavalta, voi digitointipalvelun myös ostaa siihen erikoistuneelta yritykseltä. Yksityishenkilö pystyy usein toteuttamaan oman digitointiprojektin ilman ulkopuolista palveluntarjoajaa, koska aineiston määrä on suhteellisen pieni. Yhdistysten ja pienten yritysten digitointiprojekti saattaa kuitenkin vaatia useiden eri osapuolten yhteistyötä ja huolellista suunnittelua, ja varsinainen digitointi on vain yksi osa kokonaisuutta. Digitointiin kuuluu huolellista suunnittelua, valmistelua, testausta, varsinaista digitointia, tiedostojen käsittelyä ja jatkuvaa laadunvalvontaa.

Digitoinnissa kannattaa myös ottaa huomioon se, halutaanko samalla muodostaa digiarkisto, vai onko digitoinnin tarkoituksena ainoastaan luoda kopiot alkuperäisestä aineistosta. Digitointi on järkevää tehdä arkistonäkökulmasta ja tähdätä siihen, että digitaaliset tiedostot samalla arkistoidaan.

Suunnitteluvaiheessa tehdään digitointisuunnitelma. Suunnitelmassa otetaan huomioon kaikki projektin osat. Suunnittelun jälkeen ensimmäinen työvaihe on aineiston valmistelu digitointia varten. Valmistelussa aineisto seulotaan ja luetteloidaan. Valmisteluun kuuluu myös aineiston fyysisen kunnon varmistaminen digitointiin sopivaksi. Aineistosta siis poistetaan haitalliset esineet, kuten klemmarit, teipit ja niitit yms. Kansioissa ja muovitaskuissa säilytetyt asiakirjat puretaan. Huonokuntoiset asiakirjat merkataan ja niille valmistellaan sopivat digitointimenetelmät, jotka eivät vahingoita asiakirjoja.

Aineiston käsittelyn aikana tulee huomioida myös työergonomia ja työturvallisuus. Vanhoissa paperisissa aineistoissa saattaa esiintyä hometta, joka on terveydelle haitallista. Homeisten asiakirjojen käsittelyssä tulee käyttää asianmukaisia välineitä, kuten hengityssuojaimet ja suojakäsineet. Homeisten aineistojen käsittelystä tarjoaa lisää tietoa Kansalliskirjaston ohjeet home-epäillyn tai homeisen aineiston käsittelyyn.

Ennen kuin dokumentteja aletaan työntää skanneriin, niin digitointivälineet tulee testata ja kalibroida. Näiden työvaiheiden jälkeen aloitetaan varsinainen digitointi. Digitoinnin tuloksena syntyvien tiedostojen laatua tarkkaillaan koko työvaiheen ajan, ja mahdolliset laatuvirheet korjataan. Yksi työläimmistä vaiheista on tiedostojen metatietojen luominen. Osa metatiedoista pystytään luomaan automaattisesti, mutta myös manuaalista metatietojen syöttämistä tarvitaan. Tiedostot nimetään kuvailevasti ja tallennetaan oikeissa formaateissa. Alla olevassa taulukossa on yksinkertainen muistilista suositelluille tiedostoformaateille aineiston tyypin mukaan. Tiedot perustuvat KDK-PAS -palvelun määrityksiin suositelluista tiedostomuodoista, joihin voi tutustua tarkemmin täällä.

Aineiston tyyppi Tiedostomuoto
Tekstidokumentit PDF/A-1,2,3
Kuvat TIFF, JP2 (JPEG 2000)
Video JPEG2000, MPEG4
Ääni WAV, BWF

Digitoinnissa on tärkeää, että alkuperäisen aineiston tieto säilyy muuttumattomana, kun se muutetaan digitaaliseen muotoon. Aineiston digitointia aloitettaessa ensimmäisiä kysymyksiä on varmaankin se, missä järjestyksessä alkuperäistä aineistoa pitäisi alkaa digitoida. Tässä on hyvä priorisoida aineisto sen fyysisen kunnon perusteella, eli kaikkein huonokuntoisin aineisto, joka lähestyy elinkaarensa loppua, kannattaa digitoida ensimmäisenä (Mäkelä 2017). Digitoitava aineisto saattaa nimittäin olla hyvin huonossa kunnossa, kuten vaikkapa vanhat kirkonkirjat. Sivut saattavat olla hauraita ja lahonneita, joten niiden käsittely vaatii huolellisuutta, mikä puolestaan hidastaa digitointiprosessia. Usein voi olla aiheellista antaa konservointiasiantuntijan arvioida aineisto ennen digitointia, jotta saadaan selville, tarvitseeko aineistoon kohdistaa joitakin toimenpiteitä sen säilymisen turvaamiseksi. Luonnollisesti myös aineiston samankaltaisuus nopeuttaa digitointia, koska tarvitaan vähemmän erilaisia laitteita ja ohjelmia.

Paperisen aineiston, kuten dokumenttien ja kuvien, digitointiin on käytännössä kaksi vaihtoehtoa: valokuvaaminen tai skannaaminen. Molemmilla menetelmillä on mahdollista tuottaa hyvälaatuisia ja tarkkoja digitaalisia jäljenteitä alkuperäisestä aineistosta. Eroja löytyy kuitenkin käytettävyydestä, kustannuksista ja siinä, kuinka paljon aikaa operaatio vaatii.  Dokumenttien valokuvaamiseen tarvitaan hyvä valaistus, jonka asettelu vaatii aika ja vaivaa, kun taas skannerilla tätä seikkaa ei tarvitse ottaa huomioon. Lisäksi kamera ja dokumentin alusta täytyy asetella tukevasti niin että ne eivät pääse liikkumaan kuvauksen aikana. Valokuvaamisen etuna on se, että se on skannaamista hienovaraisempi menetelmä. Useimmissa älypuhelimissa on riittävän hyvä kamera dokumenttien digitointia varten, tai tarvittaessa voi ostaa järjestelmäkameran, joiden hinnat alkavat noin 400:stä eurosta.

Skannerit maksavat halvimmillaan alle sata euroa, ja tavanomainen skanneri on riittävän hyvä henkilökohtaiseen digitointiin. Skannerin asentaminen varsinkin Windows-ympäristössä onnistuu helposti USB-liittimen kautta. Useimmiten ei tarvitse kuin kytkeä skannerin USB-kaapeli tietokoneen USB-porttiin, minkä jälkeen Windowsin asetuksista etsitään kohta ”laitteet” ja valikon kohdasta ”lisää tulostin tai skanneri”. Windows etsii saatavilla olevia skannereita, ja kun listaan on löytynyt haluttu skanneri, valitaan se ja klikataan ”lisää laite”.

Digitointimenetelmä kannattaa valita sen perusteella, millaista aineistoa aiotaan digitoida. Valokuvaaminen sopii kuluneille ja hauraille asiakirjoille, jotka eivät välttämättä säilyisi ehjinä skannerin läpi. Skanneri on kätevä vaihtoehto hyväkuntoisille dokumenteille. Valaistukseen sopivat vähän lämpöä tuottavat valonlähteet, koska perinteiset hehkulamput tuottavat suuria määriä lämpöä, joka on haitallista paperille ja musteelle.

Skannauksen yhteydessä on joskus mahdollista valita tiedostomuoto, jossa kuva tallennetaan. Mikäli valittavissa on TIFF-muoto, on se paras vaihtoehto kuvien pitkäaikaissäilytystä varten. Yleisimmin käytetyt tiedostomuodot ovat JPEG ja TIFF, joista ensinmainittu on laadultaan heikompi, mutta toisaalta vie vähemmän tilaa tietokoneen kovalevyltä. Yleisesti voidaan sanoa, että TIFF on pitkäaikaissäilyttämistä silmällä pitäen parempi valinta. Tiedostomuodoista voi lukea lisää täältä.

  Yleensä kuvat digitoidaan 24-bittisinä (väridigitointi) ja tekstidokumentit 8-bittisinä (harmaasävydigitointi). Varsinkin väridigitoinnissa on tärkeää, että digitaalisen jäljenteen värimaailma vastaa mahdollisimman todenmukaisesti alkuperäisen kuvan värimaailmaa.


Kuvien skannaamisessa olennaista on kuvan resoluutio, joka ilmoitetaan arvoilla PPI (Pixels Per Inch) tai DPI (Dots Per Inch), eli pikseleiden tai pisteiden määrällä tuumaa kohti. Käytännössä suurempi resoluutio tarkoittaa tarkempaa kuvaa. 300 PPI on riittävän suuri resoluutio useimmille dokumenteille, jotka ovat vähintään kokoa A4. Arkistolaitos suosittelee, että tavallista A4-kokoista paperiarkkia pienemmille dokumenteille käytetään suurempaa resoluutiota kuin 300 PPI. Tällaisia pieniä dokumentteja voivat olla esimerkiksi kuitit ja diakuvat. Suurempi resoluutio on tarpeellinen siksi, että pienet dokumentit saadaan tarvittaessa suurennettua alkuperäistä koko suuremmiksi vaikkapa tietokoneen näytöllä, ja suuremman resoluution ansiosta dokumentit pysyvät tarkkuudeltaan luettavina.

Oheisessa taulukossa on listattu Arkistolaitoksen käyttämiä resoluutioita eri kokoisille dokumenteille. Arkistolaitoksen vaatimuksiin digitoidulle aineistolle voi perehtyä tarkemmin täällä.

Originaalin kokoResoluutio
6x9cm1600 ppi
9x12cm1200 ppi
13x18cm900 ppi
18x24cm600 ppi
A3 (tai suurempi)300 ppi

Kun dokumentit on muunnettu digitaaliseen muotoon, täytyy niistä vielä erotella teksti. Skannaaminen ja valokuvaaminen nimittäin tuottavat digitaalisia kuvatiedostoja, eli tietokone ei ymmärrä, että kuvat sisältävät tekstiä, vaikka ihmiselle teksti olisikin luettavissa ja ymmärrettävissä. Alkuperäisen aineiston tekstin tallentaminen digitaaliseen muotoon on elintärkeää arkiston hyödyntämisen kannalta, koska tällöin tekstiä voidaan kopioida ja sen perusteella aineistoon voidaan kohdistaa hakuja.

Tekstintunnistus eli OCR (Optical character recognition) on menetelmä, jossa digitaalisista kuvista etsitään kirjoitettua sisältöä, joka tunnistuksen jälkeen tallennetaan tekstiksi. Tekstintunnistamista varten on tärkeää, että skannauksen aikana skannattavien dokumenttien kaikki sisältö on skannerin havaittavissa. Eli dokumentin sivuissa ei saa olla esimerkiksi taitettuja kulmia, joiden alle saattaa jäädä piiloon sisältöä. OCR-palveluja on saatavilla ilmaisina verkkosovelluksina, kuten Online OCR osoitteessa https://www.onlineocr.net/.

Äänen ja kuvan digitointiin tarvitaan sellainen laite, joka osaa lukea tietoa alkuperäiseltä tallenteelta. Esimerkiksi vanhojen VHS-nauhojen toistamiseen käytettävä videonauhuri pitää kytkeä tietokoneeseen, joka pystyy tallentamaan sisällön digitaalisessa muodossa tietokoneen kovalevylle. Vanhoja videonauhureita löytyy läjäpäin esimerkiksi kirpputoreilta, mikäli sellaista ei löydy omasta varastosta. Video- ja äänisignaalin siirtämistä varten löytyy markkinoilta videosieppareita, joka liitetään videonauhurin analogisesta ulostuloliitännästä tietokoneen USB-liitäntään.

Videosieppareiden hinnat liikkuvat halvimmillaan noin 40 euron paikkeilla, ja mukana toimitetaan yleensä myös aineiston toistamiseen, käsittelyyn ja tallentamiseen tarvittava ohjelmisto. Ohjelmistot ovat useimmiten helppokäyttöisiä ja tarjoavat myös lisäominaisuuksia videon editointiin.

Äänitteiden, kuten vanhojen C-kasettien ja vinyylilevyjen, digitointi onnistuu samalla tavalla kuin VHS-nauhojen digitointi. Helpoimmillaan ei tarvita erillistä siepparia tai adapteria, vaan alkuperäisen äänitteen toistamiseen käytettävä laite liitetään kaapelilla suoraan tietokoneen äänikortin sisääntuloliitäntään (Line in), joka mahdollistaa ulkoisen äänilähteen signaalin kaappaamisen. Äänikorttien liitännät on värikoodattu, ja Line in on yleensä sininen liitäntä. Äänen käsittelyyn ja tallentamiseen on saatavilla ilmaisia ohjelmistoja, kuten Audacity (https://www.audacityteam.org/).

Tiedonvälityksestä suuri osa tapahtuu sähköisesti esimerkiksi sähköpostin ja sosiaalisen median välityksellä. Varsinkin sähköpostissa saattaa olla runsaasti sellaisia dokumentteja ja viestejä, jotka olisi hyvä saada arkistoitua. Sähköpostien arkistointiin ei vielä ole olemassa mitään yhteistä käytäntöä. Yksi tapa on muuttaa jokainen yksittäinen sähköpostiviesti arkistokelpoiseksi PDF-tiedostoksi, mikä kuitenkin vie aikaa ja resursseja. Microsoftin Outlook-sähköpostiohjelmasta pystyy tallentamaan sähköpostit erillisenä pst-tiedostona, jonka avaamiseen kuitenkin aina vaaditaan Outlook, ja tästä syystä se ei ole ihanteellinen tapa arkistoida sähköposteja. Sähköpostien arkistoinnissa ongelmia aiheuttavat myös sähköpostien liitetiedostot, koska ne voivat olla missä formaatissa tahansa. Digitalialla on kehitteillä sovellus, joka tekee pst-tiedoston sisältämistä sähköpostiviesteistä yksittäisiä arkistokelpoisia PDF/A-tiedostoja. Sovellusta voi testata osoitteessa https://digitalia.xamk.fi/email-converter#!/.

Digiarkiston muodostaminen

Arkistoa suunniteltaessa voidaan hieman soveltaen noudattaa esimerkiksi Marc Freskon neljää ohjetta:

  • Selvitetään ensin, mitä säilytetään, eli aineistolle suoritetaan seulonta.
  • Selvitetään, kuinka kauan aineistoa säilytetään.
  • Selvitetään, kuinka paljon resursseja käytetään aineiston säilyttämiseen ja kuinka paljon siitä maksetaan.
  • Päätetään, mitkä ovat ne toimintatavat, joilla nämä tavoitteet saavutetaan.

Jos organisaation tiedonhallinta on retuperällä, niin aineistoa saattaa olla tallennettuna useaan eri pilvipalveluun, kuten Google Drive ja Office 365, eikä aineistoa ole mitenkään jäsennelty tai luokiteltu. Tällaisten aineistojen arkistointi voi osoittautua haastavaksi, koska ei ole tietoa mistä ja kuinka pitäisi lähteä liikkeelle. Kaikkea aineistoa ei välttämättä tarvitse tai edes haluta arkistoida, joten ensimmäisenä on lähdettävä seulomaan aineistoa, jotta voidaan päättää, mitä halutaan arkistoida. Mikäli samaa tietoa on tallennettuna useina eri kopioina, valitaan aina se tiedosto, joka on laadultaan paras.

  Eri aineistoille voi olla vaikeaa määritellä arvoa, mikä tekee seulonnasta haastavaa.

Yrityksille arvonmäärityksessä on hyvä noudattaa yleistä ohjetta, jonka mukaan hävitettäväksi kelpaavaa aineistoa on sellainen aineisto, johon ei sisälly todistusarvoa, ja arkistoidaan vain oman toiminnan tuloksena syntynyt aineisto. Lisäksi on hyvä muistaa, että samasta dokumentista ei tarvitse arkistoida useita kappaleita.


Varsinkin kuvia saattaa olla useita samankaltaisia, koska kännykkäkameroiden yleisyys ja helppo käytettävyys on lisännyt valokuvaamisen helppoutta, joten kuvista kannattaa valita arkistoitavaksi vain parhaiten onnistuneet otokset. Seulonnan tuloksena aineiston koko pienenee huomattavasti, mikä puolestaan säästää aikaa ja kustannuksia. Kannattaa kuitenkin pohtia myös aineiston tulevaa käyttötarkoitusta. Jos esimerkiksi kuvia tai dokumentteja aiotaan jossain vaiheessa muokata, niin kuvista kannattaa arkistoida mahdollisimman korkealaatuiset ja pakkaamattomat versiot, minkä lisäksi luodaan niin sanottu käyttökopio, joka on tiedostokooltaan pienempi. Käyttökopiot on tarkoitettu tiedoston jakamiseen ja muuhun käyttöön. Dokumenteista on järkevää ottaa talteen sekä arkistokelpoinen PDF-tiedosto että muokattavissa oleva alkuperäinen tekstitiedosto, joka voi olla vaikkapa perinteinen Word-tiedosto.

Seulonnassa kannattaa käyttää apuna esimerkiksi Yksityisten Keskusarkistojen laatimaa erinomaista listaa, joka löytyy osoitteesta www.yksityisetkeskusarkistot.fi/.

YKA:n listan mukaan säilytettävää aineistoa ovat:

  • pöytäkirjat/muistiot sekä pöytäkirjojen liitteet, esimerkiksi tilinpäätökset ja talousarviot
  • toimintakertomukset ja -suunnitelmat
  • lähteneiden kirjeiden kopiot
  • puheet, esitelmät, artikkelit, luennot
  • itse tuotetut tutkimukset, raportit, yhteenvedot, tilastot
  • luettelot (esimerkiksi jäsen- ja toimihenkilöluettelot)
  • säännöt, rekisteröinti- ja organisaatiouudistuksiin liittyvät asiakirjat
  • sopimukset
  • omien kurssien, koulutusten, juhlien, tapahtumien asiakirjat
  • valokuvat, diat, filmit, videot ja muut tallenteet
  • itse tuotetut painotuotteet (lehdet, kalenterit, julisteet, mainokset, esitteet, kartat, piirustukset)
  • saapuneet kirjeet ja asiakirjat, jotka ovat aiheuttaneet toimenpiteitä

Seuraavia aineistoja ei säilytetä pysyvästi:

  • Saapuneet kiertokirjeet, yleiskirjeet, tiedotteet ja “jakelussa mainitut” -kirjeet
  • Tiedoksi saapuneet pöytäkirjat tai muut asiakirjat
  • Lähetekirjeet, joissa ei ole olennaista tietoa
  • Lyhyet viestit, ilmoitukset, mainokset
  • Tiliotteet ja tositteet

Oma arkisto ei välttämättä tarkoita sitä, että aineiston pitäisi sijaita jossakin ulkoisen palveluntarjoajan omistamassa arkistojärjestelmässä. Yksityishenkilön, pienen yrityksen tai yhdistyksen oma digiarkisto voi sijaita esimerkiksi tietokoneen kovalevyllä tai jossakin pilvipalvelussa johdonmukaisesti järjestetyissä kansioissa. On kuitenkin hyvä tiedostaa, että omalla tietokoneella tai pilvipalvelussa sijaitseva digiarkisto ei täytä kaikki "oikeiden arkistojen" kriteereitä. Esimerkiksi tietoturva ja tiedostojen eheyden valvonta on puutteellista oikeisiin arkistoihin verrattuna. Arkistosta pitäisi myös olla varmuuskopio tallennettuna johonkin toiseen järjestelmään, jotta vältetään laitteiston fyysisten vahinkojen aiheuttama tietojen katoaminen tai vaurioituminen.

Arkistolle suunnitellaan ja toteutetaan loogisesti ja kuvaavasti nimetty kansiorakenne. Mikäli fyysinen arkisto on jo entuudestaan olemassa, niin digiarkiston muodostaminen helpottuu, koska voidaan käyttää samaa arkistokaavaa kuin alkuperäisessä arkistossa. Jos digiarkisto muodostetaan tyhjästä, niin apuna voidaan käyttää erilaisia arkistokaavoja. Helpoimmillaan kuitenkin arkiston kansiorakenne voidaan järjestellä esimerkiksi asiakirjojen tyypin mukaan. Toinen tapa on luoda kansiorakenne niiden tehtävien mukaan, joihin asiakirjat liittyvät.


Tiedostot pitää myös nimetä järkevästi, joten tiedostojen nimissä kannattaa käyttää esimerkiksi päivämääriä ja sisältöä kuvailevia termejä. Tiedostojen nimissä ei kannata käyttää välilyöntejä, ääkkösiä (Å, Ä ja Ö) eikä erikoismerkkejä. Välilyönnit voi korvata alaviivalla (_) ja esimerkiksi ä-kirjaimet korvataan a-kirjaimilla. Metatiedot määritellään tiedoston luomisen yhteydessä.

Jos arkisto halutaan luovuttaa jollekin ulkopuoliselle palveluntarjoajalle, niin luovuttajan ja vastaanottajan kesken sovitaan siirtopaketin normista. Suomessa julkisen sektorin määritys on Sähke 2. Tätä arkistolle luovutettavaa pakettia kutsutaan luovutuspaketiksi (SIP, Submission Information Package).

OAIS-standardissa (Open Archival Information System) määritellään siirtopaketin lisäksi myös säilytyspaketti (AIP, Archival Information Package) ja jakelupaketti (DIP, Dissemination Information Package). OAIS-mallista voi lukea lisää täällä. Käytännössä yksityishenkilön tai yrityksen tarvitsee huolehtia vain siitä, että luovutuspaketti on arkiston määrityksen mukainen.

Mäkelä, J. 2017. Kestävän äänen jäljillä 2. Faili 4/2017, 14-17.

  Digitointia voi tehdä itse kotona tai ostaa palveluna

Tavanomaisella skannerilla on mahdollista digitoida paperisia dokumentteja. Myös kirjastot tarjoavat ilmaiseksi digitointipalveluja.


  Kameralla pystyy digitoimaan dokumentteja ja kuvia

Aina ei tarvita kalliita laitteita, ja perinteiset älypuhelimet ovat usein riittävän hyviä yksityisen henkilön digitointitarpeisiin. Valokuvaaminen on kuitenkin hieman skannaamista työläämpi menetelmä.


  Kuvatiedostoista täytyy erikseen tunnistaa ja erotella teksti

Skannaus ja valokuvaaminen tuottavat kuvatiedostoja, joista tietokone ei automaattisesti havaitse tekstiä. Tekstintunnistaminen eli OCR-tekniikka (Optical Character Recognition) tutkii kuvatiedostoja ja etsii niistä tekstiä.



Testaa, kuinka hyvin hallitset tämän aihepiirin.

Jatka lukemista