[Oslo kommune, Byarkivet]

Digitale formater – fra produksjon til bevaring

De fleste av oss tenker ikke på hvorvidt det dokumentet vi skriver på i dag kommer til å være lesbart om noen tiår. Vi skal jo bare avslutte saksbehandlingen ved at brevet blir skrevet ut og sendt til mottaker. Idet vi lagrer brevet velger imidlertid programmet vi arbeider i, automatisk det formatet det selv forholder seg lettest til. De fleste av oss skriver våre brev i Word, og lagrer med filnavn som "digitale formater3.doc", for lettere å finne dem senere, men uten å reflektere over hvilke konsekvenser valget av format vil ha.

Av Ole Myhre Hansen


Problemet med Microsofts Word-format er imidlertid nettopp det at det kun er Word som har et uproblematisk forhold til formatet. Forsøk å hente et slikt dokument opp i en annen leverandørs tekstbehandler. Da ser du snart at det ikke er problemfritt. Som oftest går det imidlertid greit, og en konvertering gjennomføres uten at det krever store anstrengelser. Dette er fordi Microsofts programmer er store og utbredte og de andre små, slik at alle som vil inn på markedet med tekstbehandlere, er nødt til å ta hensyn til Microsofts Word-format. Men prøv å åpne en relativt lite utbredt tekstbehandlers lagringsformat i Microsoft Word. Sjansen er stor for at du må ut på nettet for å finne det rette filteret for konverteringen, om Microsoft i det hele tatt har tatt seg bryet med å lage det.

Alle programmer vi bruker har slike egne formater. Om vi arbeider med tekst, databaser, grafikk, 3D, lyd eller video, vil det programmet du jobber med som oftest forholde seg lettest til sitt "eget format". Slike formater er ikke særlig populære i miljøer hvor filer flyttes fram og tilbake som en del av arbeidsprosessen. Derfor er det, i de fleste hovedgrupper av programmer, utarbeidet standarder som gjør det mulig å arbeide på den samme filen med ulik programvare.

For tekstbehandlingen sin del er det ofte formatet RTF eller Word, for bilder blir JPG-formatet mye brukt og for lyd er det kanskje WAV-formatet som som oftest blir benyttet. Listen over slike standardformater er lang og de fleste enkeltprogrammer forholder seg greit til dem. Problemet får imidlertid et nytt perspektiv når man ikke skal jobbe med de samme formatene innenfor en noenlunde samtidighet.

Innenfor arkivtenkingen får begrepet "samtidighet" et annet innhold enn innenfor et dynamisk grafisk miljø. For arkivaren er i prinsippet alt som er yngre enn 25 år samtidsdokumenter. Dette fordi dokumenter og annet materiale som regel ikke skal avleveres før det har nådd denne alderen. På bakgrunn av den relativt korte erfaringsbakgrunnen vi har på området, må vi derfor ta utgangspunkt i formater som har vist seg levedyktig over en lengre periode, før vi velger utvekslingsformater som skal fungere på tvers av ulike samtider. Målsettingen er jo at vi skal kunne dele filene over tidsperioder som omfatter, i det minste, et par menneskealdre.

Finnes det så standardformater i dag som har rukket å nå en slik alder, og derved er kvalifisert som generasjonsformater? Svaret er ja, i den grad man kan si at alle formater som kan åpnes i dag – selv om de er over fem-ti år – er generasjonsformater. Hvis vi imidlertid krever at formatene er vidt utbredt og i daglig bruk, det vil si at de også er samtidsformater, vil listen over slike "levedyktige" formater reduseres betraktelig.

Et siste poeng som det må tas hensyn til i forbindelse med formater som skal vare lenge, er at de ikke må være for sterkt knyttet til én produsent. Dette fordi produsenten kan tre ut av markedet og slutte å vedlikeholde formatet. Det er heller ikke ønskelig at en hel verdens historiske arv kankje blir avhengig av en produsents forgodtbefinnende. Det er derfor med rette blitt hevdet at slike formater må være uavhengige av Bill Gates'er, av operativsystemer og av programvare. Og som et siste poeng bør slike formater være dokumentert, og dokumentasjonen være tilgjengelig for offentligheten, slik at enhver fritt kan rekonstruere formatet.
Listen over "levedyktige" formater er nå svært kort.

Arkivformater
Norge er et av de landene som har gått til det skritt å definere slike "generasjonsformater". Riksarkivaren har i sin NOARK-standard identifisert et sett digitale formater som har fått status som arkivformater. Det som kjennetegner disse, er som nevnt at de skal være fristilt fra enkeltapplikasjoner, operativsystemer og leverandører. De skal være åpent dokumentert og de skal ha bevist sin levedyktighet over tid.

De norske arkivformatene er:
Ren tekst - ISO 8859-1: 1998, Latin-1
TIFF – Tag Image File Format, alternativt som:
 1)  TIFF, versjon 6 (Aldus/Adobe, 1992), baseline, som "multiple page" eller "single page", eller:
 2)  ISO-versjonen TIFF/IT – ISO 12639: 1998.
SGML – ISO 8879: 1986: Standard Generalized Markup Language, herunder subset-formatene HTML og XML
PDF – Portable Document Format

Den enkelte depotinstitusjon vil kunne definere noen av disse formatene som foretrukne, og derved redusere antall fomater man må håndtere. Men – man vil snart oppleve at listen ikke er uttømmende. Problemet er at listen er for fokusert på "tradisjonelt EDB-arkivmateriale", det vil si tekstdokumenter, databaser og registre. I og for seg er dette naturlig, siden listen har blitt definert som et resultat av arbeidet med å skape standardiserte journal-/saksystemer for det offentlige.

Vi har imidlertid behov for arkivformater til bruk innenfor andre typer systemer også.

Grafikkformater
Fra Riksarkivarens liste er det kun to formater som egner seg for langtidslagring av punktgrafikk med høy kvalitet, nemlig TIFF og PDF. TIFF er et format som i standard form lagrer grafikken i ukomprimert stand. Det finnes kompresjonsteknologier, f.eks CITT og LZW, men disse er ikke utbredt i grafiske miljøer.

De fleste vil derfor snart oppdage at TIFF krever mye disk-plass i forhold til f.eks. formatet JPG eller GIF. Dette er fordi JPG er et komprimert format som i utgangspunktet ble laget for å kunne lagre store mengder grafikk uten at harddisker gikk fulle, og som en bi-effekt ga mulighet til å kunne overføre filer over nettet. Programvareleverandører til internettproduksjon, webdesignere og -brukere, fotografmiljøer og billedbyråer, har derfor mer eller mindre ukritisk omfavnet formatet som en defacto standard for filoverføring og publisering av grafikk på nettet.

JPG og GIF har altså store fordeler sett ut fra ulike kostnadsperspektiver, men kvalitativt er de mye dårligere formater enn TIFF. Dette betyr at alle fotografier og lignende, som blir til som en del av en saksbehandling, i den grad det er mulig og hensiktsmessig, bør benytte seg av TIFF som lagringsformat.

Det er likevel mange argumenter som taler for at JPG og GIF bør inn på listen over godkjente arkivformater. For det første er ikke informasjonstapet vesentlig, når det gjelder JPG, såfremt man ikke benytter seg av for hard komprimering. For det andre er de uavhengige formater i forhold til programvarer og programvareleverandører, og de er operativsystemuavhengige. De er også formater som er vidt utbredt, og som har bevist sin levedyktighet over lang tid.

Sist, men ikke minst, er de – som nevnt –formater som er standard innenfor all internett-publikasjon. Skal vi som depotinstitusjoner i framtiden kunne ta i mot internettsider som arkivmateriale, vil disse miste sin funksjonalitet hvis vi ikke tillater begge formatene som arkivformater for grafikk.

I prinsippet må det i tillegg kunne hevdes at JPG-formatet allerede regnes som et godkjent arkivformat. Dette fordi PDF er et arkivformat. Og hva har PDF og JPG med hverandre å gjøre? Jo, når man produserer et PDF-dokument vil man oppdage at Acrobat som default velger seg JPG som underformat når publikasjonen inneholder grafikk. Hvis ikke produsenten av filen gjør et aktivt valg i lagringsøyeblikket, vil JPG følge dokumentet automatisk, uten at man for ettertiden enkelt kan kontrollere eller endre det.

Det er ikke ønskelig å oppfordre arkivskapere til å bruke formater som er underlegne rent kvalitativt. Men produksjonsmiljøene vil i liten grad ta hensyn til absolutte krav fra arkivmiljøet – så fremt de ikke er funksjonelle. Det er derfor avgjørende at kravene er fleksible og at de oppfattes som relevante for de verktøyene som blir brukt. Målsettingen i arkivmiljøene må derfor være at man oppretter skiller mellom ulike formater ut fra funksjon, og stiller krav der det er hensiktsmessig, ut fra vurderinger om hvor høy kvaliteten trenger å være, ut fra saksbehandlingshensyn.

Eksempelvis vil det være lite hensiktsmessig å kreve TIFF-formatet gjennomført i forhold til arkivering av internettsider. Først og fremst fordi dette går ut over funksjonaliteten i den aktuelle web-publikasjonen, men også fordi grafikken ofte er produsert kun for å publiseres via web.

Vektorgrafikk
Innenfor visse arkivskapende miljøer produseres grafikken i hovedsak ved hjelp av vektorbasert grafikk. Som et aktuelt eksempel fra arkivmiljøene, kan arkitekttegninger nevnes. En metodikk som innebærer at man opphever den funksjonaliteten som ligger i vektorbasert grafikk ved å "fryse" produktet i TIFF-format, må kunne hevdes å være destruktiv. I arkivsammenheng vil det endelige resultatet kanskje være tilstrekkelig i form av et punktbasert produkt, hvis man regner historikeren som vår viktigste bruker. Men hvis kommunen selv skal kunne utnytte sine egne produkter i teknisk og økonomisk sammenheng, vil et TIFF-format være jevngodt med et papirformat.

Byarkivet har jevnlig besøk av arkitekter og entrepenører som har oppdrag for kommunen i forbindelse med ombygginger eller opprustninger av bygningsmassen. Det vanlige er at disse får papirkopier av arkitekt- og tekniske tegninger. Papirkopiene skannes så til f.eks. TIFF, for i neste omgang å "DAKKes", det vil si at bygningene rekonstrueres innenfor et verktøy som f.eks. AutoCAD. Prosessen er møysommelig og konsulenthonorarene kommer raskt opp i flere titalls tusener kroner. I mange tilfeller er imidlertid papirkopiene opprinnelig produsert i et slikt verktøy, og plottet på papir for å legges i arkiv. Hvor ble det av filen, spør vi oss?

For offentlige institusjoner som skal ta vare på den historiske dokumentasjonen som produseres innenfor sitt mandatområde, vil det etter Byarkivets syn være galt å ikke forsøke å ta vare på den fulle informasjonen som ligger i f.eks. en CAD-fil. Til forskjell fra TIFF-filen er CAD-filen målsatt ned til millimeters nøyaktighet, og kan derved være bærer av vital informasjon. Om ikke dette alltid vil være et sentralt punkt for en bevaringsstrategi, vil det offentliges egne økonomiske interesser være et argument for å bevare funksjonaliteten i et slikt dokument.

Problemet ligger selvsagt i å finne standarder for slike 3D-dokumenter. Et søk på nettet på f.eks. "CAD formats" eller "3D formats" avslører, ikke overraskende, at det er en lang liste av formater som er i bruk i disse produksjonsmiljøene. De fleste på listen til f.eks. Center for Innovative Computer Applications (http://www.cica.indiana.edu/graphics/3D.objects.html), mangler de generelle kriteriene som kreves av et arkivformat. Men noen av disse er nøytrale i forhold til applikasjoner og har derved potensiale som arkivformat.

Lyd og video
Det er ikke i mange sammenhenger at kommunen produserer arkivverdige dokumenter innenfor lyd og bilde, men det forekommer. Informasjonsfilmer i forbindelse med jubileumsfeiringer er ikke uvanlige å finne, og disse er i seg selv dokumenter som regnes som arkivverdige. Så langt har disse kun vært å finne på analoge filmruller eller video, men vi vet allerede om de første heldigitale produksjonene i Oslo kommune. Hvordan skal vi ta vare på disse?

Nasjonalbiblioteket i Mo i Rana har valgt å lagre lydfiler i WAV-format i to relativt høye oppløsninger (CD-kvalitet), og har derved i praksis tatt initiativet til et standardiseringsforsøk. I tillegg lagrer de i MP3-format for å kunne formidle lyd over nett og til brukere på lesesal og lignende. Likeledes har Statens arkiver i Danmark åpnet for å ta i mot lydfiler i MP3-format, og det kan derfor hevdes å være deres valg av arkivformat for lyd.

Ut fra vår vurdering har Nasjonalbiblioteket gjort et riktigere valg enn det danske Rigsarkiv. Argumentene for å lagre i kun MP3 er få, i og med at det er et underlegent format rent kvalitativt. Lagringsplass er ikke et argument i denne sammenhengen, selv om WAV-formatet krever om lag ti ganger den plassen en MP3-fil tar. Man får imidlertid det samme problemkomplekset i forhold til Internett som man har mellom TIFF og JPG. Begge formatene må derfor godkjennes, men valget av lagringsformat må styres ut fra funksjonssammenheng.

Danskene har også åpnet for å ta i mot filmmateriale i MPEG-2. Dette er det formatet som blir brukt i produksjonen og distribusjonen innenfor det kommersielle DVD-markedet, og borger for at formatet vil ha en rimelig lang levetid. På nettet finnes formatet imidlertid ikke i det hele tatt, fordi filene er for store. Listen av filmformater til bruk på Internett er lang, og om den ikke er av tilsvarende lengde som for 3D-formater, så er det nok å velge i. Det er imidlertid ingen som peker seg ut som egnete arkivformater, men formatet MPEG leses av de fleste egnete programmer, og har mer eller mindre fått status som standardformat.

Byarkivet har ikke den kompetansen som kreves til å anbefale verken lyd- eller videoformater til bruk innen Oslo kommune, og vi er derfor nødt til å støtte oss på de miljøer som har større ressurser enn oss. Inntil Riksarkivaren definerer lyd- og bildeformater som er hensiktsmessige ut fra arkivfaglige vurderinger, oppfordrer vi kommunens etater til å bruke WAV (16 bits, 44KHz) for lydfiler som krever høy kvalitet, og MP3 for filer som skal formidles over Internett. Likeledes oppfordrer vi til å bruke MPEG-2 i videoproduksjon og MPEG som formidlingsformat.

Vi vil understreke at dette kun er foreløpig anbefalte formater, og at de ikke har status som arkivformater i norsk sammenheng.

Funksjonsavhengig framtid?
Riksarkivarens arkivformat-liste bør i framtiden ha en funksjonsavhengig oppdeling som identifiserer bruksområder for enkeltformater. For eksempel vil det være hensiktsmessig å identifisere formater for bruk innenfor de fire områdene denne artikkelen har problematisert – Internett og vektorgrafikk, lyd- og videoproduksjon.


TOBIAS 3/2001