FAQ – Arkkiivi

UKK

Vilka typer av filer kan jag överlämna till Arkkiivi?

Till Arkkiivi kan du överlämna material i följande filformat: png, tif, tiff, pdf, xml och txt. Igenkänningen av metadata stöder endast maskinskriven text.

I vilket format får jag ut resultaten från Arkkiivi?

Användaren kan ladda ner resultaten i csv-format.

Jag kan inte testa Arkkiivi, jag får säkerhetsvarningar. Hur ska jag göra?

Den egentliga testmiljön fungerar fortfarande via en okrypterad http-anslutning. Därför kan vissa organisationers säkerhetspolicy utgöra ett hinder för övergång. Under projektets gång syftar vi också till att ta fram en skyddad https-anslutning för testmiljön.

Är de filer som laddats upp i Arkkiivi säkra?

Nej, vem som helst som har tillgång till servern kan granska filerna. Arkivet lagrar dock inte uppladdade filer någonstans, utan filerna tas bort efter körningen.

Finns det några säkerhetsrisker i Arkkiivi?

Ja. Arkkiivis utvecklingsmiljö är en demomiljö som visar vad man kan göra med de artificiella intelligensfunktioner som finns bakom Arkkiivi.

Kommer källkoderna för Arkkiivi eller för enskilda komponenter att delas ut?

De utbildade modellerna inklusive deras källkoder finns på webbplatsen GitHub

Komponenten verkar inte fungera på det sätt som den utifrån beskrivningen förväntas göra. Gör jag något fel?

Modellerna bakom komponenterna har utbildats med vissa undervisningsmaterial. Därför är det mycket möjligt att komponenternas funktion kan vara bristfällig med just det material som du använder. Vid analys av materialets textinnehåll använder komponenterna appen Tesseract för tolkning av maskinskriven text. Därför känns en handskriven text vanligtvis igen felaktigt, och fel kan naturligtvis också uppstå vid tolkningen av en maskinskriven text. De komponenter som känner igen metadata i texter fungerar därför inte i handskrivet material. Däremot fungerar den komponent som känner igen tomma sidor eller skanningsfel också i handskrivet material eller foton. I fråga om digitalt skapat material utgör precisionen för NER-komponenterna och komponenterna för ämnesordsindexering begränsningar.

Finns modellerna bakom komponenterna tillgängliga och, om så är fallet, hur jag kan fortbilda dem med mitt material? Hur ska jag gå vidare?

Modellerna publiceras i GitHub och kan fritt installeras därifrån. Om din organisation saknar den kompetens som krävs, kan du begära hjälp av företag inom branschen.

Som resultat får jag konstiga ämnesord eller ämnesord som beskriver textinnehållet dåligt. Hur ska jag göra?

Resultaten kan i efterhand redigeras i csv-filen.