UKK
Arkkiiville voi antaa aineistoja seuraavissa tiedostoformaateissa: png, tif, tiff, pdf, xml ja txt. Metatietojen tunnistus tukee vain konekirjoitettua tekstiä.
Käyttäjä voi ladata tulokset csv-muodossa.
Varsinainen testiympäristö toimii vielä salaamattoman http yhteyden päällä. Siksi joidenkin organisaatioiden tietoturvapolitiikka saattaa estää siirtymisen. Pyrimme hankkeen aikana saamaan myös testiympäristön suojatun https yhteyden taakse
Eivät ole, kuka tahansa jolla on pääsy palvelimelle pystyy tarkastelemaan tiedostoja. Arkkiivi ei kuitenkaan tallenna ladattuja tiedostoja minnekään vaan ne poistuvat ajon jälkeen.
Kyllä. Arkkiivin kehitysympäristö on demoympäristö, joka näyttää mitä Arkkiivin taustalla olevilla keinoälypalikoilla on mahdollista tehdä.
Koulutetut mallit löytyvät lähdekoodeineen GitHub-sivustolta (julkaistaan myöhemmin).
Komponenttien taustalla olevat mallit on opetettu tietyillä opetusaineistoilla, ja siksi on hyvin mahdollista, että komponenttien toiminnassa voi olla puutteita juuri sinun käyttämälläsi materiaalilla. Komponentit hyödyntävät aineiston tekstisisällön analysoinnissa konekirjoitetun tekstin tulkintaan tarkoitettua Tesseract-sovellusta. Näin ollen käsinkirjoitettu teksti tunnistuu yleensä virheellisesti, ja virheitä voi toki tulla myös konekirjoitetun tekstin tulkinnassa. Niinpä metatietoja teksteistä tunnistavat komponentit eivät toimi käsinkirjoitettujen aineistojen kanssa. Sen sijaan tyhjiä sivuja tai skannausvirheitä tunnistava komponentti toimii myös käsinkirjoitetun aineiston tai valokuvien kanssa. Digisyntyisen materiaalin kohdalla rajoitteita ovat NER- ja asiasanoituskomponenttien tarkkuudet.
Mallit julkaistaan Githubissa ja ne ovat sieltä vapaasti asennettavissa. Jos omasta organisaatiostasi puuttuu tarvittava osaaminen, apua voi hankkia alan yrityksiltä.
Tuloksia voi editoida jälkeenpäin csv-tiedostossa.