UKK

Minkä tyyppisiä tiedostoja Arkkiiville voi antaa?

Arkkiiville voi antaa aineistoja seuraavissa tiedostoformaateissa: png, tif, tiff, pdf, xml ja txt. Metatietojen tunnistus tukee vain konekirjoitettua tekstiä.

Missä muodossa tulokset saadaan ulos Arkkiivista?

Käyttäjä voi ladata tulokset csv-muodossa.

En pääse testaamaan Arkkiivia, saan tietoturvavaroituksia. Miten etenen?

Varsinainen testiympäristö toimii vielä salaamattoman http yhteyden päällä. Siksi joidenkin organisaatioiden tietoturvapolitiikka saattaa estää siirtymisen. Pyrimme hankkeen aikana saamaan myös testiympäristön suojatun https yhteyden taakse

Onko Arkkiiviin ladatut tiedostot turvassa. Onko Arkkiivissa tietoturvaan liittyviä riskejä.

Eivät ole, kuka tahansa jolla on pääsy palvelimelle pystyy tarkastelemaan tiedostoja. Arkkiivi ei kuitenkaan tallenna ladattuja tiedostoja minnekään vaan ne poistuvat ajon jälkeen.

Onko Arkkiivissa tietoturvaan liittyviä riskejä?

Kyllä. Arkkiivin kehitysympäristö on demoympäristö, joka näyttää mitä Arkkiivin taustalla olevilla keinoälypalikoilla on mahdollista tehdä.

Tuleeko Arkkiivin tai yksittäisten komponenttien lähdekoodit jakoon? Jos tulee niin missä ja millaisella aikataululla?

Koulutetut mallit löytyvät lähdekoodeineen GitHub-sivustolta (julkaistaan myöhemmin).

Komponentti ei tunnu toimivan siten kuten kuvauksen perusteella voisi olettaa, teenkö jotain väärin?

Komponenttien taustalla olevat mallit on opetettu tietyillä opetusaineistoilla, ja siksi on hyvin mahdollista, että komponenttien toiminnassa voi olla puutteita juuri sinun käyttämälläsi materiaalilla. Komponentit hyödyntävät aineiston tekstisisällön analysoinnissa konekirjoitetun tekstin tulkintaan tarkoitettua Tesseract-sovellusta. Näin ollen käsinkirjoitettu teksti tunnistuu yleensä virheellisesti, ja virheitä voi toki tulla myös konekirjoitetun tekstin tulkinnassa. Niinpä metatietoja teksteistä tunnistavat komponentit eivät toimi käsinkirjoitettujen aineistojen kanssa. Sen sijaan tyhjiä sivuja tai skannausvirheitä tunnistava komponentti toimii myös käsinkirjoitetun aineiston tai valokuvien kanssa. Digisyntyisen materiaalin kohdalla rajoitteita ovat NER- ja asiasanoituskomponenttien tarkkuudet.

Onko komponenttien taustalla olevat mallit saatavilla ja jos on miten voisin jatkokouluttaa niitä omalla materiaalillani? Miten tulisi edetä?

Mallit julkaistaan Githubissa ja ne ovat sieltä vapaasti asennettavissa. Jos omasta organisaatiostasi puuttuu tarvittava osaaminen, apua voi hankkia alan yrityksiltä.

Saan tulokseksi outoja tai tekstisisältöä huonosti kuvaavia asiasanoja. Miten etenen?

Tuloksia voi editoida jälkeenpäin csv-tiedostossa.