

Komponenttien esittely
Arkkiivi ja sen tarjoamat komponentit on kehitetty Digitaalisten aineistojen laadun ja käytettävyyden parantaminen tekoälyavusteisesti -hankkeessa (2021-2023).
Viliseekö aineistossanne dokumenttien tekstiä peittäviä post-it-lappuja? Tuleeko skannatessa liian usein taittuneita tai revenneitä kulmia tai onko aineistonne seassa liian paljon digitaalisen aineiston käyttöä häiritseviä tyhjiä sivuja? Entä onko teillä tarvetta kirjoitustyypin tunnistajalle tai haluaisitteko käyttää metatietojen rikastamiseksi metatietojen ja tekstin kielen automaattista tunnistajaa?
Näitä skannausvirheitä ja sisältöjä tunnistavia komponentteja voit kokeilla Arkkiivi-käyttöliittymässä! Tervetuloa tutustumaan.
- Tyhjien sivujen tunnistus: Luokittelee sivut tyhjiksi tai sisällöllisiksi
- Post-it-lappujen tunnistus: Tunnistaa dokumenttien sivuista post-it-lappuja ja ilmoittaa niiden sivunumerot
- Taittuneiden kulmien tunnistus: Tunnistaa taittuneita tai revenneitä kulmia ja ilmoittaa niiden sivunumerot
- Metatietojen tunnistus: Tunnistaa nimientiteettejä, tuottaa asiasanoja ja tunnistaa kielen. Huom! Nimientiteettien tunnistus on toistaiseksi mahdollista suomen- ja englanninkielisillä konekirjoitetuilla aineistoilla ja asiasanojen tunnistus toimii lisäksi ruotsinkielisille teksteille. Komponentit eivät todennäköisesti toimi oikein muun kielisillä ja/tai käsin kirjoitetuilla aineistoilla.
- Kirjoitustyypin tunnistus: Luokittelee sivut kirjoitustyypin mukaan: käsin kirjoitettu, konekirjoitettu ja yhdistelmä edellisistä
Pääset testaamaan komponentteja ”Kokeilemaan”-painikkeesta.
HUOM! Arkkiivi.fi on demo/kokeilualusta, eikä se sovellu tuotantokäyttöön. Komponenttien koodit ja koulutetut mallit löytyvät GitHubista, ja ne ovat vapaasti käytettävissä ja muokattavissa (julkaistu MIT lisenssillä). Huomaa myös, että osa komponenteista hyödyntää konekirjoitetun tekstin tunnistusta, joten ne eivät toimi käsinkirjoitetun materiaalin kanssa. Lue tarkemmin komponenttien kuvauksista.