Komponentit

Tyhjien tunnistus

Luokittelee asiakirjasivun tyhjäksi, jos sivulla ei ole sisältöä, tai sisällölliseksi, jos sivu ei ole tyhjä. Sivun kääntöpuolelta läpi heijastuva sisältö tai sivunumeron ja lyijykynämerkinnän kaltaiset sisältöelementit saattavat johtaa virheelliseen luokitukseen. 

Tarkka kuvaus –> Tyhjien tunnistus -komponentin kuvaus

Post-it tunnistus

Luokittelee asiakirjasivun kahteen luokkaan sen perusteella, sisältääkö sivu yhden tai useamman post-it-lapun vai ei. Post-it-lappuja muistuttavat sisältöelementit, kuten värilliset neliskulmaiset tekstikentät, saattavat johtaa virheelliseen luokitukseen.

 

Tarkka kuvaus –> Post-itien tunnistus -komponentin kuvaus

Taittuneiden kulmien tunnistus

Luokittelee asiakirjasivun kahteen luokkaan sen perusteella, sisältääkö sivu taittuneita tai revenneitä kohtia vai ei. Mikäli dokumentin kulma muistuttaa värityksensä tai muotonsa takia taitosta tai repeämää, saattaa tämä johtaa virheelliseen luokitukseen.

Tarkka kuvaus –> Taittuneiden kulmien tunnistus -komponentin kuvaus

Metatietojen tunnistus

Tunnistaa asiakirjasivulle suoritetun tekstintunnistuksen tuloksesta nimientiteettejä, tuottaa tekstiä kuvailevia asiasanoja sekä määrittää tekstisisällössä käytetyn kielen. Tunnistetun kielen perusteella metatietojen tunnistuksessa ja asiasanoittamisessa käytetään joko suomen- tai englanninkielisiä malleja. Automaattisessa asiasanoittamisessa hyödynnetään Kansalliskirjastossa kehitettyä Annif-ohjelmistoa (www.annif.org). Tunnistustulokset ovat riippuvaisia tekstintunnistuksen laadusta, joten esimerkiksi kuvatiedoston epätarkkuus, tekstin asettelu ja taulukoiden kaltaiset sisältöelementit saattavat vaikuttaa metatietojen tunnistuksen laatuun.

Tarkka kuvaus –> Metatiedot -komponentin kuvaus

Kirjoitustyypin tunnistus

Luokittelee asiakirjasivun sen sisältämien kirjoitustyyppien mukaan yhteen kolmesta luokasta: 1) konekirjoitettu, jos sivu sisältää vain konekirjoitettua tekstiä, 2) käsinkirjoitettu, jos sivu sisältää vain käsinkirjoitettua tekstiä, ja 3) yhdistelmä, jos sivu sisältää molempia kirjoitustyyppejä. Yhdistelmäluokka on näistä tekoälylle hankalin erityisesti, jos käsinkirjoitettua tekstiä on vähän. 

Tarkka kuvaus –> Kirjoitustyypin tunnistus -komponentin kuvaus