Komponenter
Igenkänning av tomma sidor
Klassificerar en dokumentsida som tom om sidan saknar innehåll, eller som innehållslig om sidan inte är tom. Innehåll som syns igenom från sidans baksida eller innehållselement som sidnummer och blyertsanteckningar kan leda till en felaktig klassificering.
Detaljerad beskrivning –> Beskrivning av komponenten Igenkänning av tomma sidor
Igenkänning av post-it-lappar
Classifies the document page into
Klassificerar dokumentsidor i två kategorier beroende på om sidan innehåller en eller flera post-it-lappar eller inte. Innehållselement som liknar post-it-lappar, t.ex. fyrkantiga textfält i färg, kan leda till en felaktig klassificering.
Detaljerad beskrivning –> Beskrivning av komponenten Igenkänning av post-it-lappar
Igenkänning av vikta sidhörn
Klassificerar dokumentsidor i två kategorier beroende på om sidan är vikt eller sönderriven eller inte. Om ett dokumenthörn på grund av sin färg eller form liknar ett vikt eller sönderrivet sidhörn, kan detta leda till en felaktig klassificering.
Detaljerad beskrivning –> Beskrivning av komponenten Igenkänning av vikta sidhörn
Igenkänning av metadata
Känner baserat på resultatet av textigenkänningen av en dokumentsida igen namnentiteter, tar fram ämnesord som beskriver texten och anger vilket språk som använts i textinnehållet. På basis av det igenkända språket används antingen finska eller engelska modeller vid metadataigenkänning och ämnesordsindexering. Vid en automatisk ämnesordsindexering används Annif-programvaran (www.annif.org) som utvecklats i Nationalbiblioteket. Resultaten av igenkänningen är beroende av kvaliteten på textigenkänningen, och därför kan till exempel bildfilens oprecision, textlayout och innehållselement som tabeller påverka kvaliteten på metadataigenkänningen.
Detaljerad beskrivning –> Beskrivning av komponenten Metadata
Igenkänning av skrivtyp
Klassificerar en dokumentsida efter de skrivtyper som sidan innehåller i en av följande tre kategorier: 1) maskinskriven, om sidan endast innehåller maskinskriven text, 2) handskriven, om sidan endast innehåller handskriven text och 3) kombination, om sidan innehåller båda skrivtyperna. Igenkänningen av kategorin kombination är svårast för artificiell intelligens, särskilt om det finns lite handskriven text.
Detaljerad beskrivning –> Beskrivning av komponenten Igenkänning av skrivtyp