Komponenter

Igenkänning av tomma sidor

Klassificerar en dokumentsida som tom om sidan saknar innehåll, eller som innehållslig om sidan inte är tom. Innehåll som syns igenom från sidans baksida eller innehållselement som sidnummer och blyertsanteckningar kan leda till en felaktig klassificering. 

 

Detaljerad beskrivning –> Beskrivning av komponenten Igenkänning av tomma sidor

Igenkänning av post-it-lappar

Classifies the document page into

Klassificerar dokumentsidor i två kategorier beroende på om sidan innehåller en eller flera post-it-lappar eller inte. Innehållselement som liknar post-it-lappar, t.ex. fyrkantiga textfält i färg, kan leda till en felaktig klassificering.

 

Detaljerad beskrivning –> Beskrivning av komponenten Igenkänning av post-it-lappar

Igenkänning av vikta sidhörn

Klassificerar dokumentsidor i två kategorier beroende på om sidan är vikt eller sönderriven eller inte. Om ett dokumenthörn på grund av sin färg eller form liknar ett vikt eller sönderrivet sidhörn, kan detta leda till en felaktig klassificering.

 

Detaljerad beskrivning –> Beskrivning av komponenten Igenkänning av vikta sidhörn

Igenkänning av metadata

Känner baserat på resultatet av textigenkänningen av en dokumentsida igen namnentiteter, tar fram ämnesord som beskriver texten och anger vilket språk som använts i textinnehållet. På basis av det igenkända språket används antingen finska eller engelska modeller vid metadataigenkänning och ämnesordsindexering. Vid en automatisk ämnesordsindexering används Annif-programvaran (www.annif.org) som utvecklats i Nationalbiblioteket. Resultaten av igenkänningen är beroende av kvaliteten på textigenkänningen, och därför kan till exempel bildfilens oprecision, textlayout och innehållselement som tabeller påverka kvaliteten på metadataigenkänningen.

 

Detaljerad beskrivning –> Beskrivning av komponenten Metadata

Igenkänning av skrivtyp

Klassificerar en dokumentsida efter de skrivtyper som sidan innehåller i en av följande tre kategorier: 1) maskinskriven, om sidan endast innehåller maskinskriven text, 2) handskriven, om sidan endast innehåller handskriven text och 3) kombination, om sidan innehåller båda skrivtyperna. Igenkänningen av kategorin kombination är svårast för artificiell intelligens, särskilt om det finns lite handskriven text.

 

Detaljerad beskrivning –> Beskrivning av komponenten Igenkänning av skrivtyp