OCR modelių palyginimas lietuvių kalbos PDF dokumentų atpažinimui

OCR modelių palyginimas lietuvių kalbos PDF dokumentų atpažinimui

Organizacijose vis didesnis dėmesys skiriamas duomenų automatizavimui, skaitmenizavimui ir analizei. Nepaisant spartaus skaitmeninių technologijų vystymosi, didelė dalis svarbios informacijos vis dar saugoma ne kaip struktūriniai duomenys, o įvairių formatų dokumentuose – nuo skenuotų PDF failų iki popierinių ataskaitų. Manoma, kad apie 90 % organizacijų informacijos vis dar yra „įkalinta“ tokių dokumentų pavidalu.

Norint šią informaciją perkelti į analizei tinkamą formą, plačiai taikomos optinio simbolių atpažinimo (OCR) technologijos. Jos leidžia automatizuotai išgauti tekstą iš skaitmeninių dokumentų, taip palengvindamos daugelį veiklos sričių – nuo finansų iki viešojo sektoriaus duomenų apdorojimo.

OCR sprendimai ypač pažengė pastaraisiais metais, ypač diegiant juos debesijos aplinkose ir integruojant su dirbtiniu intelektu. Tačiau dauguma komercinių ar akademinių tyrimų orientuojasi į anglų kalbos tekstus, o mažesnėms kalboms, tokioms kaip lietuvių, OCR tikslumas išlieka iššūkiu. Tai ypač aktualu dokumentuose, kuriuose gausu lentelių, skaičių, techninių sąvokų.

Atsižvelgiant į šias aplinkybes, šiame darbe siekiama įvertinti dviejų OCR modelių gebėjimą apdoroti lietuvių kalba parengtus dokumentus, kuriuose dominuoja lentelės struktūra. Tyrimas neapsiriboja vien simbolių tikslumu – analizuojamas ir semantinis kontekstas, struktūrinis tikslumas bei našumo rodikliai, kurie tampa itin svarbūs realaus naudojimo scenarijuose.

1.1 Tikslas

Šio eksperimento tikslas – įvertinti ir palyginti dviejų optinio simbolių atpažinimo (OCR) modelių – Azure Document Intelligence OCR ir Contextual v1 – atpažinimo tikslumą apdorojant PDF dokumentus, parengtus lietuvių kalba.

Siekiant užtikrinti nešališką ir išsamų vertinimą, vertinimo procese buvo pasitelktas ChatGPT, veikiantis kaip didelio kalbos modelio (LLM) teisėjas. Šis metodas leido išnaudoti pažangias natūralios kalbos supratimo galimybes, siekiant tiksliai palyginti OCR išvestis.

1.2 Metodologija

Metodologija apėmė šiuos etapus:

  1. Testinių dokumentų atranka: analizei naudoti PDF dokumentas lietuvių kalba, su lentele, skaitinėmis reikšmėmis.
  2. OCR apdorojimas: kiekvienam dokumentui buvo taikyti du modeliai – Azure OCR ir Contextual v1 – siekiant išgauti tekstą ir duomenų struktūrą.
  3. ChatGPT vertinimas: modelių išvestys buvo pateiktos ChatGPT analizei, kurios metu vertintas atpažinimo tikslumas, konteksto išlaikymas, lentelės struktūros teisingumas bei klaidų pobūdis.
  4. Rezultatų analizė: kiekvienai išvesčiai ChatGPT priskyrė tikslumo įvertinimus procentais ir pateikė komentaru pagrįstą analizę, leidžiančią atlikti giluminį palyginimą.

Vertinant OCR kokybę, buvo nagrinėjami šie tikslumo rodikliai:


Simbolių tikslumas (%) – kiek OCR rezultatas atitinka originalų tekstą simbolių lygmenyje.

Žodžių tikslumas (%) – kiek teisingų žodžių buvo atpažinta OCR išvestyje.

Semantinis tikslumas (%) – kiek OCR išvestis perteikia tikslią originalaus teksto prasmę.

Skaičių tikslumas (%) – kaip tiksliai modeliai atpažįsta skaitines reikšmes, išlaikydami jų struktūrą.

Lentelės struktūros tikslumas (%) – kaip tiksliai OCR modeliai atpažįsta lentelės struktūrą (eilučių ir stulpelių skaičių, antraštes, ląstelių išdėstymą).

Apdorojimo laikas (s/puslapiui) – vidutinis laikas, kurio OCR modeliui prireikia apdoroti vieną dokumento puslapį.

 
Ekspermente naudoto PDF failo struktūra:

2. Rezultatai ir analizė

OCR modelių vertinimui buvo naudojamas  PDF dokumentas lietuvių kalba, kuriame pateikta lentelės informacija. Kiekvienas modelis automatiškai ištraukė teksto ir duomenų struktūrą iš dokumento, o rezultatai buvo analizuojami naudojant ChatGPT vertinimo sistemą.

OCR modelis

Simbolių tikslumas (%)

Žodžių tikslumas (%)

Semantinis tikslumas (%)

Skaičių tikslumas (%)

Lentelės struktūros tikslumas

Apdorojimo laikas (s/pusl.)

Azure OCR

92.4 %

91.1 %

89.5 %

94.0 %

85.0 %

~7 s

Contextual v1

93.2 %

92.7 %

90.8 %

95.1 %

88.5 %

~12 s


Pastebėjimai:

  • Contextual v1 lenkia Azure OCR visose tikslumo kategorijose, ypač simbolių (+0,8 %) ir žodžių tikslumo (+1,6 %) srityse, taip pat geriau perteikia semantinį turinį ir skaičius.
  • Azure OCR pasižymi gerokai greitesniu veikimu – vidutiniškai vieną puslapį apdoroja beveik dvigubai greičiau (~7 s vs. ~12 s).
  • Lentelės struktūros tikslumas abiem modeliams nėra aukščiausias, tačiau Contextual v1 vėl pirmauja (+3,5 %). 

⚠️ Papildomas testas buvo atliktas su didesnės apimties dokumentu (virš 50 psl.), naudojant tik Contextual v1 modelį, siekiant įvertinti modelio veikimą realiomis sąlygomis. Pastebėta, kad modelio veikimas ženkliai pablogėjo – simbolių tikslumas sumažėjo iki ~86 %, ženkliai išaugo lietuviškų žodžių iškraipymų, pavyzdžiui, „jmoku“ vietoj „įmokų“, „parriesindas“ vietoj „pervestinas“, „lelu“ vietoj „lėšų“. Lentelės struktūra taip pat išsikraipė, o kai kur tekstas buvo suskaidytas į netaisyklingas eilutes. 

Tai rodo, kad net ir tiksliausiu laikomas modelis praranda kokybę apdorodamas didelės apimties dokumentus – ypač tokius, kuriuose daug lentelių, skaičių ir sudėtingos kalbinės struktūros.

3. Diskusija ir išvados

Apibendrinus atlikto tyrimo rezultatus, galima teigti, kad šiuolaikiniai OCR sprendimai jau gali efektyviai dirbti su lietuvių kalbos dokumentais, tačiau jų veikimas ir nauda smarkiai priklauso nuo konkrečių poreikių. Abu vertinti modeliai – Azure OCR ir Contextual v1 – turi savo stipriąsias puses, tačiau jų taikymo sritys iš esmės skiriasi.

Contextual v1 išsiskiria aukštu semantiniu tikslumu ir gebėjimu išlaikyti turinio kontekstą, todėl šis modelis ypač tinka tiems scenarijams, kur svarbus ne tik simbolinis tikslumas, bet ir logiškai sklandus teksto atkūrimas. Visgi esant didelės apimties dokumentams arba sudėtingoms lentelinėms struktūroms, modelio stabilumas gali suprastėti – tai pastebėta šio tyrimo metu.

Tuo tarpu Azure OCR pasirodė kaip ypač greitas ir technologiškai stabilus pasirinkimas, ypač jei svarbu sparčiai apdoroti didelius dokumentų kiekius. Svarbus šio modelio privalumas – galimybė kurti individualiai pritaikytus OCR modelius, pasitelkiant konkrečios organizacijos dokumentų pavyzdžius. Tai leidžia mokyti sistemą pagal realius formatus, naudoti specifinę terminiją ar struktūrą, būdingą konkrečiai institucijai. Tokiu būdu galima reikšmingai padidinti atpažinimo tikslumą, ypač dirbant su pasikartojančiais ataskaitų, tabelių ar finansinių formų šablonais.

Praktikoje tai reiškia, kad organizacijos, kurios pasirengusios investuoti į duomenų bazės parengimą ir mokymo procesą, gali turėti labai tikslų OCR sprendimą, optimizuotą būtent jų dokumentų tipams. Tai itin svarbu, kai reikia ne tik greitai apdoroti informaciją, bet ir užtikrinti struktūrinių duomenų vientisumą.

Apibendrinant galima teigti, kad Contextual v1 šiuo metu demonstruoja aukštesnį bendrą tikslumą, ypač semantinio vientisumo ir kalbinės sklandos srityse, todėl yra tinkamas pasirinkimas, kai dokumentų tipai įvairūs, o adaptacijos galimybės ribotos. Tačiau ilgalaikėje perspektyvoje, ypač organizacijoms, kurios dirba su pasikartojančiais, struktūruotais dokumentais (pvz., tabeliais, ataskaitomis ar standartinėmis formomis), pranašumą gali įgyti Azure OCR – ypač tada, kai pasitelkiamas individualus modelio mokymas pagal organizacijos turimus dokumentus.

Tokiu būdu Azure OCR tampa ne tik greitu, bet ir tiksliai pritaikomu įrankiu, kuris laikui bėgant gali pranokti konkurentus būtent tuo, kad išmoksta geriau suprasti specifinę dokumentų struktūrą, kalbos vartoseną ir duomenų logiką. Todėl galutinis sprendimas priklauso nuo organizacijos poreikių: jei svarbu turėti tvirtą sprendimą iš karto – Contextual v1 yra stiprus pasirinkimas; jei siekiama ilgalaikio efektyvumo ir kokybės, investicija į Azure OCR su specializuotu modelio apmokymu gali atsipirkti su kaupu.


Šis tyrimas parodo, kad nors pažangūs modeliai yra prieinami ir funkcionalūs, jų pasirinkimas turi būti pagrįstas konkrečiais dokumentų tipais, apimtimi bei kalbiniu kontekstu. Tik tada galima užtikrinti, kad OCR integracija į procesus iš tikrųjų atneš laukiamą naudą.


Naudingos nuorodos: 

Išbandykite „Azure AI Document Intelligence“ nemokamai čia

„Azure AI Document Intelligence“ — pažangus dokumentų apdorojimas čia