Testovacia prevádzka — Fakturix je v procese akreditácie u Finančnej správy SR a OpenPeppol. Produkčná prevádzka už čoskoro.
Späť na blog
AIOCRautomatizáciaGeminivyťažovanie

OCR extrakcia faktúr cez AI: Ako funguje automatické vyťažovanie dát

Redakcia Fakturix20. apríla 20268 min
OCR extrakcia faktúr cez AI: Ako funguje automatické vyťažovanie dát

Prečo OCR extrakcia?

Napriek rozmachu elektronickej fakturácie stále dostávate faktúry v tradičnej podobe – oskenované PDF z emailu, fotka z WhatsAppu, papierový doklad zo zásielky. Manuálne prepisovanie 10–30 údajov z každej faktúry do účtovného systému je zdĺhavá a chybová práca. OCR (Optical Character Recognition) v kombinácii s umelou inteligenciou dokáže tento proces automatizovať.

Fakturix integruje AI vyťažovanie priamo do platformy. Nahráte PDF alebo fotku faktúry a systém vám za pár sekúnd vráti štruktúrované dáta – meno dodávateľa, IČO, DIČ, adresu, sumu, splatnosť, IBAN, položky. Tie potom uložíte jedným kliknutím.

Aký model Fakturix používa?

Fakturix využíva Gemini 2.0 Flash od Google – multimodálny AI model, ktorý priamo spracúva obrázky a PDF dokumenty. Na rozdiel od tradičného OCR (Tesseract, ABBYY FineReader), ktoré najprv prevedie obraz na text a potom sa snaží text parsovať regex pravidlami, Gemini chápe kontext celého dokumentu.

Rozdiel je najvidnejší pri neštandardných faktúrach – zákazníkom vytvorené šablóny, skeny s nižšou kvalitou, faktúry z rôznych krajín. Tradičný OCR zlyhá, keď je faktúra otočená o 5 stupňov alebo má písmo v nezvyčajnom fonte. AI model si s tým poradí, pretože rozumie, čo faktúra je.

Podporované formáty

  • PDF – natívne aj oskenované
  • Obrázky – JPEG, PNG (napríklad fotka z mobilu)
  • Veľkosť – do 10 MB na súbor

Ktoré polia sa extrahujú

Fakturix vyťaží z faktúry všetky polia, ktoré sú relevantné pre slovenskú účtovnú a daňovú legislatívu. Extrahované údaje zodpovedajú povinným náležitostiam podľa §74 zákona o DPH.

Dodávateľ

  • Názov firmy
  • IČO (bez medzier)
  • DIČ
  • IČ DPH (napr. SK2023909382)
  • Adresa

Odberateľ

  • Názov firmy / meno osoby
  • IČO, DIČ, IČ DPH (ak ide o firmu)
  • Adresa

Doklad

  • Číslo faktúry
  • Dátum vystavenia
  • Dátum splatnosti
  • Dátum dodania / zdaniteľného plnenia
  • Mena (EUR, CZK, USD...)
  • Variabilný symbol

Sumy

  • Základ DPH (taxExclusiveAmount)
  • Suma DPH (taxAmount)
  • Celkom na úhradu (totalAmount)
  • Rekapitulácia DPH podľa sadzieb

Platba

  • IBAN (bez medzier)
  • BIC/SWIFT

Položky

Pre každý riadok faktúry sa extrahuje názov položky, množstvo, jednotková cena bez DPH, sadzba DPH a celková suma s DPH.

Typ dokumentu – automatická klasifikácia

Jedna z užitočných funkcií je, že AI rozoznáva, čo vlastne dokument predstavuje. Vráti jeden zo štyroch typov:

  • INVOICE – riadna faktúra alebo daňový doklad
  • PROFORMA – proforma / zálohová faktúra (nie je daňový doklad)
  • CREDIT_NOTE – dobropis
  • OTHER – nejde o faktúru (napríklad objednávka, dodací list, reklamný leták)

Táto klasifikácia je dôležitá hlavne pri emailovom skenovaní, kde bot automaticky prehliada prichádzajúce správy. Reklamné newslettre a dodacie listy sa neuložia ako faktúry – len dokumenty typu INVOICE a CREDIT_NOTE prejdú do účtovníctva.

Kde všade Fakturix AI extrakciu používa

1. Manuálne nahrávanie

V aplikácii otvoríte "AI extrakcia", nahráte súbor a systém vráti štruktúrovaný náhľad. Údaje skontrolujete a jedným klikom uložíte ako prijatú faktúru.

2. Emailový skener

Prepojíte svoj email (IMAP) a Fakturix periodicky kontroluje prichádzajúce správy. Ak nájde prílohu typu INVOICE, automaticky ju extrahuje a uloží ako prijatú faktúru. Ak klasifikácia vráti OTHER, súbor sa preskočí.

3. Telegram bot

Pošlete fotku alebo PDF faktúry do Telegram chatu a bot vráti rozpoznané údaje. Vhodné pre podnikateľov v teréne – odfotíte papierovú faktúru od subdodávateľa a o 10 sekúnd máte údaje v systéme.

4. WhatsApp bot

Identicky ako Telegram, cez WhatsApp Business API.

5. E-shop API

Externý systém (ERP, účtovný softvér) môže cez endpoint /api/v1/ai/extract poslať dokument a získať JSON s extrahovanými dátami.

Presnosť rozpoznávania

Presnosť závisí od kvality vstupu. Reálne hodnoty z produkčného nasadenia:

  • Natívne PDF faktúry (generované z fakturačného systému): 98–99 % úspešnosť na všetkých poliach
  • Kvalitne oskenované PDF: 95–97 %
  • Fotografie faktúr z mobilu: 88–94 % (závisí od osvetlenia a uhla)
  • Pokrčené / zašpinené papierové faktúry: 70–85 %

Najčastejšie chyby pri horšej kvalite vstupu:

  • Zamenené znaky "0" a "O" v IČO
  • Zamenené "1" a "l" v názvoch firiem
  • Dátumy v nejasnom formáte (31/5/26 vs 5/31/26)
  • Položky v zložitej tabuľkovej štruktúre s viacerými stĺpcami

Ľudská kontrola: áno, či nie?

AI extrakcia nie je 100 %. Pri každej faktúre Fakturix zobrazí výsledok v editovateľnej forme, kde môžete opraviť prípadné chyby pred uložením. Ak pracujete s veľkým objemom dokladov, pár sekundová vizuálna kontrola je dobrý kompromis – väčšinou nie je čo opravovať, ale keď áno, ušetrí vám to zápis nesprávnej sumy do účtovníctva.

Pri automatickom emailovom skenovaní má Fakturix vstavanú poistku: ak niektoré povinné pole chýba alebo je AI neistá (napríklad suma nesedí s rekapituláciou DPH), faktúra sa označí ako "Na overenie" a čaká na schválenie používateľom. Len istotne rozpoznané doklady prejdú do systému priamo.

Limity a GDPR

Dáta sa počas spracovania odosielajú do Gemini API (Google Cloud). Google v zmluvných podmienkach uvádza, že vstupné dáta nepoužíva na trénovanie modelov pri platenom API a spracovanie prebieha v EÚ regióne. Pre organizácie s prísnymi požiadavkami na dátovú suverenitu to môže byť limit – v takom prípade je vhodnejšie manuálne zadanie údajov alebo lokálny OCR model.

Fakturix ukladá originál nahratého súboru (PDF/obrázok) do vlastnej databázy, aby ste mali archív. Samotné AI volanie trvá 2–4 sekundy a údaje sa po extrakcii v Google nezachovávajú.

Porovnanie: AI vs tradičný OCR

Parameter Tradičný OCR (Tesseract) AI model (Gemini)
Rozpoznanie textuDobré na čistý textVeľmi dobré
Chápanie kontextuŽiadneSilné
Extrakcia štruktúryRegex pravidláNatívne
Šikmé / otočené skenyČasto zlyháZvláda
Rôzne jazykyJeden jazyk na jednom runneMultilingválne
Klasifikácia dokumentuNieÁno
RýchlosťMilisekundy2–4 sekundy
CenaZadarmo (open source)Platené API

Záver

AI extrakcia faktúr je jeden z praktických spôsobov, ako automatizovať spracovanie papierových a PDF dokladov. Fakturix integruje Gemini 2.0 Flash do viacerých vstupných kanálov – emailový skener, mobilný chat, manuálne nahrávanie aj API – takže si môžete vybrať, ktorý workflow vám vyhovuje. Presnosť pri bežných faktúrach je nad 95 %, pri zložitých skenoch je vhodná krátka ľudská kontrola.

Ak kombinujete AI extrakciu s PEPPOL e-fakturáciou od 2027, získate plne digitálny proces – vystavené faktúry idú cez PEPPOL sieť ako štruktúrované dáta, prijaté papierové faktúry od subdodávateľov sa automaticky vyťažia AI-om. Manuálne prepisovanie sa vytráca.