OCR extrakcia faktúr cez AI: Ako funguje automatické vyťažovanie dát

Prečo OCR extrakcia?
Napriek rozmachu elektronickej fakturácie stále dostávate faktúry v tradičnej podobe – oskenované PDF z emailu, fotka z WhatsAppu, papierový doklad zo zásielky. Manuálne prepisovanie 10–30 údajov z každej faktúry do účtovného systému je zdĺhavá a chybová práca. OCR (Optical Character Recognition) v kombinácii s umelou inteligenciou dokáže tento proces automatizovať.
Fakturix integruje AI vyťažovanie priamo do platformy. Nahráte PDF alebo fotku faktúry a systém vám za pár sekúnd vráti štruktúrované dáta – meno dodávateľa, IČO, DIČ, adresu, sumu, splatnosť, IBAN, položky. Tie potom uložíte jedným kliknutím.
Aký model Fakturix používa?
Fakturix využíva Gemini 2.0 Flash od Google – multimodálny AI model, ktorý priamo spracúva obrázky a PDF dokumenty. Na rozdiel od tradičného OCR (Tesseract, ABBYY FineReader), ktoré najprv prevedie obraz na text a potom sa snaží text parsovať regex pravidlami, Gemini chápe kontext celého dokumentu.
Rozdiel je najvidnejší pri neštandardných faktúrach – zákazníkom vytvorené šablóny, skeny s nižšou kvalitou, faktúry z rôznych krajín. Tradičný OCR zlyhá, keď je faktúra otočená o 5 stupňov alebo má písmo v nezvyčajnom fonte. AI model si s tým poradí, pretože rozumie, čo faktúra je.
Podporované formáty
- PDF – natívne aj oskenované
- Obrázky – JPEG, PNG (napríklad fotka z mobilu)
- Veľkosť – do 10 MB na súbor
Ktoré polia sa extrahujú
Fakturix vyťaží z faktúry všetky polia, ktoré sú relevantné pre slovenskú účtovnú a daňovú legislatívu. Extrahované údaje zodpovedajú povinným náležitostiam podľa §74 zákona o DPH.
Dodávateľ
- Názov firmy
- IČO (bez medzier)
- DIČ
- IČ DPH (napr. SK2023909382)
- Adresa
Odberateľ
- Názov firmy / meno osoby
- IČO, DIČ, IČ DPH (ak ide o firmu)
- Adresa
Doklad
- Číslo faktúry
- Dátum vystavenia
- Dátum splatnosti
- Dátum dodania / zdaniteľného plnenia
- Mena (EUR, CZK, USD...)
- Variabilný symbol
Sumy
- Základ DPH (taxExclusiveAmount)
- Suma DPH (taxAmount)
- Celkom na úhradu (totalAmount)
- Rekapitulácia DPH podľa sadzieb
Platba
- IBAN (bez medzier)
- BIC/SWIFT
Položky
Pre každý riadok faktúry sa extrahuje názov položky, množstvo, jednotková cena bez DPH, sadzba DPH a celková suma s DPH.
Typ dokumentu – automatická klasifikácia
Jedna z užitočných funkcií je, že AI rozoznáva, čo vlastne dokument predstavuje. Vráti jeden zo štyroch typov:
- INVOICE – riadna faktúra alebo daňový doklad
- PROFORMA – proforma / zálohová faktúra (nie je daňový doklad)
- CREDIT_NOTE – dobropis
- OTHER – nejde o faktúru (napríklad objednávka, dodací list, reklamný leták)
Táto klasifikácia je dôležitá hlavne pri emailovom skenovaní, kde bot automaticky prehliada prichádzajúce správy. Reklamné newslettre a dodacie listy sa neuložia ako faktúry – len dokumenty typu INVOICE a CREDIT_NOTE prejdú do účtovníctva.
Kde všade Fakturix AI extrakciu používa
1. Manuálne nahrávanie
V aplikácii otvoríte "AI extrakcia", nahráte súbor a systém vráti štruktúrovaný náhľad. Údaje skontrolujete a jedným klikom uložíte ako prijatú faktúru.
2. Emailový skener
Prepojíte svoj email (IMAP) a Fakturix periodicky kontroluje prichádzajúce správy. Ak nájde prílohu typu INVOICE, automaticky ju extrahuje a uloží ako prijatú faktúru. Ak klasifikácia vráti OTHER, súbor sa preskočí.
3. Telegram bot
Pošlete fotku alebo PDF faktúry do Telegram chatu a bot vráti rozpoznané údaje. Vhodné pre podnikateľov v teréne – odfotíte papierovú faktúru od subdodávateľa a o 10 sekúnd máte údaje v systéme.
4. WhatsApp bot
Identicky ako Telegram, cez WhatsApp Business API.
5. E-shop API
Externý systém (ERP, účtovný softvér) môže cez endpoint /api/v1/ai/extract poslať dokument a získať JSON s extrahovanými dátami.
Presnosť rozpoznávania
Presnosť závisí od kvality vstupu. Reálne hodnoty z produkčného nasadenia:
- Natívne PDF faktúry (generované z fakturačného systému): 98–99 % úspešnosť na všetkých poliach
- Kvalitne oskenované PDF: 95–97 %
- Fotografie faktúr z mobilu: 88–94 % (závisí od osvetlenia a uhla)
- Pokrčené / zašpinené papierové faktúry: 70–85 %
Najčastejšie chyby pri horšej kvalite vstupu:
- Zamenené znaky "0" a "O" v IČO
- Zamenené "1" a "l" v názvoch firiem
- Dátumy v nejasnom formáte (31/5/26 vs 5/31/26)
- Položky v zložitej tabuľkovej štruktúre s viacerými stĺpcami
Ľudská kontrola: áno, či nie?
AI extrakcia nie je 100 %. Pri každej faktúre Fakturix zobrazí výsledok v editovateľnej forme, kde môžete opraviť prípadné chyby pred uložením. Ak pracujete s veľkým objemom dokladov, pár sekundová vizuálna kontrola je dobrý kompromis – väčšinou nie je čo opravovať, ale keď áno, ušetrí vám to zápis nesprávnej sumy do účtovníctva.
Pri automatickom emailovom skenovaní má Fakturix vstavanú poistku: ak niektoré povinné pole chýba alebo je AI neistá (napríklad suma nesedí s rekapituláciou DPH), faktúra sa označí ako "Na overenie" a čaká na schválenie používateľom. Len istotne rozpoznané doklady prejdú do systému priamo.
Limity a GDPR
Dáta sa počas spracovania odosielajú do Gemini API (Google Cloud). Google v zmluvných podmienkach uvádza, že vstupné dáta nepoužíva na trénovanie modelov pri platenom API a spracovanie prebieha v EÚ regióne. Pre organizácie s prísnymi požiadavkami na dátovú suverenitu to môže byť limit – v takom prípade je vhodnejšie manuálne zadanie údajov alebo lokálny OCR model.
Fakturix ukladá originál nahratého súboru (PDF/obrázok) do vlastnej databázy, aby ste mali archív. Samotné AI volanie trvá 2–4 sekundy a údaje sa po extrakcii v Google nezachovávajú.
Porovnanie: AI vs tradičný OCR
| Parameter | Tradičný OCR (Tesseract) | AI model (Gemini) |
|---|---|---|
| Rozpoznanie textu | Dobré na čistý text | Veľmi dobré |
| Chápanie kontextu | Žiadne | Silné |
| Extrakcia štruktúry | Regex pravidlá | Natívne |
| Šikmé / otočené skeny | Často zlyhá | Zvláda |
| Rôzne jazyky | Jeden jazyk na jednom runne | Multilingválne |
| Klasifikácia dokumentu | Nie | Áno |
| Rýchlosť | Milisekundy | 2–4 sekundy |
| Cena | Zadarmo (open source) | Platené API |
Záver
AI extrakcia faktúr je jeden z praktických spôsobov, ako automatizovať spracovanie papierových a PDF dokladov. Fakturix integruje Gemini 2.0 Flash do viacerých vstupných kanálov – emailový skener, mobilný chat, manuálne nahrávanie aj API – takže si môžete vybrať, ktorý workflow vám vyhovuje. Presnosť pri bežných faktúrach je nad 95 %, pri zložitých skenoch je vhodná krátka ľudská kontrola.
Ak kombinujete AI extrakciu s PEPPOL e-fakturáciou od 2027, získate plne digitálny proces – vystavené faktúry idú cez PEPPOL sieť ako štruktúrované dáta, prijaté papierové faktúry od subdodávateľov sa automaticky vyťažia AI-om. Manuálne prepisovanie sa vytráca.