Mistral AI julkaisi OCR 4:n, dokumenttiälymallin, joka erottuu kilpailijoistaan yhdellä rakenteellisella valinnalla. Se antaa säännellyn alan organisaatioiden pitää arkaluontoiset asiakirjat omassa infrastruktuurissaan ja poimia niistä silti rakenteista tietoa korkealla tarkkuudella. Malli julkaistiin 23. kesäkuuta, ja se on heti saatavilla Mistralin rajapinnan, Amazon SageMakerin ja Microsoft Foundryn kautta.

Mitä OCR 4 tekee


OCR 4 muuntaa skannatut ja digitaaliset dokumentit koneluettavaksi, rakenteiseksi dataksi. Malli tukee 170 kieltä, mikä tekee siitä käyttökelpoisen monikielisissä ja kansainvälisissä organisaatioissa.

Erotuksena monesta perinteisestä tekstintunnistuksesta OCR 4 palauttaa kappaletason rajauslaatikot (bounding box) poimitun tekstin rinnalla. Jokainen tekstipätkä on siis sidottu paikkaansa alkuperäisellä sivulla.

Tämä sijaintitieto on tärkeää, kun dokumentin rakenne pitää säilyttää. Taulukot, otsikot ja kappaleet voidaan asettaa oikeille paikoilleen sen sijaan, että teksti valuisi yhdeksi massaksi.

Käytännössä malli sopii laskujen, sopimusten ja viranomaisasiakirjojen käsittelyyn, joissa kentän sijainti kertoo usein sen merkityksen.

Rakenteinen ulostulo on tärkeää myös jatkokäsittelylle. Kun data tulee valmiiksi jäsenneltynä, sen voi syöttää suoraan tietokantoihin tai kielimalleille ilman raskasta siivousvaihetta.

Aiempiin tekstintunnistusmalleihin verrattuna Mistral lupaa parempaa tarkkuutta nimenomaan monimutkaisissa asetteluissa, kuten taulukoissa ja monisarakkeisissa sivuissa. Juuri näissä perinteiset työkalut tekevät eniten virheitä.



Dokumentin sivu, jonka kappaleet ja taulukot on korostettu hehkuvilla rajauslaatikoilla


Data pysyy omassa infrastruktuurissa


OCR 4:n keskeinen myyntivaltti on käyttöönottotapa. Malli voidaan ajaa yhtenä konttina organisaation omassa ympäristössä. Näin arkaluontoisia sivuja ei tarvitse lähettää kolmannen osapuolen pilvirajapintaan.

Tämä ratkaisee ongelman, joka koskee erityisesti säänneltyjä toimialoja, kuten terveydenhuoltoa, pankkitoimintaa ja julkishallintoa. Niissä tietosuoja- ja sääntelyvaatimukset estävät usein datan siirron ulkomaisiin pilvipalveluihin.

Eurooppalaisesta näkökulmasta tämä on merkittävää. Mistral on ranskalainen yhtiö, ja datasuvereniteetti on noussut keskeiseksi kriteeriksi, kun organisaatiot valitsevat tekoälytyökaluja. OCR 4 vastaa tähän kysyntään suoraan.

Monelle organisaatiolle valinta ei ole tekninen vaan juridinen. Tietosuoja-asetus ja toimialakohtainen sääntely määräävät, missä dataa saa käsitellä, ja oma kontti tekee vaatimustenmukaisuuden osoittamisesta helpompaa.

Kontti-muotoinen jakelu tarkoittaa myös, että malli toimii ilman jatkuvaa yhteyttä ulkoiseen palveluun. Tämä on etu ympäristöissä, joissa verkkoyhteyksiä rajoitetaan tietoturvasyistä.

Käyttöönotto omassa ympäristössä ei silti tarkoita, että organisaation pitäisi rakentaa kaikki itse. Mistral toimittaa mallin valmiina konttina, jonka voi liittää olemassa olevaan infrastruktuuriin ilman mittavaa kehitystyötä.



Suojattu palvelinteline omassa konesalissa, lukkomotiivi kuvaa datasuvereniteettia


Search Toolkit ja RAG-putket


Mistral lisäsi OCR 4:n samalla osaksi Search Toolkit -kokonaisuuttaan. Kyseessä on koottava yrityshakukehys, jonka yhtiö esitteli AI Now Summit 2026 -tapahtumassa.

Yhdistelmä antaa tiimeille suoran reitin dokumenttien sisäänluvusta lähdeviitteelliseen hakuun ja generointiin (RAG). Välivaiheen esikäsittelykerroksia ei tarvitse rakentaa erikseen.

Tämä on käytännöllinen etu. Moni RAG-projekti kaatuu juuri dokumenttien siivoamiseen ja pilkkomiseen ennen kuin tieto saadaan hakukoneeseen. Valmis putki lyhentää matkaa raakadatasta toimivaan sovellukseen.

Lähdeviitteet ovat erityisen tärkeitä yrityskäytössä. Kun kielimalli perustelee vastauksensa alkuperäisellä dokumentilla, käyttäjä voi tarkistaa tiedon eikä joudu luottamaan sokeasti malliin.

Search Toolkit on koottava, eli organisaatio voi valita siitä tarvitsemansa osat. Tämä sopii tiimeille, joilla on jo olemassa oleva hakuinfrastruktuuri, johon OCR 4 liitetään osaksi.



Dokumenttien hakuputki, jossa asiakirjat virtaavat hakuindeksiin ja lahdeviitteet haarautuvat


Saatavuus ja merkitys


OCR 4 on saatavilla heti Mistralin rajapinnan, Amazon SageMakerin ja Microsoft Foundryn kautta. Yhtiö järjestää tuotantokäyttöä käsittelevän webinaarin 7. heinäkuuta, ja Snowflaken Parse Document -integraatio on tulossa.

Kokonaisuus asettaa Mistralin selvään asemaan eurooppalaisille ja säännellyille asiakkaille. Kun datan voi pitää omassa hallinnassa, käyttöönoton este madaltuu organisaatioissa, jotka eivät voi käyttää pelkkää pilvirajapintaa.

Markkina-asetelma on Mistralille suotuisa. Yhdysvaltalaiset kilpailijat tarjoavat dokumenttiälyä pääosin pilvestä, kun taas eurooppalaiset asiakkaat etsivät yhä useammin paikallisesti ajettavia vaihtoehtoja. OCR 4 osuu tähän rakoon.

Hinnoittelua Mistral ei vielä avannut kaikilta osin. Se on tärkeä tekijä, sillä oma käyttöönotto tuo mukanaan myös laitteisto- ja ylläpitokustannuksia, jotka pilvipalvelussa sisältyvät hintaan.

Avoin kysymys on tarkkuus ja nopeus omassa ympäristössä ajettuna. Vasta laajempi käyttö näyttää, kuinka hyvin yksi kontti suoriutuu suurista dokumenttimassoista tuotannossa.



Kannettava modernissa eurooppalaisessa toimistossa, abstrakti rajapintaintegraation nakyma


Yhteenveto


OCR 4 yhdistää kaksi asiaa, jotka ovat usein olleet vastakkain: huipputason dokumenttiälyn ja täyden datakontrollin. Malli poimii rakenteista tietoa 170 kielellä, ja sen voi ajaa kokonaan oman organisaation infrastruktuurissa.

Säännellyille toimialoille ja eurooppalaisille organisaatioille tämä on konkreettinen avaus. Se siirtää keskustelun siitä, saako dokumenttiälyä käyttää, siihen, miten se otetaan hallitusti käyttöön.

Suunta heijastaa laajempaa eurooppalaista trendiä, jossa datan sijainti ja hallinta painavat yhä enemmän tekoälyhankinnoissa.