Los modelos de lenguaje grande son muy efectivos con texto en bruto. Las empresas que desean crear su propio flujo de trabajo de inteligencia artificial saben que es crucial almacenar e indexar datos en un formato limpio para que puedan ser reutilizados en el procesamiento de IA. Por eso, Mistral lanza hoy una nueva API para desarrolladores que manejan documentos PDF complejos. Mistral OCR es una API de reconocimiento óptico de caracteres que puede convertir cualquier PDF en un archivo de texto.
A diferencia de la mayoría de las APIs de OCR, Mistral OCR es multimodal, lo que significa que puede detectar ilustraciones y fotos que están entrelazadas con bloques de texto. La API de OCR crea cuadros alrededor de estos elementos gráficos y los incluye en la salida. Además, Mistral OCR no solo genera un gran bloque de texto; la salida está formateada en Markdown, una sintaxis que los desarrolladores utilizan para agregar enlaces, encabezados y otros elementos de formato a un archivo de texto simple. Los modelos de lenguaje grande dependen en gran medida de Markdown para su conjunto de datos de entrenamiento. Cuando usas un asistente de IA, como Le Chat de Mistral o ChatGPT de OpenAI, a menudo generan Markdown para crear listas con viñetas, agregar enlaces o resaltar elementos en negrita. Las aplicaciones de asistencia formatean sin problemas la salida de Markdown en un texto enriquecido.
“Con el paso de los años, las organizaciones han acumulado numerosos documentos, a menudo en formatos PDF o de presentaciones, que son inaccesibles para los LLM, especialmente los sistemas RAG. Con Mistral OCR, nuestros clientes pueden convertir documentos ricos y complejos en contenido legible en todos los idiomas”, dijo Guillaume Lample, cofundador y director científico de Mistral. “Este es un paso crucial hacia la adopción generalizada de asistentes de IA en empresas que necesitan simplificar el acceso a su vasta documentación interna”, agregó.
Mistral OCR está disponible en la propia plataforma de API de Mistral o a través de sus socios en la nube (AWS, Azure, Google Cloud Vertex, etc.). Y para las empresas que trabajan con datos clasificados o sensibles, Mistral también ofrece implementación en las instalaciones. Según la empresa de IA con sede en París, Mistral OCR supera a las APIs de Google, Microsoft y OpenAI. La compañía ha probado su modelo de OCR con documentos complejos que incluyen expresiones matemáticas (formato LaTeX), diseños avanzados o tablas. También se espera que funcione mejor con documentos en idiomas distintos al inglés.
Dado que Mistral OCR se especializa en una única función, la compañía cree que también es más rápido que otras opciones disponibles. Esto no es sorprendente si se compara con un modelo de lenguaje grande multimodal como GPT-4, que también tiene capacidades de OCR. Mistral también utiliza Mistral OCR para su propio asistente de IA, Le Chat. Cuando un usuario sube un archivo PDF, la empresa utiliza Mistral OCR en segundo plano para entender el contenido del documento antes de procesar el texto. Los desarrolladores también usarán Mistral OCR con un sistema RAG para utilizar documentos multimodales como entrada en un LLM. Hay muchos casos de uso potenciales; por ejemplo, se podría ver a bufetes de abogados utilizándolo para ayudarles a revisar grandes volúmenes de documentos.


