Сегодня 30 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Mistral AI представила инструмент, который превратит любой PDF-документ в текстовый файл для ИИ

Французский разработчик больших языковых моделей (LLM) Mistral AI объявил о выпуске нового API, который предназначен для обработки сложных PDF-документов. Mistral OCR — это API оптического распознавания символов (OCR), с помощью которого любой PDF-документ можно превратить в текстовый файл, чтобы облегчить его обработку алгоритмами на основе искусственного интеллекта.

 Источник изображения: Scott Graham / Unsplash

Источник изображения: Scott Graham / Unsplash

Языковые модели, лежащие в основе популярных генеративных алгоритмов, таких как ChatGPT от OpenAI, особенно хорошо работают с необработанным текстом. Поэтому компании, которые намерены вводить собственные рабочие ИИ-процессы, знают о важности хранения и индексации данных в чистом формате, чтобы эту информацию можно было повторно использовать в процессе обработки ИИ-алгоритмами.

В отличие от многих API OCR, разработка Mistral представляет собой мультимодальный API, который способен распознавать не только текст, но также иллюстрации и фотографии, размещённые между текстовыми блоками. API OCR формирует ограничительные рамки вокруг обнаруженных графических элементов и включает их в вывод. В результате обработки PDF-документа с помощью Mistral OCR формируется отформатированный в Markdown текст, который ИИ-алгоритмы обрабатывают более эффективно.

 Источник изображения: Mistral

Источник изображения: Mistral

«С годами в организациях накапливается множество документов, часто в формате PDF или в виде слайдов, которые недоступны для обработки LLM, особенно для систем RAG [Retrieval-Augmented Generation — техника получения и использования данных в качестве контекста для генеративных ИИ-алгоритмов]. Благодаря Mistral OCR наши клиенты могут преобразовывать сложные документы в читаемый контент на всех языках. Это важнейший шаг на пути к широкому внедрению ассистентов с искусственным интеллектом в компаниях, которым необходимо упростить доступ к обширной внутренней документации», — считает соучредитель и научный руководитель Mistral Гийом Лэмпл (Guillaume Lample).

Mistral OCR доступен на собственной платформе компании, а также в инфраструктуре облачных партнёров Mistral, таких как AWS, Azure и др. Для компаний, которые работают с конфиденциальными или секретными данными, Mistral предлагает версию API для локального развёртывания. В компании заявили, что Mistral OCR работает лучше, чем аналогичные API от Google, Microsoft или OpenAI. Компания протестировала свой API на сложных PDF-документах, в том числе содержащих математические выражения, сложные макеты и таблицы.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Новая статья: Forza Horizon 6 — в Японию с ветерком. Рецензия 3 ч.
Microsoft проигнорировала баги Windows, а потом пригрозила уголовным делом исследователю за их публикацию 3 ч.
Открытое тестирование мрачного экшена Mistfall Hunter с нестандартной механикой эвакуации стартует 15 июня 4 ч.
OpenAI отправит на пенсию ИИ-модели GPT-4.5 и o3 до конца лета 4 ч.
«Как в оригинальной игре, но больше и лучше»: разработчики ремейка «Готики» рассказали об особенностях боевой системы 5 ч.
Gartner: большинство кастомных ИИ-моделей и проектов генеративного ИИ ожидает провал 6 ч.
Fable всё-таки не выйдет в 2026 году — в том числе из-за GTA VI 7 ч.
Ролевая игра The Witch's Bakery подружит геймеров с общительной ведьмой-пекарем из Парижа — релиз намечен на август 8 ч.
Дополнение «Баллады прошлого» к The Witcher 3 станет «прологом» к будущему «Ведьмака» 8 ч.
Кроссовер с Clair Obscur, онлайн-кооператив и элементы 3D: инсайдеры поделились новыми подробностями ремейка Rayman Legends 9 ч.
ASRock анонсировала игровые мониторы Taichi и Phantom Gaming на базе QD-OLED и Tandem OLED 2 ч.
Анонсирован 120-мм корпусный вентилятор Eurocase EU-FN120ARGB_8+14 с тихой работой и ARGB-подсветкой 2 ч.
Acer представила пятёрку игровых мониторов Predator и Nitro с частотой обновления до 540 Гц и разрешением до 4K 5 ч.
FuriosaAI и Broadcom создадут ИИ-ускоритель для платформы инференса для агентной эры 5 ч.
Dell представила самый лёгкий ноутбук XPS — килограммовый XPS 13 c Intel Wildcat Lake и ценой от $599 7 ч.
Утечка показала iPhone 18 Pro в цвете «Тёмная вишня» — он может стать новым трендом для Android 7 ч.
ASRock выпустит видеокарту Radeon RX 9070 XT Taichi 10th Anniversary Edition по случаю 10-летия бренда Taichi 7 ч.
Acer показала портативную консоль Nitro Blaze Link для трансляции игр с ПК по Wi-Fi 7 ч.
Acer представила флагманский игровой ноутбук Predator Helios 18 с чипами Core Ultra 9 290HX и RTX 5090 7 ч.
MSI представила первый в мире игровой монитор с QD-OLED и тремя режимами — 4K@360 Гц, 2K@520 Гц и FHD@680 Гц 9 ч.