Сегодня 20 апреля 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → текст

Рукописи не горят: ИИ прочитал испорченные извержением вулкана свитки из древнеримской библиотеки

Благодаря машинному обучению археология совершила рывок вперёд. С помощью ИИ разработан метод чтения сожжённых или иным образом повреждённых свитков папируса. Таких документов множество, и находятся всё новые и новые. Технологию ещё предстоит доработать, однако первые результаты оказались успешными.

 Внешний вид обугленного свитка, который был прочитан с помощью ИИ. Источник изображения: scrollprize.org

Внешний вид обугленного свитка, который был прочитан с помощью ИИ (источник изображения: scrollprize.org)

Ещё в 18 веке при раскопках римской виллы в Геркулануме было обнаружено более 1000 целых или частичных свитков в особняке, который, как считалось, принадлежал тестю Юлия Цезаря. Извержение Везувия в 79 году н.э. и последующее погребение свитков землёй превратили их в обугленные останки, развернуть которые можно было только один раз — они при этом рассыпались. Тексты также были нечитаемые, поскольку чернила выгорели вместе с основой. Прочесть всё это и многое другое — это достойно усилий.

Попытки создать технологию для прочтения обугленных свитков из Геркуланума много лет возглавлял специалист по информатике из Университета Кентукки Брент Силз (Brent Seales). Он и его команда с помощью рентгеновской томографии на ускорительном комплексе Diamond Light Source — источнике синхротронного излучения третьего поколения в графстве Оксфордшир — научились распознавать следы чернил в волокнах папируса, не трогая и не разрушая свиток.

Но распознать чернила — это только начало. Необходимо было «развернуть» свиток и прочитать текст. Для этого в 2023 году на деньги спонсоров был объявлен конкурс Vesuvius Challenge с призом около $1 млн. К концу года начали определяться лидеры. В частности, студент факультета компьютерных наук в Университете Небраски в Линкольне Люк Фарритор (Luke Farritor) был объявлен победителем этапа «Первые буквы» за расшифровку первых связных фраз из сожжённого текста, за что получил $40 тыс.

Позже к Фарритору присоединились Юсеф Надер (Youssef Nader) из Германии и Джулиан Шиллигер (Julian Schilliger) из Швейцарии. Они разработали алгоритм «разворачивания» свитков. Все вместе они смогли прочесть более 2000 букв из свитка. Как стало известно на днях, приз в размере $700 тыс. ушёл этой команде.

Искусственный интеллект справляется с задачей в несколько этапов. Свиток разбивается на сектора с определением каждого слоя. Предложено несколько способов решить эту головоломку. Например, ИИ отслеживает паутинку трещин в каждом слое, что позволяет точно определить слой и потом выровнять его цифровую копию. Пожалуй, это самая сложная часть работы.

Распознавание букв греческого алфавита также происходит не напрямую из текста, что важно для подтверждения опыта команды сторонними группами исследователей. Все данные берутся из базы, полученной рентгеновской томографией, а не с помощью программ по оптическому распознаванию символов. Немаловажно и то, что предложенный группой победителей конкурса код открыт и может быть использован другими группами для проверки результатов. И они были подтверждены. ИИ на самом деле восстанавливает текст по обнаруженным остаткам чернил в волокнах свитков.

Технология далека от совершенства, но её возможности обещают привнести множество нового в наши знания о прошлом. Она может быть применена также к прочтению текстов папирусов, в которые заворачивали мумии. Этих папирусов груды в каждом приличном музее, а это кладезь информации о жизни тысячи лет назад.

Искусственный интеллект скоро сможет правдоподобно имитировать почерк человека

Уже сейчас нейросети способны правдоподобно воссоздавать голос человека и имитировать его мимику в соответствии с якобы произносимым текстом. Как считают учёные, вскоре искусственному интеллекту будут по плечу и задачи правдоподобного воспроизведения почерка человека, для этого нейросетям будет достаточно ознакомиться лишь с несколькими абзацами «исходного материала».

 Источник изображения: Unsplash, Hannah Olinger

Источник изображения: Unsplash, Hannah Olinger

Команде специалистов Университета искусственного интеллекта имени Мухаммеда бен Заида в ОАЭ, как сообщает Bloomberg, уже удалось создать профильную нейросеть и опробовать её в деле. Эту разработку авторам даже удалось запатентовать в юрисдикции США. Пока использование данной нейросети сторонними клиентами не подразумевается, и авторы разработки уже выражают опасения по поводу способности недобросовестных пользователей применять её во вред обществу.

Прежде чем этот инструмент начнёт распространяться, по мнению разработчиков, необходимо создать защитные механизмы, предотвращающие его некорректное с этической точки зрения применение. «Это всё равно что создать антивирус для вируса», — пояснили представители университета. Подобные соображения не мешают создателям нейросети планировать её коммерческое применение в течение ближайших месяцев, они уже ищут партнёров для реализации сопутствующего потенциала данной технологии. Помимо прочего, такая система могла бы распознавать рукописный текст — например, для обработки записей в историях болезни пациентов. На генерируемых нейросетью рукописях можно было бы обучать другие подобные системы. Пока нейросеть способна распознавать и генерировать рукописный текст на английском и французском языках, но в перспективе разработчики хотели бы добавить к ним и арабский.

«Яндекс» научил нейросеть расшифровывать архивные документы даже с дореволюционной орфографией

Специалисты «Яндекса» обучили нейросети расшифровке архивных записей — теперь препятствиями не являются ни рукописный текст, ни дореволюционная орфография. Поработать с технологией можно уже сейчас, открыв службу «Поиск по архивам», в которой доступны более 2,5 млн страниц исторических документов и их текстовая расшифровка.

 Источник изображения: Яндекс

Источник изображения: Яндекс

Нейросеть была обучена при помощи сотен тысяч рукописных строк в реальных архивных документах, датированных с XVIII по XIX вв., а также десятков миллионов примеров, которые были сгенерированы. В работе участвовали эксперты — они производили расшифровку и разметку документов, а также контролировали качество работы системы. Прочитать такие рукописи неподготовленному человеку очень сложно, но нейросеть «Яндекса» справляется с задачей почти мгновенно. При наличии расшифровки появилась возможность быстро находить документы с упоминанием ключевых слов, например, названий населённых пунктов и фамилий.

Служба «Поиск по архивам» поможет в работе историкам, социологам, демографам и генеалогам, а также тем, кто не обладает профессиональной подготовкой, но хочет больше узнать об истории своей семьи. Первыми в базе появились материалы Главархива Москвы, потому что нейросеть обучали на них; впоследствии коллекция пополнилась документами из архивов Оренбургской и Новгородской областей. Со временем к проекту подключатся и другие архивы, документов станет больше.

Сейчас в поиске доступны материалы с XVIII до начала XX вв. — они наиболее популярны у пользователей. В базе есть метрические книги, исповедные ведомости, а также ревизские сказки, в которые внесены результаты переписи населения. Документы открываются как по каталогу, так и через поисковую строку — на странице приводится скан листа и его построчная расшифровка с подсветкой при наведении.

Российская Smart Engines представила систему распознавания текста нового поколения — она поддерживает 102 языка

Разработчики из российской компании Smart Engine создали систему распознавания текста, которая способна находить документы на фото или сканах и распознавать все текстовые данные на 102 языках. Представленное решение является частью продукта Smart Document Engine, включённого в реестр российского программного обеспечения.

 Источник изображения: smartengines.ru

Источник изображения: smartengines.ru

Во всех продуктах Smart Engine применяется собственная технология распознавания GreenOCR. За счёт этого удаётся достигнуть высокого уровня точности распознавания текста даже на некачественных фото. Представленное приложение позиционируется в качестве альтернативы продуктам ABBYY и иностранному ПО в корпоративном и государственном сегментах. Полнотекстовое распознавание является важным элементом ввода документов в системах электронного документооборота, управления бизнес-процессами, электронных архивах и RPA-системах. Скорость и точность извлечения данных оказывают прямое влияние на трудоёмкость и уровень автоматизации процесса обработки документов.

Представленная система должна обеспечить технологический суверенитет, поскольку в ней не используются решения Open Source и иностранные программные компоненты. Отмечается, что процесс обработки одного изображения на современном смартфоне занимает 3-4 секунды. Помимо распознавания текста система Smart Engine автоматически обрезает, разглаживает сложенные документы и улучшает качество снимков, фактически превращая смартфон в сканер. В серверных решениях на 32-ядерном HPC без использования GPU скорость полнотекстового распознавания достигает 15 страниц в секунду.

Разработчики могут интегрировать технологию распознавания текстовых документов в серверные, мобильные, десктопные и веб-приложения в составе продукта Smart Document Engine. Для функционирования системы не требуется подключение к сторонним сервисам и внешним ресурсам, не требуется GPU. Для распознавания документов не требуется постоянное интернет-подключение, поскольку все вычисления выполняются непосредственно на устройстве пользователя. Помимо привычных языков на основе кириллических и латинских символов система может распознавать арабский, армянский, греческий, грузинский, иврит, китайский, корейский и японский языки. Поддерживается работа на устройствах с ALT Linux, Astra Linux, «Ред ОС» и других платформах семейства Linux, а также Windows, macOS, iOS, Android и ОС «Аврора».

Приложение умной камеры «Яндекса» научилось распознавать текст

Компания «Яндекс» расширила возможности своей умной камеры — специального инструмента, который доступен в браузере и в приложении «Яндекса» для мобильных устройств под управлением операционных систем Android и iOS.

 Источник изображения: «Яндекс»

Источник изображения: «Яндекс»

Появился новый режим «Текст», позволяющий распознавать и копировать тексты. Достаточно навести камеру смартфона на любое слово или фразу, и приложение преобразует надпись в текстовый вид. Далее текст можно сохранить, отправить в мессенджер или в поиск.

Например, чтобы найти в интернете учебник, теперь не нужно набирать его название: можно навести камеру на обложку и нажать кнопку «Найти». Инструмент поможет также скопировать текст со слайда или, скажем, конспект доклада.

Приложение способно распознавать печатные тексты на 47 языках. Для обработки изображений применяются нейронные сети. Одна из них идентифицирует области с текстом, а вторая распознаёт надписи, анализируя контекст: начертания букв, соседние буквы и слова. Аналогичная технология применяется при распознавании текста в режиме «Перевод».

«Умная камера помогает в решении разных задач. С её помощью можно искать товары, переводить текст, сканировать документы и распознавать предметы. Например, она подскажет модель автомобиля или название комнатного растения», — отмечает «Яндекс».

«Яндекс» представил YaLM 100B — самую большую открытую нейросеть для генерации текстов

Компания «Яндекс» анонсировала нейросеть YaLM 100B, предназначенную для генерации и обработки текстов на русском и английском языках. Утверждается, что на сегодняшний день это самая большая в мире GPT-подобная (Generative Pre-trained Transformer) модель, опубликованная в свободном доступе.

 Источник изображений: pixabay.com / geralt

Источник изображений: pixabay.com / geralt

YaLM 100В содержит 100 млрд параметров — больше, чем какая-либо из существующих моделей для русского языка. Благодаря этому нейросеть можно применять для решения широкого круга задач, связанных с обработкой естественного языка.

Языковые модели семейства YaLM определяют принцип построения текстов и генерируют новые, опираясь на законы лингвистики и свои знания о мире. Допускается формирование текстов любого типа: это могут быть ответы, стихи, поздравления и пр. Более того, алгоритмы способны придумывать идеи для рекламных кампаний, создавать описания товаров и видео, а также классифицировать тексты.

 Источник изображения: pixabay.com / Gerd Altmann

Источник изображения: pixabay.com / Gerd Altmann

В процессе обучения сети были задействованы суперкомпьютеры «Яндекса», признанные самыми мощными в Восточной Европе. YaLM 100B обработала около 2 Тбайт текстов из открытых источников и интернета на английском и русском языках.

Теперь нейросеть могут использовать разработчики и исследователи со всего мира. Модель предоставляется по открытой лицензии Apache 2.0 и доступна на GitHub.


window-new
Soft
Hard
Тренды 🔥
Schneider Electric ведёт переговоры о покупке Bentley Systems 14 ч.
Новая статья: Atom Bomb Baby: рассказываем, почему Fallout — идеальная экранизация видеоигрового материала, и почему этот сериал не стоит пропускать 15 ч.
Bethesda готовит «несколько очень хороших обновлений» для Starfield, а Fallout 5 не в приоритете 16 ч.
Apple откроет сторонним приложениям доступ к NFC 16 ч.
В Dota 2 стартовало сюжетное событие «Павшая корона» с уникальными наградами, новыми «арканами» и комиксом 16 ч.
Связанные одной шиной: «Лаб СП» и «Фактор-ТС» представили отечественную интеграционную платформу Integration Gears 17 ч.
Paradox отказала Prison Architect 2 в досрочном освобождении — релиз отложили ещё на четыре месяца 18 ч.
Спустя 17 лет после релиза Team Fortress 2 получила поддержку 64 бит — выросла производительность и даже боты пропали 19 ч.
Netflix резко нарастила аудиторию и прибыль, запретив совместное использование аккаунтов 20 ч.
Российские студенты победили в чемпионате мира по программированию ICPC 21 ч.