Сегодня 03 мая 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

«Яндекс» научил нейросеть расшифровывать архивные документы даже с дореволюционной орфографией

Специалисты «Яндекса» обучили нейросети расшифровке архивных записей — теперь препятствиями не являются ни рукописный текст, ни дореволюционная орфография. Поработать с технологией можно уже сейчас, открыв службу «Поиск по архивам», в которой доступны более 2,5 млн страниц исторических документов и их текстовая расшифровка.

 Источник изображения: Яндекс

Источник изображения: Яндекс

Нейросеть была обучена при помощи сотен тысяч рукописных строк в реальных архивных документах, датированных с XVIII по XIX вв., а также десятков миллионов примеров, которые были сгенерированы. В работе участвовали эксперты — они производили расшифровку и разметку документов, а также контролировали качество работы системы. Прочитать такие рукописи неподготовленному человеку очень сложно, но нейросеть «Яндекса» справляется с задачей почти мгновенно. При наличии расшифровки появилась возможность быстро находить документы с упоминанием ключевых слов, например, названий населённых пунктов и фамилий.

Служба «Поиск по архивам» поможет в работе историкам, социологам, демографам и генеалогам, а также тем, кто не обладает профессиональной подготовкой, но хочет больше узнать об истории своей семьи. Первыми в базе появились материалы Главархива Москвы, потому что нейросеть обучали на них; впоследствии коллекция пополнилась документами из архивов Оренбургской и Новгородской областей. Со временем к проекту подключатся и другие архивы, документов станет больше.

Сейчас в поиске доступны материалы с XVIII до начала XX вв. — они наиболее популярны у пользователей. В базе есть метрические книги, исповедные ведомости, а также ревизские сказки, в которые внесены результаты переписи населения. Документы открываются как по каталогу, так и через поисковую строку — на странице приводится скан листа и его построчная расшифровка с подсветкой при наведении.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Из-за санкций российские разработчики могут лишиться доступа к открытому ПО и столкнуться с другими проблемами 22 мин.
Соцсеть X изменит механизм работы блокировки — нынешний не нравится Маску 2 ч.
Google потребовала отклонить чрезмерные и небезопасные требования Epic Games о реформах в «Play Маркет» 2 ч.
Apple разрешит пользователям в ЕС устанавливать приложения на iPad в обход App Store осенью 2 ч.
«За бюрократию!»: игроки Helldivers 2 в Steam взбунтовались против требования привязки аккаунта PlayStation 2 ч.
Microsoft закрыла полиции США доступ к ИИ, который использовали для распознавания лиц 3 ч.
Блокировка TikTok в США ускорит распространение «сплинтернета» 3 ч.
Bethesda случайно подтвердила теорию фанатов о дополнении Shattered Space к Starfield 3 ч.
Глава Apple уверен, что ИИ будет работать на iPhone лучше, чем у других 4 ч.
Microsoft обнаружила в Android опасный баг, позволяющий взламывать смартфоны через приложения 4 ч.
Казахстан намерен развивать дата-центры в сотрудничестве с Google и Microsoft 2 ч.
В Краснодаре запустят производство китайских сельскохозяйственных дронов Jtilep 2 ч.
Представлен смартфон Vivo Y100 — Snapdragon 685, AMOLED-дисплей и быстрая 80-Вт зарядка 2 ч.
Hesai разработала лидар, который не портит внешний вид автомобиля 3 ч.
В Чили открылась самая высокогорную обсерватория в мире 3 ч.
Акцент на ИИ: маркетинговые материалы смартфона Google Pixel 8a утекли за полторы недели до анонса 4 ч.
Житель Флориды отправится на шесть лет в тюрьму за поставку поддельного оборудования Cisco на $1 млрд, в том числе Пентагону 4 ч.
Выручка Apple от смартфонов в Китае выросла вопреки падению продаж iPhone 4 ч.
Результаты AMD в I квартале оправдали прогнозы аналитиков, но акции упали — инвесторы ожидают большего роста 5 ч.
Удаление Huawei и ZTE из сетей связи США под угрозой срыва из-за нехватки финансирования 6 ч.