Алгоритмы нейросетей распознают документы на платформе IDX
Написать сообщение info@iidx.ru +7 (495) 651-8424
19.02.2020

Хватит перебивать руками!

Как алгоритмы нейросетей и искусственного интеллекта распознают документы на платформе IDX

Распознавание документов – одна из важнейших функций любого сервиса верификации. Заказчики хотят решение, которое функционировало бы автоматически и в режиме реального времени. Процесс состоит из двух этапов – распознавание полей документов и содержимого этих полей. Сервис IDX использует алгоритмы на основе нейросетей. В чем же их преимущества и как они работают.

Варианты распознавания полей документов

Распознавание полей документов может происходить несколькими путями. Довольно распространенное решение – это шаблонизатор. Дело в том, что заранее известно, какими полями обладает паспорт и водительское удостоверение, где они находятся. Алгоритм, сравнивая документ с шаблоном, находит эти поля и «вырезает» содержимое. Проблем в данном методе две – изображение документа может быть не идеально (криво, плохое копии и пр.), плюс на один и тот же документ может существовать много шаблонов (например, сейчас на территории РФ действуют водительские удостоверения четырех видов). А что делать, если государство решит ввести пятый тип?

Machine_learning

В отличие от шаблонизатора, нейросеть сама ищет все значимые слова и фразы. Но сначала ее надо обучить. Для этого нейросети дается не менее 1000 образцов документа, где человек размечает все поля. После обучения нейросеть способна найти знакомые ей поля (ФИО, дата, ИНН). Запрограммировать нейросеть и обучить ее с нуля сложно, но к счастью, почти все необходимые библиотеки уже написаны. И если необходимо добавить новый тип документа, для этого нужно просто дообучить нейросеть.

Как работает нейросеть в сервисе IDX?

На платформе IDX используется автоматический и полуавтоматический способ распознавания документа с помощью искусственного интеллекта и нейросетей.

При автоматическом способе нейросеть распознает тип документа, все его поля, далее извлекает информацию из них и выдает оценку уверенности распознавания по каждому полю. Но это еще не все. По желанию клиента извлеченные данные IDX может проверить в эталонных источниках (например, связку ФИО-номер паспорта-день рождения), что позволяет решить сразу две задачи:

На основе извлеченных из документа и верифицированных данных IDX может провести проверку личности или каких-то других параметров. Например, при распознавании водительского удостоверения, клиенту может быть выдана вся необходимая информация о ВУ и ее владельце (действительно ли ВУ, не лишен ли водитель права управления транспортным средством и т.д.).

Если в документе есть рукописные поля, то нейросеть срабатывает не всегда. В этом случае IDX использует полуавтоматический метод. Сначала нейросеть распознает тип документа, понимает, что сама справиться не может, ищет и вырезает поля, деперсонализирует информацию, и для распознавания содержимого полей отправляет данные операторам-валидаторам. Оператор-валидатор для распознавания одного поля привлекает сразу несколько человек, алгоритм подразумевает дублирование и контроль процесса, что позволяет нивелировать человеческий фактор и гарантировать точность распознавания на 100%.

Что в итоге?

Решение на основе нейросетей IDX позволяет распознавать практически любой тип документа с гарантией качества. Более того, сервис IDX может и провести валидацию большинства полей в эталонных источниках, а также автоматически заполнить анкету, заявление на основе извлеченных из документов сведений. Даже таких сложных как извещение о ДТП, оформленное по европротоколу.

Само распознавание происходит фактически в режиме реального времени. Время распознавания документа - от 4 секунд (простые документы) до 5 минут (если в документе есть рукописные поля). Алгоритмы, используемые IDX, позволяют автоматизировать любой процесс обработки документов с оговоренным SLA.

Выбирая решения на основе нейросетей, вы выбираете качество, скорость и масштабируемость.

Вернуться в блог