Контур.Маркет научился распознавать сканированные товарные накладные
Загружайте накладные на распознавание
Не так давно в Контур.Маркете появилась возможность автоматического распознавания загруженных накладных. Отсканируйте и загрузите сканы в сервис, он распознает товары на скане и заполнит электронную накладную. При распознавании сервис сопоставит данные из накладной с вашей номенклатурой.
Один из сервисов СКБ Контур уже умеет распознавать сканы накладных — Контру.Бухгалтерия. Но перед командой разработчиков Контур.Маркета стояла непростая задача, чтобы сервис не только превращал загруженную картинку в электронный документ, но и сопоставлял данные в документе с товарной номенклатурой. Для решения этой задачи разработчикам помогла технология машинного обучения.
Как работает машинное обучение
Представим, что вы разговариваете со знакомым на шумной улице и вы из-за шума проезжающих машин, музыки и разговоров прохожих не можете разобрать что он вам говорит. Также и сервис не может разобраться в тексте загруженного документа потому, что ему мешает «шум»: слова могут быть нечеткими, в нем тексте могут быть сокращения, стоять галочки, подчеркивания и т.д.
Для того, чтобы сервис смог обучится отличать «шум» от необходимой информации, ему необходимо указать, какая информация считается нужной, а какая нет. При помощи машинного обучения сервис запомнит данный «урок» и будет использовать его при каждом последующем распознавании.
Посмотрим на строку в нашей товарной накладной:
«Майка муж. черн. Остин 095648»
В товарной номенклатуре уже имеется карточка с данным товаром:
«Остин. Майка мужская черная 095648»
Что нужно сервису после того как вы отсканировали товарную накладную и загрузили ее?
Прежде всего распознать текст на отсканированной накладной. Робот сделал это с ошибками:
«Чайка муж. черн. Остим 095648»
Затем сервису нужно найти в номенклатуре товар, который соответствует товару в накладной.
Аркадий Загорюев, аналитик Контур.Маркета прокомментировал, что происходит «внутри» сервиса:
«Из наименований товаров робот извлекает большое количество признаков и сопоставляет их с распознанной строкой. Сервис информирует, что пара названий является одним и тем же товаром. Пользователь указывает на неверное соответствие, если сервис допустил ошибку. Сервис запоминает эту ошибку и обновляет алгоритм. Это и есть машинное обучение».
Столкнувшись еще раз с подобной ситуацией, вы увидите данный результат обучения.
К примеру, поставщик снова прислал товарную накладную со строкой:
«Майка муж. черн. Остин 095648»
В данном случае сервис успешно соотнесет ее с карточкой товара в сервисе, несмотря на непохожесть строк:
«Остин. Майка мужская черная 095648»
Машинное обучение Контур.Маркета — это постоянный процесс. Чем чаще вы загружаете сканы в сервис, тем точнее он сопоставляет данные на картинке с данными в каталоге.