JARiTS. – 2020. – № 18

https://doi.org/10.26160/2474-5901-2020-18-50-54

Общий подход к созданию набора данных на примере формирования набора изображений линейных штрих-кодов

Венцов Н.Н., Подколзина Л.А.

Ключевые слова: компьютерное зрение, распознавание образов, подготовка данных, набор данных, аугментация, линейный штрих-код.

Аннотация. Эффективность моделей машинного обучения зависит от качества исходного набора данных. При отсутствии их предварительной обработки может возникнуть ситуация, когда модель обучается на искаженных и ненадежных данных, приводящих работу системы к получению неверных результатов. В научных работах основной упор уделяется процессу улучшения моделей обучения, тогда как работе с самой выборкой не всегда оказывается должное внимание. Таким образом, возникает необходимость первоначального изучения данных с целью улучшения существующего набора. Целью работы является создание набора данных линейных штрих-кодов для проведения дальнейших научных изысканий. Задачей работы является выработка общих рекомендаций при подготовке изображений, включаемых в обучающую и тестовую выборки. Результатом работы является созданный набор данных, включающий в себя 8000 изображений линейных штрих-кодов (4000 изображений и 4000 масок к ним).

Full text (Полный текст) PDF

The general approach to creating a dataset using an example of barcode images

Ventsov N.N., Podkolzina L.A.

Keywords: computer vision, pattern recognition, data preparation, data set, augmentation, lD barcode.

Abstract. The effectiveness of machine learning models depends on the quality of the original data set. In the absence of their preliminary processing, a situation may arise when the model is trained on distorted and unreliable data, leading the system to obtain incorrect results. In scientific papers, the main emphasis is on the process of improving learning models, while working with the sample itself is not always given due attention. Thus, there is a need for an initial study of the data in order to improve the existing set. The aim of this work is to create a linear barcode data set for further scientific research. The objective of the work is to develop general recommendations for the preparation of images included in the training and test samples. The result of the work is the created data set, which includes 8000 images of linear barcodes (4000 images and 4000 mask for this images).