Выпуск #6/2024
О. Чупринова
ИДЕНТИФИКАЦИЯ ПОКАЗАНИЙ АНАЛОГОВЫХ ИЗМЕРИТЕЛЬНЫХ ПРИБОРОВ С ПОМОЩЬЮ НЕЙРОННЫХ СЕТЕЙ
ИДЕНТИФИКАЦИЯ ПОКАЗАНИЙ АНАЛОГОВЫХ ИЗМЕРИТЕЛЬНЫХ ПРИБОРОВ С ПОМОЩЬЮ НЕЙРОННЫХ СЕТЕЙ
Просмотры: 538
DOI: 10.22184/1992-4178.2024.237.6.98.100
Рассмотрено построение архитектуры нейронной сети для снятия показаний с аналоговых приборов. Описаны основные блоки и используемые элементы, такие как сверточные сети ResNet и Path Aggregation Network.
Сделана оценка точности полученной модели на тестовой выборке по двум функциям потерь Loss.
Рассмотрено построение архитектуры нейронной сети для снятия показаний с аналоговых приборов. Описаны основные блоки и используемые элементы, такие как сверточные сети ResNet и Path Aggregation Network.
Сделана оценка точности полученной модели на тестовой выборке по двум функциям потерь Loss.
Теги: accuracy of the resulting model architecture computer vision neural networks архитектура компьютерное зрение нейронные сети точность полученной модели
Идентификация показаний аналоговых измерительных приборов с помощью нейронных сетей
О. Чупринов
Рассмотрено построение архитектуры нейронной сети для снятия показаний с аналоговых приборов. Описаны основные блоки и используемые элементы, такие как сверточные сети ResNet и Path Aggregation Network. Сделана оценка точности полученной модели на тестовой выборке по двум функциям потерь Loss.
В настоящее время происходит глобальная цифровизация всех областей, в том числе промышленности. Развитие технологий на предприятиях включает в себя широкий спектр изменений:
внедрение предиктивной аналитики, машинного или компьютерного зрения для отслеживания процессов и соблюдения требований безопасности персоналом, автоматизированный выходной контроль, снабжение средств измерения различными датчиками. Несмотря на все плюсы внедрения новых технологий, средние и малые предприятия по-прежнему не могут обеспечить полное внедрение из-за большой стоимости нового оборудования и переобучения персонала, кроме того технологический процесс производства подвергнется некоторым изменениям. В данной работе предлагается метод, основанный на машинном обучении, помогающий решить проблему автоматизированной идентификации показаний с аналоговых приборов, что может снять нагрузку трудозатрат с операторов без потери точности.
Подготовка данных
Компьютерное зрение (CV) – подраздел искусственного интеллекта, использующий алгоритмы машинного обучения и глубокого обучения для распознавания и интерпретации объектов на изображениях и видео.
Для качественной работы модели необходимо подготовить данные. Был собран датасет в размере 49 изображений. 10 изображений были взяты в качестве тестовой выборки, остальная часть изображений использовалась для тренировки. Выборка была дополнена открытым датасетом UFPR-ADMR-v2. В результате использовалось 3039 изображений для обучения нейронной сети, 2010 – в качестве тестовой выборки. Пример – фото из выборки (рис. 1).
Обработка изображения
Входное изображение (Input Image) подается на вход Backbone модели сети – Residual Network (ResNet18), что позволяет получить признаки входного изображения прибора. Основной принцип работы такой модели – обход входных данных для двух последующих слоев, что дает возможность уменьшать количество свойств в каждом слое, экономя вычислительные ресурсы. ResNet можно рассматривать как ансамбль параллельных или последовательных модулей (рис. 2а, б).
Далее полученные признаки подаются на вход двух различных блоков – Value Classifier и Mask Predictor.
Value Classifier представляет собой сверточные слои модели Path Aggregation Network (PAFPN). PAFPN – это модуль пирамиды функций, используемый в сетях агрегации путей (PANet), который сочетает в себе FPN с расширением пути снизу-вверх, что сокращает путь информации между нижними уровнями и самым верхним объектом.
Второй модуль Mask Predictor также имеет сверточные слои PAFPN. Данный блок осуществляет сегментацию стрелки прибора, а также его шкалы. Два этих блока обучаются на признаках друг друга (Disentangling Weight Sharing) по методу, описанному в [1], что позволяет вычленять глубокие зависимости между признаками сегментации стрелки, шкалы из блока Mask Predictor и признаками в предсказании ближайшего значения к стрелке на шкале блока Value Classifier. Таким образом, нейронная сеть состоит из нескольких блоков, разделенных нелинейными функциями, вычленяющих признаки изображения.
Функции потерь
В блоке Value Classifier функция потерь рассчитывается как значение перекрестной кросс-энтропии (Cross Entropy Loss) для минимизации ошибки в задаче классификации значения на шкале прибора. В блоке Mask Predictor используется агрегированная функцией потерь DiceLoss. Расчет разных функций потерь на этапах сегментации и обработки изображения позволяет минимизировать ошибки всей модели на выходе.
Рассмотрим формулу для расчета функции потерь в блоке Value Classifier:
Loss = – yi∙log ŷi + (1 – yi)∙log(1 – ŷi), (1)
где yi – действительное значение, ŷi – предсказание.
Прогнозы, состоящие из двух элементов, имеющих то же разрешение, что и исходные входные данные, обрабатываются через слой soft-max, который выводит вероятность того, что каждый воксель принадлежит переднему и заднему плану.
В работе [2] была описана новая целевая функция, на основе элемента «кубика», позволяющая привести уравнение к следующему виду:
Ldice = , (2)
где суммы пробегают N вокселей предсказанной бинарной сегментации, объем pi ∈ P и основной двоичный объем gi ∈ G. При таком виде можно продифференцировать уравнение, получая градиент. Конечная функция потерь агрегирует значения функции потерь DiceLossAgg и CrossEntropyLoss:
DiceAgg = λ∙DiceLossPointer + (1–λ)∙DiceLossScale + + CrossEntropyLoss.
Эмпирическим путем было отмечено, что параметру λ необходимо присваивать значение в пределах 0,3–0,4 для того, чтобы нейронная сеть лучше сегментировала шкалу прибора, нежели стрелку, так как задача сегментации шкалы сложнее, учитывая разно-
образие выборки.
Строение архитектуры
Архитектура нейронной сети описывает ее структуру и организацию. В нее включается количество слоев, количество нейронов в каждом слое, функция активации, методы оптимизации и другие параметры, определяющие, как сеть будет принимать на вход, обрабатывать и выдавать результат. Ниже рассмотрим упрощенную схему, состоящую из основных блоков, в которые уже входят сверточные нейронные сети, обработка изображения и расчет функций потерь (рис. 3).
Оценка точности модели
Для оценки точности использовалась метрика Average Precision (АР). Это метрика измерения точности детекторов объектов. Средняя точность, усредненная по всем значениям полноты между 0 и 1, интерпретируется как нахождение площади области ниже кривой «точность – полнота». При интерполяции по всем точкам AP интерпретируется как площадь области ниже кривой «точность – полнота».
Результат точности полученной модели можно оценить через предсказание значения на шкале, которое рассчитывается, как отношения угла между стрелкой и нулевым значением и угла между началом отсчета и конечным значением. Полученное отношение умножается на предсказание блока Value Classifier. Результаты на тестовой выборке: AP50 (Average Precision) – 96,2%, AP75 (Average Precision) – 94,5%.
Результаты предсказаний отдельных блоков: блок идентификации стрелки – 91,2%, блок идентификации шкалы прибора – 89,3%, блок регрессии показаний – 86,1%.
***
В работе был рассмотрен возможный вариант построения архитектуры нейронной сети, позволяющей автоматически снимать показания аналоговых приборов. Такой способ поможет снизить трудозатраты на производстве и избежать ошибок оператора, связанных с человеческим фактором и усталостью. На тестовой выборке модель показала высокие показатели точности до 96% процентов, и до 91% по отдельным блокам. Стоит отметить, что внедрение методов машинного зрения можно сделать без значительных изменений в технологическом процессе.
ЛИТЕРАТУРА
Disentangling Neural Architectures and Weights: A Case Study in Supervised Classification. Nicolo Colombo, Yang Gao. Department of Computer Science Royal Holloway University of London, Egham Hill, Egham TW20 0EX, UK September 14, 2020.
V-Net: Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation.
Fausto Milletari, Nassir Navab, Seyed-Ahmad Ahmadi.
Zettinig O., Shah A., Hennersperger C., Eiber M., Kroll C., K΄ubler H., Maurer T., Milletari F., Rackerseder J., zu Berge C.S. et al. Multimodal image-guided prostate fusion biopsy based
on automatic deformable registration. International journal of computer assisted radiology and surgery 10(12), 1997–2007 (2015).
Milletari F., Ahmadi S.A., Kroll C., Plate A., Rozanski V., Maiostre J., Levin J., Dietrich O.,
Ertl-Wagner B., B΄otzel K. et al. Hough-cnn: Deep learning for segmentation of deep brain regions in mri and ultrasound. arXiv preprint arXiv:1601.07014.
Deep Residual Learning for Image Recognition. Kaiming He Xiangyu, Zhang Shaoqing, Ren Jian Sun Microsoft Research. Long J., Shelhamer E., Darrell T. Fully convolutional networks for semantic segmentation // CVPR, 2015.
Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. Bert: Pretraining of deep
bidirectional transformers for language understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171–4186, 2019.
Noh H., Hong S., Han B. Learning deconvolution network for semantic segmentation // Proceedings of the IEEE International Conference on Computer Vision. PP. 1520–1528.
О. Чупринов
Рассмотрено построение архитектуры нейронной сети для снятия показаний с аналоговых приборов. Описаны основные блоки и используемые элементы, такие как сверточные сети ResNet и Path Aggregation Network. Сделана оценка точности полученной модели на тестовой выборке по двум функциям потерь Loss.
В настоящее время происходит глобальная цифровизация всех областей, в том числе промышленности. Развитие технологий на предприятиях включает в себя широкий спектр изменений:
внедрение предиктивной аналитики, машинного или компьютерного зрения для отслеживания процессов и соблюдения требований безопасности персоналом, автоматизированный выходной контроль, снабжение средств измерения различными датчиками. Несмотря на все плюсы внедрения новых технологий, средние и малые предприятия по-прежнему не могут обеспечить полное внедрение из-за большой стоимости нового оборудования и переобучения персонала, кроме того технологический процесс производства подвергнется некоторым изменениям. В данной работе предлагается метод, основанный на машинном обучении, помогающий решить проблему автоматизированной идентификации показаний с аналоговых приборов, что может снять нагрузку трудозатрат с операторов без потери точности.
Подготовка данных
Компьютерное зрение (CV) – подраздел искусственного интеллекта, использующий алгоритмы машинного обучения и глубокого обучения для распознавания и интерпретации объектов на изображениях и видео.
Для качественной работы модели необходимо подготовить данные. Был собран датасет в размере 49 изображений. 10 изображений были взяты в качестве тестовой выборки, остальная часть изображений использовалась для тренировки. Выборка была дополнена открытым датасетом UFPR-ADMR-v2. В результате использовалось 3039 изображений для обучения нейронной сети, 2010 – в качестве тестовой выборки. Пример – фото из выборки (рис. 1).
Обработка изображения
Входное изображение (Input Image) подается на вход Backbone модели сети – Residual Network (ResNet18), что позволяет получить признаки входного изображения прибора. Основной принцип работы такой модели – обход входных данных для двух последующих слоев, что дает возможность уменьшать количество свойств в каждом слое, экономя вычислительные ресурсы. ResNet можно рассматривать как ансамбль параллельных или последовательных модулей (рис. 2а, б).
Далее полученные признаки подаются на вход двух различных блоков – Value Classifier и Mask Predictor.
Value Classifier представляет собой сверточные слои модели Path Aggregation Network (PAFPN). PAFPN – это модуль пирамиды функций, используемый в сетях агрегации путей (PANet), который сочетает в себе FPN с расширением пути снизу-вверх, что сокращает путь информации между нижними уровнями и самым верхним объектом.
Второй модуль Mask Predictor также имеет сверточные слои PAFPN. Данный блок осуществляет сегментацию стрелки прибора, а также его шкалы. Два этих блока обучаются на признаках друг друга (Disentangling Weight Sharing) по методу, описанному в [1], что позволяет вычленять глубокие зависимости между признаками сегментации стрелки, шкалы из блока Mask Predictor и признаками в предсказании ближайшего значения к стрелке на шкале блока Value Classifier. Таким образом, нейронная сеть состоит из нескольких блоков, разделенных нелинейными функциями, вычленяющих признаки изображения.
Функции потерь
В блоке Value Classifier функция потерь рассчитывается как значение перекрестной кросс-энтропии (Cross Entropy Loss) для минимизации ошибки в задаче классификации значения на шкале прибора. В блоке Mask Predictor используется агрегированная функцией потерь DiceLoss. Расчет разных функций потерь на этапах сегментации и обработки изображения позволяет минимизировать ошибки всей модели на выходе.
Рассмотрим формулу для расчета функции потерь в блоке Value Classifier:
Loss = – yi∙log ŷi + (1 – yi)∙log(1 – ŷi), (1)
где yi – действительное значение, ŷi – предсказание.
Прогнозы, состоящие из двух элементов, имеющих то же разрешение, что и исходные входные данные, обрабатываются через слой soft-max, который выводит вероятность того, что каждый воксель принадлежит переднему и заднему плану.
В работе [2] была описана новая целевая функция, на основе элемента «кубика», позволяющая привести уравнение к следующему виду:
Ldice = , (2)
где суммы пробегают N вокселей предсказанной бинарной сегментации, объем pi ∈ P и основной двоичный объем gi ∈ G. При таком виде можно продифференцировать уравнение, получая градиент. Конечная функция потерь агрегирует значения функции потерь DiceLossAgg и CrossEntropyLoss:
DiceAgg = λ∙DiceLossPointer + (1–λ)∙DiceLossScale + + CrossEntropyLoss.
Эмпирическим путем было отмечено, что параметру λ необходимо присваивать значение в пределах 0,3–0,4 для того, чтобы нейронная сеть лучше сегментировала шкалу прибора, нежели стрелку, так как задача сегментации шкалы сложнее, учитывая разно-
образие выборки.
Строение архитектуры
Архитектура нейронной сети описывает ее структуру и организацию. В нее включается количество слоев, количество нейронов в каждом слое, функция активации, методы оптимизации и другие параметры, определяющие, как сеть будет принимать на вход, обрабатывать и выдавать результат. Ниже рассмотрим упрощенную схему, состоящую из основных блоков, в которые уже входят сверточные нейронные сети, обработка изображения и расчет функций потерь (рис. 3).
Оценка точности модели
Для оценки точности использовалась метрика Average Precision (АР). Это метрика измерения точности детекторов объектов. Средняя точность, усредненная по всем значениям полноты между 0 и 1, интерпретируется как нахождение площади области ниже кривой «точность – полнота». При интерполяции по всем точкам AP интерпретируется как площадь области ниже кривой «точность – полнота».
Результат точности полученной модели можно оценить через предсказание значения на шкале, которое рассчитывается, как отношения угла между стрелкой и нулевым значением и угла между началом отсчета и конечным значением. Полученное отношение умножается на предсказание блока Value Classifier. Результаты на тестовой выборке: AP50 (Average Precision) – 96,2%, AP75 (Average Precision) – 94,5%.
Результаты предсказаний отдельных блоков: блок идентификации стрелки – 91,2%, блок идентификации шкалы прибора – 89,3%, блок регрессии показаний – 86,1%.
***
В работе был рассмотрен возможный вариант построения архитектуры нейронной сети, позволяющей автоматически снимать показания аналоговых приборов. Такой способ поможет снизить трудозатраты на производстве и избежать ошибок оператора, связанных с человеческим фактором и усталостью. На тестовой выборке модель показала высокие показатели точности до 96% процентов, и до 91% по отдельным блокам. Стоит отметить, что внедрение методов машинного зрения можно сделать без значительных изменений в технологическом процессе.
ЛИТЕРАТУРА
Disentangling Neural Architectures and Weights: A Case Study in Supervised Classification. Nicolo Colombo, Yang Gao. Department of Computer Science Royal Holloway University of London, Egham Hill, Egham TW20 0EX, UK September 14, 2020.
V-Net: Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation.
Fausto Milletari, Nassir Navab, Seyed-Ahmad Ahmadi.
Zettinig O., Shah A., Hennersperger C., Eiber M., Kroll C., K΄ubler H., Maurer T., Milletari F., Rackerseder J., zu Berge C.S. et al. Multimodal image-guided prostate fusion biopsy based
on automatic deformable registration. International journal of computer assisted radiology and surgery 10(12), 1997–2007 (2015).
Milletari F., Ahmadi S.A., Kroll C., Plate A., Rozanski V., Maiostre J., Levin J., Dietrich O.,
Ertl-Wagner B., B΄otzel K. et al. Hough-cnn: Deep learning for segmentation of deep brain regions in mri and ultrasound. arXiv preprint arXiv:1601.07014.
Deep Residual Learning for Image Recognition. Kaiming He Xiangyu, Zhang Shaoqing, Ren Jian Sun Microsoft Research. Long J., Shelhamer E., Darrell T. Fully convolutional networks for semantic segmentation // CVPR, 2015.
Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. Bert: Pretraining of deep
bidirectional transformers for language understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171–4186, 2019.
Noh H., Hong S., Han B. Learning deconvolution network for semantic segmentation // Proceedings of the IEEE International Conference on Computer Vision. PP. 1520–1528.
Отзывы читателей