Ученые Пермского Политеха повысили точность нейросетей для распознавания изображений

Нейронные сети с каждым днем захватывают все больше различных сфер и автоматизируют множество процессов. Одно из популярных направлений — распознавание изображений. Его используют в медицинской диагностике, в автомобильной сфере для распознавания знаков на дороге, для навигации и визуального восприятия окружающей среды в робототехнике, для обнаружения инцидентов в системах видеонаблюдения. Требуется постоянная модификация и улучшение методов для снижения ошибок. Ученые ПНИПУ разработали подсистему машинного зрения, которая обеспечивает надежное распознавание мелких и разноудаленных от камеры объектов. Предложенная схема поможет, например, обнаружить оружие или опасные предметы в толпе.

Машинное зрение — это способность компьютеров «видеть» и понимать изображения так же, как это делают люди. С его помощью компьютер распознает лица на фотографиях и определяет типы объектов (например, машина, дерево, человек). Для решения задач обнаружения и идентификации используют нейронные сети. Но они могут выдавать ошибки, что отрицательно сказываются на точности всей системы.

У традиционной одноступенной схемы есть недостатки — игнорирование контекста при поиске объектов и отсутствие жесткой привязки размеров объекта на изображении к параметрам перспективы сцены (кадра). Из-за этого увеличивается количество неверных результатов. Также нейросетевая модель, обученная на универсальном наборе категорий, может неправильно распознавать объекты, если происходит изменение качества или ракурса изображения.

Ученые Пермского Политеха разработали подсистему машинного зрения, которая обеспечивает высокую точность классификации и сегментации. Классификация позволяет определить, к какой категории относится объект, а сегментация – выделить и обозначить его контуры. Политехники предложили двухступенную (двухэтапную) схему обработки изображений независимыми нейронными сетями. Она учитывает контекст сцены и адаптируется к степени удаленности объектов или изменению ракурса съемки.

Основной принцип разработанной политехниками схемы — разделение классов на «суперобъекты» и «вложенные объекты». На первом этапе нейросеть ищет и выделяет область интереса: остается только ограничивающий прямоугольник с суперобъектом («оружие» у «человека», «деталь» — часть «станка»), все остальное обрезается. Таким образом гарантируется, что искомый объект будет находиться внутри области интереса. На втором этапе происходит обнаружение и сегментация искомых объектов.

Такой подход, например, подходит для системы видеонаблюдения с возможностью обнаружения оружия и опасных предметов в толпе, когда люди находятся на разном расстоянии от камер. Обычная нейронная сеть может не различить носимое оружие на очень удаленных или очень приближенных позициях сцены. Но, если предварительно обнаружить силуэты всех людей на снимке, то детекция (распознавание) оружия будет более точной. Другие примеры — идентификация различных разноудаленных конструкций, механизмов со множеством деталей, аэрофотосъемка.

— Мы разработали новую схему обработки изображений с помощью нейронных сетей. Она находит объекты искомых категорий вне зависимости от их размеров, а также стабильна к изменению условий съемки. Увеличение точности на 25% на отдельных тестовых изображениях происходит за счет искусственного ограничения назначения категорий и локализации объектов в контексте сцены обрабатываемого изображения, — поделился кандидат технических наук, доцент кафедры автоматики и телемеханики ПНИПУ Андрей Кокоулин.

Разработка ученых Пермского Политеха улучшит распознавание изображений с помощью нейросетей, повысит точность определения мелких и разноудаленных от камеры объектов. Предложенная схема поможет, например, обнаружить оружие или опасные предметы в толпе.

06.03.241744

Теги: