Автоматическое определение положения лазера и камеры по цифровым изображениям в системе лазерной триангуляции

Обработка и передача изображений

автоматическое определение положения лазера и камеры по цифровым изображениям в системе лазерной триангуляции

Давыденко Е.В.

Ярославский государственный университет имени П.Г.Демидова.

150000, Россия, Ярославль, ул. Советская, 14. Тел. (0852) 79-77-75. [email protected]

Оптическая лазерная триангуляция – один из самых точных и быстрых способов получения цифровых трехмерных моделей реальных объектов [1, 2]. Метод основан на освещении объекта лазерным лучом и регистрации отраженного от объекта излучения с помощью ПЗС-матрицы или иного регистрирующего оборудования.

Принцип действия системы оптической лазерной триангуляции состоит в следующем: источник лазерного излучения под определенным углом освещает объект лазерным лучом. Изображение объекта с лазерным лучом на его поверхности регистрируется цифровой видеокамерой. Путем анализа данного цифрового изображения вычисляются трехмерные координаты точек его поверхности, на которых присутствует лазерный луч. Сканирование всего объекта возможно путем смещения лазерного луча вдоль всей поверхности объекта.

Для корректного вычисления трехмерных координат поверхности сканируемого объекта необходимо знать взаимное расположение лазера и видеокамеры в пространстве. В данной работе предлагается метод вычисления трехмерных координат видеокамеры и лазера без внедрения специализированных технических средств, с использованием в качестве входных данных только изображений, снимаемых видеокамерой.

Для позиционирования видеокамеры в сканируемую сцену внедряется шаблон определенной структуры с нанесенными метками (рис. 1). Взаимное расположение меток на калибровочном шаблоне заранее известно, и, автоматически определив положение меток на анализируемом изображении, можно вычислить соответствие между их двумерными координатами на плоскости изображения и трехмерными – на калибровочном шаблоне. Положение лазера так же определяется путем автоматического анализа полученного видеокамерой изображения луча лазера на поверхности шаблона.

В качестве калибровочных меток в описываемом алгоритме использованы контрастные калибровочные полосы специальной структуры. Задача автоматизированного обнаружения калибровочных полос может быть эффективно решена с помощью предлагаемого алгоритма.

Рис. 1. Модели различных калибровочных шаблонов, используемых в системе,

с нанесенными калибровочными полосами
На первом этапе работы алгоритма производится детектирование краев в изображении. После выполнения операции детектирования краев на выходе получается приближенное изображение модуля градиента на изображении. Каждая калибровочная полоса преобразуется в четыре линии, соответствующие ее краям.

Данные линии могут быть обнаружены с помощью преобразования Хафа. Для поиска прямых линий в исходном изображении необходимо провести анализ результатов преобразования на наличие локальных максимумов достаточной амплитуды. Далее производится анализ найденного списка максимумов для нахождения непрерывных прямых с длиной, не меньше заданной. Этот шаг необходим, так как преобразование Хафа дает информацию только о положении и наклоне прямой, но только косвенно содержит информацию о ее протяженности и не учитывает разрывы в прямых.

Следующим этапом в анализе результатов преобразования Хафа является отбор пар прямых, которые потенциально могут составлять края одной калибровочной полосы. Для соответствия краям производится проверка каждой возможной пары прямых на выполнение следующих условий:

Прямые должны быть расположены близко друг к другу
Прямые должны быть близки к параллельности
Длина прямых должна быть примерно одинакова
Градиенты прямых должны быть близки к перпендикулярности
Параметры начал прямых, так же как и параметры их концов, должны быть примерно равными
Градиенты прямых должны быть направлены не в одну сторону

После нахождения необходимого количества корректных пар прямых производится считывание кода, нанесенного на центр полосы, составленной найденными прямыми. Код представляет собой чередование черных и белых областей переменной ширины.

а)

б)

Рис. 2. Результаты калибровки по зашумленным изображениям а) количество найденных линий в процентах от максимально возможного в зависимости от отношения сигнал/шум (PSNR) анализируемого изображения; б) пример калибровки (изображение искажалось аддитивным гауссовым шумом с последующим размытием)
Для кодирования в двоичном базисе области могут быть единичной и двойной ширины. Единичная ширина принимается за двоичный ноль, двойная ширина – за двоичную единицу. Для считывания кода на первом этапе определяются параметры прямой, лежащей вдоль оси калибровочной полосы и составляется зависимость интенсивности точек изображения от смещения вдоль этой прямой. Данная зависимость анализируется и составляется последовательность, представляющая собой зависимость ширины импульса от его порядкового номера. Полученная зависимость передается на алгоритм дискриминации импульсов. В результате составляется двоичная последовательность, в которой импульс единичный ширины принимается за 0, а импульс двойной ширины за 1.

Далее эта последовательность проверяется на присутствие в ней заранее заданных возможных кодовых последовательностей. Они выбираются по специализированному базису и различны для различных реализаций калибровочного шаблона. Система анализирует количество найденных калибровочных полос, их расположение и нанесенный штриховой код. Исходя из этой информации, делается вывод о том, какой шаблон в текущий момент используется. Далее информация о положении полос на изображении и тип шаблона передается в систему вычисления трехмерного положения видеокамеры. Данный метод обнаружения калибровочных полос в силу их протяженности обладает достаточно высокой надежностью и низкой чувствительностью к шумам. Пример калибровки по зашумленным изображениям показан на рис. 2.

Однако одной из основных проблем такого подхода является присутствие перспективных искажений. При наблюдении калибровочной полосы под углом к оптической оси камеры ее форма искажается. Первоначально прямоугольная полоса в таком случае выглядит как трапеция. Такое искажение не только меняет форму калибровочной полосы, но и в значительной степени искажает код, нанесенный на ней.

В рассматриваемой системе данный тип искажений в необходимой степени минимизируется путем внедрения специального алгоритма автоматического изменения интервала дискретизации считывания кода, результат работы которого приведен на рис. 3.


а)	б)

Рис. 3. а) результаты работы алгоритма автоматической коррекция интервала дискретизации считывания кодовой последовательности в зависимости от угла наблюдения полосы

. Развертка кода на линии без коррекции обозначена серым цветом (вверху), после коррекции – черным (внизу); б) зависимость максимально возможного угла наблюдения полосы

от отношения сигнал/шум анализируемого изображения

На первом этапе данный алгоритм анализирует степень отклонения формы калибровочной полосы от идеального прямоугольника и по этим данным определяет величину перспективных искажений. В случае, когда перспективные искажения отсутствуют, тение кода на калибровочной полосе производится с шагом в 1 пиксель. В случае, когда линии не параллельны, единичный интервал дискретизации выбирается на широком конце полосы и уменьшается при приближении к узкому концу. Для реализации выборки точек на изображении с нецелой координатой алгоритм использует взвешенное окно 2х2 пикселя.

В результате применения данного алгоритма искажения в результате эффекта перспективы минимизируются и практически не влияют на надежность работы алгоритма считывания кода.

После определения положения меток на исходном изображении необходимо вычислить вектор

параметров камеры в соответствии с моделью перспективной проекции. Данный вектор включает в себя не только координаты камеры и углы Эйлера

ориентации камеры, но и фокусное расстояние камеры

и коэффициент диспропорции изображения

. При необходимости в данный вектор также могут быть добавлены параметры, описывающие радиальную и другие виды дисторсии изображения.

Погрешность предлагаемого метода калибровки камеры составляет в среднем менее 1% от поперечника калибровочного шаблона (при условии, что шаблон занимает около 80% площади изображения) и в первую очередь зависит от точности изготовления шаблона.

Система лазерной триангуляции, построенная с применением описанной процедуры калибровки, требует минимального набора компонентов (лазера, камеры и ЭВМ общего назначения) и позволяет отказаться от дополнительного дорогостоящего оборудования (роботизированных манипуляторов и т. п.). Форма калибровочного шаблона может быть изменена для учета различных пропорций сканируемых объектов без необходимости перестройки системы.

Предлагаемый метод калибровки камеры применим не только для задачи лазерной триангуляции, но и для других задач, в которых необходимо определение положения и ориентации камеры с использованием только изображений, снимаемых ею. Метод эффективно работает в условиях низкого качества изображений, значительных перспективный искажений и присутствия естественного фона позади калибровочного шаблона.

Литература

Твердохлеб П.Е., Коронкевич В.П., Косцов Э.Г. и др. 3D лазерные информационные технологии. – Новосибирск: Рос. акад. наук, Сиб. отд-ние, Ин-т автоматики и электрометрии, 2003.
Дунин-Барковский И.И. Построение системы контроля размеров крупногабаритных деталей на основе 3D-системы технического зрения // Измерительная техника. – 2004. № 12. С. 19.
Компьютерное зрение / Л. Шапиро, Дж. Стокман; Пер. с англ. – М.: БИНОМ. Лаборатория знаний, 2006.
Цифровая обработка телевизионных и компьютерных изображений / А.В. Дворкович, В.П. Дворкович, Ю.Б. Зубарев и др. – М.: МЦНТИ, 1997.

AUTOMATIC camera POSITION estimation in optical laser triangulation system

Davydenko E.

Yaroslavl state university, Russia.

Optical laser triangulation is one of the most common methods to achieve 3-dimensional image of the real objects. This method is based on a laser stripe point position estimation when illuminating object of interest with laser source with linear optics. Information is registered with CCD-camera. One registered image contains information only about positions of points being currently illuminated by laser stripe, so to achieve complete 3-dimensional image the moving laser stripe is needed. Most devices use movable laser source and static camera and perform scan in real time. This allows to directly estimate position of laser source and camera to translate camera plane coordinate system to real world coordinates of object surface points.

Most systems use only recently registered image to compute 3D coordinates of surface points being currently illuminated by laser source. Position of laser stripe is usually estimated using simple algorithms of peak detection, this method takes into account only small neighborhood of points near maximum of illuminating Gaussian. But this approach leads to errors in case of complex shape of an object due to laser beam incompleteness or occlusion, for example on sharp edges or reflectance steps. Most of these errors can be overcome in way of processing not only most recent image but previous images. This method implements not only spatial but also time domain analysis to estimate the coordinates of laser stripe points. With usage of time domain analysis it is possible to extract the whole shape of illuminating laser pulse even in case of spatial occlusion or incompleteness. This gives us an ability to extract more precise and reliable data from registered images. But this method involves not just simple 2D-image processing but complex algorithms of 3D data analysis. This leads to impossibility of real-time data processing in case of short scan-time conditions, so two step scan method is more appropriate.

In this research we designed the laser triangulation system based on spatial and time domain analysis described above. Results of scan are more reliable in comparison with traditional spatial algorithms. Such system design doesn’t require a fixed laser and camera positions; triangulation angle is extracted directly from registered video without any additional information channel. Camera position is calculated by developed automatic camera matching algorithm using special markers in image. This leads to more flexible system usage (system is designed to work with almost any type of non-professional digital cameras) and independence of laser motion type. Also it’s possible to change camera to another one with better resolution without need of hardware or software parts redesign. Also such approach gives us some other advantages, for example it’s possible to easily fit scanned object with texture registered from another point of view, and more reliable full shape reconstruction with range information of same object scanned from different views.



ЛОКАЛИЗАЦИЯ И КОМПЕНСАЦИЯ ИСКУССТВЕННО НАЛОЖЕННЫХ ТЕКСТОВЫХ ОБЛАСТЕЙ В ВИДЕОПОСЛЕДОВАТЕЛЬНОСТИ

Дамов М.В.

Сибирский государственный аэрокосмический университет имени академика М.Ф. Решетнева

В последнее время в профессиональной и бытовой сфере видеообработки решается множество ресурсоемких задач. Примером таких задач может служить наложение спецэффектов и искусственной графики, как в реальном времени, так и во время последующего монтажа. Также в целях повторного использования видеоматериала высоко востребована обратная задача восстановления первоначально отснятого видеоизображения, которая может быть решена удалением искусственно наложенной примитивной графики в виде текстовых и графических областей.

Приведем классификацию и наложенных изображений по их визуальному представлению:

графические изображения: изображения небольшого размера, как правило, размещенные в одном или нескольких углах кадра или у границ кадра;
титры: текстовые области с информацией о создателях фильма, могут быть размещены в любом месте кадра;
субтитры: текстовые области у верхней или нижней границ кадра с периодически изменяющимся статическим текстом;
бегущая строка: текстовая область у верхней или нижней границ кадра с перемещающимся текстом, перемещение текста осуществляется в соответствии с общепринятыми правилами чтения и письма;
изображение электронных часов и температуры воздуха.

Приведем классификацию наложенных искусственных изображений по различным признакам:

по размеру: мелкое (до 5% экрана), среднее (до 20% экрана), крупное (до 35% экрана);
по местоположению: угловое, вытянутое по горизонтальной границе кадра, вытянутое по вертикальной границе кадра, другое;
по динамике: статическое (изображение всегда постоянно), умеренно изменяющееся (изображение без изменения размеров), полностью динамическое (изображение изменяет размеры, в пределах этих размеров может быть наложена другая видеопоследовательность);
по длительности: постоянное на всей видеопоследовательности, периодически отсутствующее;
по цветности: однотонное, черно-белое, градиентное, с ограниченным количеством цветов, полноцветное;
по прозрачности: прозрачное и непрозрачное;
по наличию контурных линий: с обрамлением, без обрамления;
по наличию собственного фона: с наличием собственного фона, без собственного фона [1].

Таким образом, каждую область искусственной графики можно описать несколькими определениями и выбрать нужный набор алгоритмов локализации и компенсации.

В данной работе рассматривается локализация и компенсация текстовых областей искусственно наложенной графики, не обладающих собственным фоном. Приведем основные этапы решения поставленной задачи:

1. Разделение видеопоследовательности на сцены (между монтажными склейками или резкими изменениями ракурса).

2. Локализация областей искусственно наложенной графики.

3. Определение типа сцены: с признаками или без признаков движения в кадре.

4. Компенсация областей искусственно наложенной графики набором алгоритмов в зависимости от типа сцены.

В рамках решения этих задач требуется применить технологии извлечения структурированной и осмысленной информации из видеопоследовательности. Одной из таких технологий является слежение за точечными особенностями видеопоследовательности. Под точечной особенностью понимается такая точка сцены, которая находится на плоском участке поверхности сцены. При этом изображение окрестности этой точки можно отличить от изображений окрестностей всех других точек сцены из некоторой другой окрестности этой точки.

Рассмотрим простую схему детектора точечных особенностей.

1. Детектирование и оценка.

1.1. Найти набор особенностей {F}.

1.2. Определить качество всех особенностей Q{F}.

1.3. Оставить только особенности, параметры которых выше некоторого заранее или динамически определенного порога, получив множество {G}.

2. Слежение и оценка.

Для каждого последующего кадра:

2.1. Найти в текущем кадре новое положение всех особенностей из {G} – слежение.

2.2. Определить текущее качество всех {G}.

2.3. Оставить только те особенности, параметры которых удовлетворяет некоторому критерию.

2.4. Если число отслеживаемых точек уменьшается ниже требуемого, то применить детектор к текущему изображению и добавить в множество {G} новые точки [2].

Чаще всего для отслеживания точечных особенностей изображения (кадра) используется детектор Харриса, когда для каждого пикселя изображения вычисляется значение особой функции отклика угла, оценивающая степень похожести изображения окрестности точки на угол. Для этого рассчитывается матрица:

, где I(x,y) – яркость изображения в точке (x, y).

Если оба собственных значения матрицы велики, то даже небольшое смещение точки (x, y) в сторону вызывает значительные изменения в яркости, что и соответствует особенности изображения. Таким образом, функция отклика угла записывается в следующем виде:

, где k = 0,04 (коэффициент, предложенный Харрисом); trace(M) – сумма элементов матрицы на главной диагонали.

Точки изображения, соответствующие локальным максимумам этой функции, и признаются особенностями.

Следующий этап работы системы заключается в определении границ сцены. Граница сцены определяется между двумя соседними кадрами, изменение конфигурации особенных точек между которыми соответствует некоторому порогу. Порог определяется как локальный экстремум функции количества особенных точек

, где R – текущее положение точки; e – смещение точки; e_n – порог смещения точки; count – функция подсчета количества точек.

Качество определения границы сцены оценивается следующими параметрами:

– точность – вероятность, что найденная граница сцены – верная граница

;

– граничный сигнал – вероятность, что ожидаемая граница будет найдена

;

– F1 – синтетическая мера качества

, где C – количество верных срабатываний; F – количество ложных срабатываний; M – количество пропущенных сцен.

Локализация текстовых областей с искусственно наложенной графикой основана на модификации пространственного алгоритма Рареса-Рейндерса-Бьемонда [3]. Алгоритм основан на обнаружении областей экстремальной яркости на основе мягкого и жесткого динамических порогов. Чтобы обнаружить области экстремальной яркости мы должны установить некоторые пороги для обнаружения ярких и тусклых пикселей. Однако использование фиксированных порогов нежелательно, т.к. яркость меняется от кадра к кадру. Жесткий порог является хорошим решением для обнаружения таких областей. С другой стороны слабый порог приведет к большому количеству ложно обнаруженных областей. Чтобы избежать этих проблем, алгоритм обнаружения областей экстремальной яркости использует динамический порог, который работает весьма эффективно в нашем случае. Основная идея динамического порога состоит в том, что сначала устанавливается жесткий порог. Выбираются только области со значениями выше этого порога. Области, полученные на этом шаге расширяются соседними, которые удовлетворяют мягкому порогу. Хорошие результаты по локализации показывает также адаптивный метод обнаружения текстовых зон, приведенный в работе [4].

Определение типа сцены и компенсация сцен с признаками движения в кадре осуществляются с помощью алгоритмов отслеживания особых точке семейства Лукаса-Канаде [2]. Для видеопоследовательности с признаками движения в кадре анализируется структура нескольких предыдущих кадров видеопоследовательности и изменение полученной структуры предыдущих кадров по сравнению с редактируемым кадром. На основе полученных данных принимается решение об изменении текущего кадра с использованием информации из предыдущих кадров с поправкой на изменение структуры кадра. Для видеопоследовательности без признаков движения в кадре анализируется текстура соседних с областью искусственной графики областей в текущем кадре, определяется структура и вероятность ее изменения. С учетом полученных данных заполняется область искусственной графики. Результатом работы системы является восстановленная или частично восстановленная до первоначального состояния видеопоследовательность. Структурные схемы функционирования основных модулей системы приведены на рис.1.

Рис. 1. Структурные схемы работы модуля локализации (слева) и модуля компенсации (справа)
В настоящее время разрабатывается программное обеспечение для проведения экспериментов по локализации и компенсации искусственно наложенных текстовых областей и некоторых других объектов в видеопоследовательностях.

Литература

1. Дамов М.В. Пространственный метод локализации изображений логотипов в видеопоследовательностях // В материалах всероссийской научной конференции молодых ученых «Наука. Технологии. Инновации. НТИ-2008», Новосибирск, ч. 1, 2008. – с.191 – 193.

2. Tommasini T., Fusiello A., Trucco E., Roberto V. Making good features to track better //

Proceedings IEEE Computer Society Conference on Computer Vision Pattern Recognition, 1998, pp. 145-149.

3. Rares A., Reinders M.J.T., Biemond J. Recovery of partially degraded colors in old movie // Proceedings of EUSIPCO-2002, Toulouse, 2003.

4. Зотин А.Г. Адаптивный метод обнаружения текстовых зон в видеопотоке на основе яркостных карт // Вестник Сибирского государственного аэрокосмического университета, Вып. 1(14). – Красноярск, 2007. – с. 34-38.
DETECTION AND RESTORATION ARTIFICIAL OVERLAYED TEXT GRAPHICS AREA IN VIDEO SEQUENCE

Damov M.

Siberian state aerospace university named after academician M.F. Reshetnev

Recently it solves set of complex computing task in professional and amateur area of video processing. For example of this task it cans imposition of special effects and artificial graphics both in real time and next nonlinear cutting. Also it is high claim loopback task of original filmed video sequence restoration for reuse video. This task can solve with delete artificial overlayed graphics as text and graphic areas. Every area of delete artificial overlayed graphics describes some adjectives and we can select required set of detection and restoration algorithms. In this paper it presents detection and restoration text area with artificial overlayed graphics with transparent background. There are main stages of solve of posed a task:

1. Division video sequence to scene (between scene entrances or highly irregular motion).

2. Detection of artificial overlayed graphics area.

3. Determination of scene type with motion in frame and without motion in frame.

4. Restoration of artificial overlayed graphics area the set of algorithms depending on scene type.

Scene entrances are defined between two near frames, feature points configuration change between ones agrees some threshold. The threshold is defined as a local extremum of function of feature point’s quantity.

Detection of artificial overlayed graphics area is based on updating of spatial algorithm by Rares. The algorithm is based on detection of areas of extreme brightness with soft and hard dynamic thresholds.

Definition of type of a scene and restoration of scenes with movement makes with algorithm of tracing of feature points by Lucas-Kanade. For video sequence with movement in frame the structure of several previous frames of video sequence and change of the received structure of the previous frame comparison with an edited frame is analyzed. On the basis of the received data the decision on change of a current frame with use of the information from the previous frames taking into account the amendment on change of structure of a frame is made. For video sequence without movement in a frame the structure near artificial overlayed graphics area in a current frame is analyzed, the frame structure and probability of its change is defined. Based on the received data the artificial overlayed graphics area is filled. Result of work of system is the video sequence restored or partially restored to an original condition.

Now the software is developed for experiments where testing and optimization of used algorithms is made.



ОЦЕНКА УРОВНЯ РАЗМЫТИЯ И ЗВОНА В ИЗОБРАЖЕНИЯХ СТАНДАРТА JPEG2000

Зараменский Д.А., Бекренев В.А., Соловьев В.Е.

Ярославский государственный университет им. П.Г. Демидова

Введение

Цель кодирования изображений состоит в минимизации искажения сжатого изображения для данного отношения бит/пиксель (или, минимизации отношения бит/пиксель при данном уровне искажения). Эта задача требует наличия методов для точного измерения искажений или качества кодированного изображения. Искажение обычно оценивается с помощью таких метрик, как пиковое отношение сигнал\шум (ПОСШ) или универсальный индекс качества (УИК). К сожалению, данные метрики не всегда позволяют оценить степень конкретных искажений и служить основанием для выбора параметров кодера [1]. Поэтому, требуются метрики количественной оценки искажений для более точной оценки качества изображений. Конечная цель подобных исследований – создание кодера оптимального с учетом современных метрик.

Алгоритм JPEG2000 [1] сжимает изображение с потерями, используя разложение по биортогональному 9/7 вейвлет-базису [2, 3]. Коэффициенты дискретного вейвлет-преобразования (ДВП) квантуются с помощью скалярного квантователя с возможностью адаптивной настройки размера шага для каждого поддиапазона. Операция квантования зануляет большое количество небольших по величине ДВП-коэффициентов. В результате восстановленное из квантованных ДВП-коэффициентов изображение содержит такие типы искажений, как размытые границы и звон. Размытие возникает по причине затухания высоких частот в изображении и характеризуется расплыванием границ и общей потерей детальности. Явление звона вызвано квантованием высокочастотных коэффициентов и проявляется в виде ряби около резких границ на изображении.

В данной работе описаны новые алгоритмы оценивания уровня размытия и звона в изображениях, сжатых при помощи ДВП. Предложенные метрики определены в пространственной области и основаны на анализе границ в изображении.

Алгоритм оценки уровня размытия

Вследствие процедуры сжатия границы изображения размываются. Поэтому, предлагаемый алгоритм измерения размытия основан на измерении ширины границ. Его схема представлена на рис.1. Первый шаг заключается в применении детектора границ к яркостной компоненте изображения. В качестве детектора границ используется фильтр Собеля. Шум и незначительные границы удаляются путем гибкой настройки порога. На следующем шаге сканируется каждая строка искаженного (сжатого) изображения. Начальная и конечная точки границы, определяются как точки ближайших к границе локальных экстремумов яркости. В процессе определения локальных экстремумов отфильтровываются ошибочно детектированные границы. Ширину границы w определим как расстояние между начальной и конечной точками границы и назовем локальным уровнем размытия. Метрика размытия (МР) определяется путем усреднения всех локальных уровней размытия всех границ, найденных в изображении.

В алгоритме, описанном выше, учитываются только вертикальные границы, что обусловлено ускорением работы алгоритма. Таким образом, учитывается только горизонтально направленное размытие границ. Алгоритм легко может быть расширен для учета горизонтальных границ, путем фильтрации горизонтальным фильтром Собеля и сканированием каждой колонки. Тестирование алгоритма показало, что указанный прием не делает общую оценку размытия границ более точной.

Рис. 1. Схема эталонной метрики размытия

Данный алгоритм, имеет как эталонную, так и неэталонную реализацию. В эталонной реализации положение границ определяется в оригинальном изображении. При неэталонной реализации метрики размытия, положение границ следует определять в сжатом изображении. Это в некоторой степени влияет на точность определения границ (в зависимости от степени сжатия или искажения).

Алгоритм оценки уровня звона

Схема алгоритма представлена на рис.2. Так же, как и в случае метрики размытия границ, метрика звона определяется для каждой выделенной границы P. Алгоритм осуществляет поиск вертикальных границ в оригинальном изображении (слабые границы и шум удаляются гибкой настройкой порога) и подсчитывает w для каждой границы в сжатом изображении. Затем сканируется каждая строка в сжатом изображении, и измеряется звон в окрестности границ. Мы определяем левый и правый звон по отношению к границе. Для этого, определяется ширина звона w_r (левая и правая) как , где w_f – фиксированная ширина звона, которая определялась опытным путем, w – левая или правая ширина границы P. Локальный уровень левого звона для данной границы определяется по формуле: , где I₁ и I₂ – значения яркости оригинального и искаженного изображений на отрезке [P-w_f, P-w]. Локальный уровень правого звона определяется аналогично. Затем усредняем все локальные уровни звона (левые и правые уровни суммируются) по числу границ в изображении и получаем окончательную метрику звона (МЗ) для данного изображения.

Результаты тестирования алгоритмов

Для тестирования использовались 10 полутоновых изображения с разрешением

пикселей с разной степенью детализации, сжатые алгоритмом JPEG2000 с 6 коэффициентами сжатия – K. Пример изображения из тестового набора и соответствующие оценки качества и значения искажений приведены на рис.3. Данные изображения были предварительно оценены экспертами в ходе проведения визуального эксперимента. Задачей эксперимента было определить фиксированную ширину звона и степень согласованности предложенных метрик с субъективной визуальной оценкой DMOS (difference mean opinion score), которая вычислялась как разность между средней оценкой оригинала и средней оценкой текущего изображения (MOS – mean opinion score). Кроме этого, определялась согласованность метрик размытия и звона с разработанным ранее алгоритмом неэталонной оценки качества изображений, сжатых по стандарту JPEG2000.

Для определения степени согласованности метрик с DMOS использовались следующие критерии корреляции:

Коэффициент линейной корреляции Пирсона.
Коэффициент ранговой корреляции Спирмена.
Квадратный корень из среднеквадратичной ошибки.

Полученные результаты приведены в табл. 1.

Рис. 2. Схема эталонной метрики звона

а) сжатое изображение К = 17 (ПОСШ= 38,25 дБ, УИК=0,66, МЗ= 0,49, МР= 7,57)	б) сжатое изображение К = 100 (ПОСШ= 32,43 дБ, УИК=0,43, МЗ=0,86, МР=12,76)
Рис. 3. Результаты тестирования метрик на изображении «Скарлетт» с различными коэффициентами сжатия

Таблица 1. Коэффициенты корреляции между значениями DMOS и объективными критериями

Критерии оценки качества	Коэффициенты корреляции
Критерии оценки качества	Пирсона	Спирмена
ПОСШ	0.8005	0.8072	11.4629
УИК	0.7896	0.8170	11.7365
НИК2000	0.6541	0.6196	14.4668
Эталонная МР	0.7026	0.7035	13.6098
Эталонная МЗ	0.6713	0.6990	14.1750

Анализ данных показывает, что предложенные метрики показывают хорошую согласованность с визуальной оценкой DMOS. Меньшая корреляция метрик с DMOS по сравнению с ПОСШ и УИК объясняется их направленностью на измерение одного конкретного типа искажения (звона или размытия), в то время как задачей экспертной оценки является комплексная оценка качества изображения. В конечной реализации в задачах определения качества изображения или пост-обработки необходимо учитывать комбинацию предложенных метрик.

Предложенные метрики можно использовать для измерения степени вносимых искажений в процессе сжатия. Для цветного изображения, измерение звона и размытия границ производится для яркостной компоненты. Кроме того, низкая вычислительная сложность данных методов позволяет адаптировать их для оценки искажений в видеопоследовательностях, сжатых по стандарту Motion JPEG2000.
Литература

Taubman D.S., Marcellin M.W. JPEG2000: Image Compression Fundamentals, Standards, and Practice // Norwell, MA: Kluwer, 2001.
Добеши И. Десять лекций по вейвлетам. – Ижевск: НИЦ «Регулярная и хаотическая динамика», 2001.
Малла С. Вейвлеты в обработке сигналов: Пер. с англ. – М.: Мир, 2005.

DISTORTION MEASURE IN JPEG2000 IMAGES

Zaramensky D., Bekrenev V., Soloviev V.

Yaroslavl State University
14 Sovetskaya st., Yaroslavl, Russia 150000. Phone: (4852) 797775. [email protected]

The goal of image encoding is to minimize distortions in compressed image for given bit/pixel ratio. This process requires for methods of precision distortion or quality measure. Widespread quality measures such as PSNR, RMSE, IQ cant’ distinguish the degrees of several different distortions if they present in compressed image. Therefore particular distortion quantity measures are needed to calibrate parameters of the encoder, because the final result is the creation of the encoder based on precision distortion measures.

The JPEG2000 algorithm compresses image using bi-orthogonal 9/7 wavelet decomposition. Coefficients of discrete wavelet transform are quantized, so that many of low magnitude coefficients become equal to zero. This results in two types of distortions in decompressed image: blur and ringing. Blur is characterized by a smearing of edges and a general loss of detail, whereas ringing introduces ripples around sharp edges.

In this paper new algorithms of blur and ringing measure are described. Proposed metrics are calculated in spatial domain using the analysis of borders in image.

The blur metric uses the Sobel filter to detect borders in the original image. The implementation with detecting borders in the compressed image also can be done. Then we scan every row in the compressed image and locate the start and end points for each border, so we can obtain the border width. The general blur measure is defined by averaging all borders widths.

The ringing metric uses the same technique for obtaining borders. After that we measure local ringing width near the border (from the left side and from the right side). The local ringing width (left and right) is multiplied by the distance between original and compressed images so we can obtain the local ringing measure. The general ringing measure is defined by averaging sums of left and right local ringing measures.

These algorithms where tested during the experiment for calculating MOS for more than 60 images. They showed good correlation with MOS and low computer resource consumption. The combination of these two algorithms can be successfully used for calibration JPEG2000 and Motion JPEG2000 encoders.

References

Taubman D.S., Marcellin M.W. JPEG2000: Image Compression Fundamentals, Standards, and Practice. Norwell, MA: Kluwer, 2001.

Mallat S. A Wavelet Tour of Signal Processing. Academic Press, 1998.


Основной видеопроцессор нашей цивилизации

Кирпичников А.П., Журавлева Н.Г., Камочкина И.Я.

Учреждение Российской Академии наук Институт проблем управления

им. В.А. Трапезникова РАН, Москва

«…И даже самый глаз не может, несмотря на совершенство строенья, видеть самого себя!»

У.Шекспир

«Сетчатка – это часть мозга, вынесенная вперед»

Дж. Даулинг

Данная работа преднамеренно выполнена в научно-популярном стиле, чтобы донести до максимального круга узких специалистов фундаментальные вопросы человеческого зрения и видеообработки и отсечь наиболее массовые заблуждения в этой области.

Образ глаза как биологического аналога 130Mpix-камеры с некоторыми «ночными» режимами, сложившийся у наших современников, не выдерживает никакой критики. Нелогичность для «ньютоновского» мышления «дифракционной» инверсной сетчатки человекообразных или базовое для человека ограничение на глубину самопознания являются причиной столь массовых ошибок в учебниках и научной литературе о зрении, но это такой же факт, как и более чем скромные результаты исследований [1,2,3] функциональной структуры мозга за последние 50 лет.

Внесем, тезисно, некоторую ясность: обратная (инверсная) сетчатка человека представляет собой 10-слойное сложное образование, где светочувствительные клетки (палочки и колбочки) находятся не впереди – торцом к свету, а на самом дне, занимая менее 15% толщины сетчатки и торцом упираются в темный (светопоглощающий) пигментный слой. А все остальное (сюда следует включить также глазной нерв) – это Видеопроцессор Глаза (далее Видеопроцессор), граничащий прямо со стекловидным телом (рис.1) [4], сквозь разводку и элементы коммутации которого (по иронии они называются «бинарными клетками» − созвучно цифровым схемам), свет, пройдя через хрусталик и стекловидное тело, теряясь и рассеиваясь, «пробирается» к боковым (!) поверхностям светочувствительных клеток, падает на них под острым углом и создает дифракционную картинку [5].

Рис.1

Отсюда прямой «Рэлеевский» подход к остроте зрения (угловое разрешение 1,22 λ/d – от диаметра зрачка) абсолютно неправомочен – здесь уже массовая ошибка из учебников по физике и оптике, упоминающих глаз: это не про глаз человека!

Феномен зрения преподносит много элегантных решений – от конструкции фотосенсоров с выращиваемой в темноте складчатой мембраной для получения чувствительности 10-20 фотонов и суммарного динамического диапазона 10-12 порядков, до тонких решений механики. Но нас будет интересовать прежде всего видеообработка полученных от сенсоров сигналов возбуждения.

Рассмотрим некоторые алгоритмы Видеопроцессора и попытаемся разделить их по функциональному признаку:

Алгоритмы (программы) жизнеобеспечения (локальные контроллеры давления, температуры, влажности; управление механикой). Кроме того, многие ткани глаза, по-видимому, представляют собой биологические жидкие кристаллы с потенциальным управлением, и большинство известных неинфекционных болезней глаза можно свести к расстройствам, вызванным нарушениями в цепях обратной связи (контуры управления в области локальных контроллеров Видеопроцессора). Отсюда и феномены моментального излечения, когда внешнее воздействие (обычно ультразвук или ИК, но может быть и просто стресс!) восстанавливает обратную связь с участком, после чего сразу исчезают помутнения и другие симптомы. Это обнадеживает, хотя и не дает возможности вылечить многое «каплями».
Калибровочные алгоритмы. Зрительный тракт во многих случаях является инструментом коррекции ошибок других сенсорных цепей (слух, тактильное восприятие и пр.), но до этого сам зрительный тракт должен быть хорошо откалиброван. Происходит это в первые годы жизни человека – только к полутора годам острота зрения ребенка достигает значения 0,5 (а в первые полгода − все видится как плохо собранный пазл, и весьма расплывчато). И дело здесь не столько в быстром росте и геометрических проблемах глаза – аккомодации эластичного детского хрусталика достаточно было бы, чтобы с этим справиться, сколько - в сборке и развитии Видеопроцессора и проведении необходимых калибровок по тест-объектам. При этом требования к такому тест-объекту могут быть сформулированы следующим образом:

- он должен быть достаточно крупным, несимметричным, характерной формы и содержать при этом мелкие детали для уточнения юстировки;

- образ его должен заранее присутствовать в памяти в нескольких проекциях;

- желательна априорная информация о его возможной угловой ориентации относительно оси глаза;

- объект должен располагаться в зоне оптимального зрения и расстояние до него должно быть известно (например, антропометрически) с хорошей точностью – чтобы разрешить противоречие при одновременной расфокусировке хрусталика и «сведении» дифракционной картинки Видеопроцессором (рис.2).

Рис.2

И мы знаем такой уникальный объект, притом с пропорциями «золотого сечения» − это кисть руки ребенка! (При этом первоначальное положение при калибровке – рефлекторное мышечное, с открытой ладошкой). Недаром дети в раннем возрасте часами рассматривают свои ручки во всех проекциях, а изображение руки при этом проходит все стадии восприятия − от мутного подобия кленового листа (к ним многие потом неравнодушны!) до прецизионной «настроечной» таблицы с тонкими черточками перетяжек и четкими границами ногтей (хотелось бы подтвердить эту идею авторов опытами, но психика ребенка слишком тонкая материя, чтобы вмешиваться).

Компенсирующие и адаптационные алгоритмы. Финалом калибровочных мероприятий являются компенсирующие алгоритмы, призванные всю дальнейшую жизнь прецизионно корректировать «конструкционные» недостатки глаза. К ним относятся:

- широко известный «оборот изображения» (а на самом деле это – цифровая компенсация индивидуальной, и местами хаотичной, схемы коммутации зрительного нерва, а не просто улучшения «однолинзовой конструкции»);

- компенсация «слепого» пятна (место входа зрительного нерва);

- устранение менее известной «слепой» сетки (затенение «картинки» сосудами питания «процессорных слоев»);

- частичная компенсация вследствие приобретенных дефектов/травм (поражения сетчатки, кровоизлияния и пр.);

- компенсация насыщения засвеченных сенсоров (борьба с «блюмингом»). Эффекты компенсации, по-видимому, достигаются посредством корреляции сигнала с микроперемещением оптической оси (высокочастотная компонента так называемых микросаккад) и использованием памяти. Этот же механизм, вероятно, способствует значительному увеличению разрешающей способности зрения. Одновременно решается проблема компенсации влияния неоднородностей стекловидного тела. Проблемы здесь аналогичны современным − в космических спутниках оптического зондирования тоже приходится компенсировать динамические неоднородности атмосферы. Результаты, достигнутые в Видеопроцессоре, могли бы иметь здесь решающее значение.

Обеспечение безопасности (распознавание угроз, формирование команд, управление «рефлекторными» реакциями). Особенностью этих быстродействующих алгоритмов является допустимость большого процента ошибок – в соответствии с концепцией безопасности объекта. Много тысячелетий основной задачей такового было не попасть кому-нибудь в пасть и не встать на пути летящего предмета. К этому нужно добавить критерий защиты непосредственно глаза, для которого опасностью может быть и струя жидкости (яда), и температурная аномалия (ток воздуха) при пролете объекта (большого насекомого) вне поля зрения. Вот и сейчас, если показать человеку на экране большое контрастное пятно, которое вдруг резко увеличится в размере – он рефлекторно отпрянет, поскольку сработает один из таких алгоритмов (анализ производной угловой величины объекта). Но есть и более глубокое их влияние – поведенческое.

Сложная видеообработка, предполагающая по обратной связи макроперемещение точки фокусировки при сканировании объектов (именно здесь видна траекторная разница при рассмотрении знакомых и новых объектов). Но это, главным образом, подготовка данных Видеопроцессором для зрительного отдела мозга – с дальнейшим использованием его большой памяти; с распознаванием, обучением и пр.

Структура глазной ямки («фовеола») предполагает свой вид видеообработки для центральной области поля зрения (что подтверждает большое отличие топологии слоев процессора в этой зоне). Наряду с несколькими, явно используемыми параллельно, типами обработки сигнала (что вообще характерно для мозга человека – например, при обработке звука) следует обратить особое внимание на структуру глаза «два в одном». Это вся сетчатка и «фовеола» на линии зрения, обслуживающая лишь несколько градусов поля − когда любой рассматриваемый объект при минимальном перемещении оптической оси неизбежно попадает под независимое (?) «изучение» обеими системами с применением двух и более типов обработки и всего арсенала алгоритмов − еще до того, как подключится зрительный отдел мозга со своей обширной памятью и творческим подходом к достраиванию изображений! Это еще больше осложняет изучение такой двойной системы, на чем, ввиду краткости данной работы, придется рассмотрение закончить.

Таким образом, имеем целый набор алгоритмов, требующих высокой производительности (малых времен обработки), что при ограниченной скорости передачи нервного возбуждения (до 100м/с) и инерционности исполнительной механики однозначно определяет необходимость их выполнения непосредственно в глазу – т.е. Видеопроцессором (с использованием соответствующей памяти и пр.!). Вот почему в сетчатке глаза человека он выполнен с такой тщательностью. Опишем биологический аспект Видеопроцессора хотя бы кратко: структура процессора в основной области сетчатки представляет собой трехслойную организацию с горизонтальными и вертикальными линейными и радиальными (в зависимости от типа клеток) связями многопортовых узлов. Очень многообещающая архитектура! Результаты одного из первых структурных исследований Видеопроцессора [6] (с его датой!) представлены на рис.3[7].

Рис.3

Отдельно следует остановиться на автономности такой системы как «государство Глаз», которая, с инженерной точки зрения, исключительна. Там присутствуют: система резервного внутреннего питания и регенерации расходных материалов; автономные системы защиты, аварийного отключения, поддержания давления, канализации, омывки и пр. – с минимальной зависимостью от внешней среды (при комфортной окружающей температуре). Потенциальная возможность для глаза существовать вне тела при подаче питания (хирургические опыты со съемом фотоэлектрической активности отдельно живущего глаза) это подтверждает. Ближайший современный аналог глаза по принципам и подходам к построению – космический аппарат при корабле-«матке». Следует заключить, что такая степень автономности обуславливает, вероятно, и самостоятельную, в том числе по временным параметрам, программу эволюции Видеопроцессора, как элемента Эволюции вида.

Выводы:

Большая часть важной информации, поступающей в мозг из глаза, не столько картинка (только из центральной «фовеолы», вероятно, дополнительно идет «RAW»), а коды образов и коды команд (в частности, для быстрых защитных реакций), которые лишь транслируются далее зрительным отделом мозга. Таким образом, следует предположить наличие автономной памяти различного назначения, локализованной непосредственно в Видеопроцессоре, а также признать, что глаз – сложная двойная система с мощной многоплановой видеообработкой.

Кисть руки ребенка представляется идеальным тест-объектом при «выращивании» и настройке систем глаза, а особенно, при калибровке Видеопроцессора.

Видеопроцессор, развернутый «внутрь» глаза – резерв Эволюции. Незначительное увеличение толщины сетчатки за счет дополнительных нейронов и связей многократно увеличивает возможности обработки, лишь незначительно отражаясь на ухудшении ночного зрения, а возможно, компенсирует и это.

Следует предположить автономную эволюцию глаза − этой исключительной по уровню автономности системы организма , что по разным данным и наблюдаем последнее столетие. История наблюдений за остротой зрения и ретроспектива гистологии сетчатки позволяют сделать заключение о бурно идущей, но не очень заметной эволюции Видеопроцессора (отсюда большой плюрализм в измерительных данных разных лет [4,6,8-11 и др.], например, различные источники дают рост числа колбочек и сопутствующих нейронов с 4-5 млн. до 8-9 млн. для европейцев в конце прошлого столетия: понятнее становятся конфликты поколений и разная скорость работы на компьютере).

Направление Эволюции – развитие Видеопроцессора с приспособлением, в угоду этому, «базовой ячейки» нейрон-колбочка и даже уменьшением размера фотосенсоров при необходимости. При этом толщина сетчатки и показатель остроты зрения в пределах одной популяции – косвенные критерии модернизации Видеопроцессора и индикаторы Эволюции, которая, видимо, уже идет, и небывалыми для современной истории человечества темпами!

Полемика приветствуется: info@autex.ru

Литература

1. Beaumont J.G. (ed.) Devided visual-field studies of cerebral organization. Academic, London, 1982.

2. Красота и мозг. Биологические аспекты эстетики: пер. с анг., М: Мир,1995.

3. Бехтерева Н.П. Магия мозга и лабиринты жизни.М.АСТ, 2007.

4. http://webvision.med.utah.edu/sretina.html

5. Хазен А.М. Разум природы и разум человека. М. НТЦ «Университетский», 2000.

6. Cajal, Ramon y, Histologie du Systeme Nerveux de I'Homme et des Vertebres, trs. L. Azoulay, Paris: Maloine, 2 vols, 1909, 1911.

7. http://webvision.med.utah.edu/OPL1.html

8. Dowling, J. E., The Retina: An approachable part of the brain, Cambridge, MA:Harvard University Press, 1987.

9. Rodieck, R. W., 'The primate retina', Comparative Primate Biology, 4, 203-278, 1988.

10. Brockerhoff, S. E., Dowling J. E. and Hurley J. B, 'Zebrafish retinal mutants', Vision Research, 38, 1335-1339, 1998.

11. Hendrickson, A.E. and Youdelis, C. The morphological development of the human fovea. Ophthalmology 91, 603-612, 1984.
THE MAIN VIDEOPROCESSOR OF OUR CIVILIZATION

Kirpichnikov A., Zhuravleva N., Kamochkina I.

Institute of control sciences of the Russian Academy of sciences, Moscow

The present article is written in popular scientific style and addressed to the wide range of experts in signal processing. It is devoted to the eye Videoprocessor and structure. The different signal processing algorithms which present at the eye and are divided by the functional properties such as: automation and life supporting; calibration; compensation of the structural features; security; complex parallel processing and data preparation for the visual section of the brain are mentioned.

The necessity of the fulfilment these fast algorithms in the retina Videoprocessor directly is discussed.

The conclusions:

The eye is the complex double system with the large resources in videoprocessing;
The babies’ hands are the best test-objects for the eye tuning and calibration of its Videoprocessor;
The location of the Videoprocessor ahead (“inverse retina”) is the reserve of the Evolution. As the insignificant increase of the retina thickness does not particularly influence the optical parameters of the eye, but allows to multiple increase the ability of the signal processing;
The supposition concerning the autonomous Evolution of the eye (which is far from the other systems of the organism) is mentioned. The direction of the Evolution is in increase of the Videoprocessor power;
The indirect criteria of Videoprocessor Evolution are named here as the retina thickness and increase of the visual acuity. The retrospective of observation and retina histology is resulted in pluralism of the data and brings to the conclusion that evolutional process goes with unusual speed for the modern Man History.

