NetNado
  Найти на сайте:

Учащимся

Учителям



Обработка и передача изображений. (15)


Обработка и передача изображений


. (15).

Если количество информации в элементе изображения будет больше порога, то значение элемента меняется на противоположное.

На рис. 4 приведен пример изображения с выделенными контурами без удаления (б) и с удалением (в) точечных помех.






а)

б)

в)

Рис. 4. Исходное ЦПИ (а); изображение с выделенными контурами без удаления (б) и с удалением (в) точечных помех

Как видно из приведенных данных, изображение на рис. 4в имеет более низкий процент ложных контуров, чем изображение на рис. 4б.

Предложенный метод выделения контуров в ЦПИ, основанный на вычисление количества информации в элементах изображения, прост в реализации и требует небольших вычислительных затрат.

Литература

  1. Новейшие методы обработки изображений. / Под ред. А. А. Потапова. – М.: ФИЗМАТЛИТ, 2008. – 496 с.

  2. Трубин И.С. Метод моделирования цифровых полутоновых изображений / И.С. Трубин, Е.В. Медведева, О.П. Булыгина - «Инфокоммуникацинные технологии», Том 6, №1, 2008 – C.94-99.

  3. Петров Е.П. Вычисление статистической избыточности статических изображений / Е. П. Петров, Медведева Е.В. - «Вопросы радиоэлектроники», сер. РЛТ, 2008, вып.3 – Москва, 2008. – С.76-83.

  4. Фано Р. Передача информации. Статистическая теория связи / Пер. с англ. под ред. Р.Л. Добрушина. – М.: Мир, 1965. – 438 с.


Method of allocation of contours DIGITAL half-toned IMAGES

Medvedeva E., Petrov E., Timofeev B.

Vyatka State Uiversity, Kirov

Method of contours allocation of digital half-tone pictures (DHI), which can be represented by g digit binary images (DBI), is offered in the given work. This method is based on the calculation of amount of information in the elements of the binary image.

DHI is divided into g digits binary images (DBI). Considering the character of statistical connection between elements in the image, it is supposed, that DHI represents two-dimensional discontinuous Markov process with a number of values. DBI represents a two-dimensional Markov process with two equiprobable values and matrixes of probabilities of horizontal and vertical transitions.

The amount of the information in an element concerning neighboring elements in DBI will be determined by expression: , (1), where are elements of matrixes of transactions probabilities – horizontal; - vertical; .

The amount of the information in element DBI will be minimal, if neighboring elements , have signs identical with . In case of occurrence of an other brightness in BDI areas, one or two neighboring elements located on border the of the area will have different signs with , and the amount of the information in an element increases. Comparing the values of the calculated size of the information amount of in an element of the image with a threshold, we determine, whether the given point is the point of the contour.

False contours (dot handicaps) appear as a result of allocation of contours. With the purpose of contour improvement it is necessary to carry out the correction of the image - to remove dot handicapes, and then to allocate contours of contrast areas. For removal of dot handicapes it is offered to calculate the amount of information in element with reference to eight elements of vicinity according the expression (2)

, (2), where are the elements of matrixes of transactions probabilities; , – horizontal; , - vertical; .

For removal of dot handicapes (1-2 elements of other brightness) values of the calculated value of amount of the information in an element of the image is compared to the threshold.

The developed method of contours allocation in DHI is simple in realization and demands small computing expenses.



Автоматический выбор метода измерения координат в системах обнаружения и сопровождения объектов

Алпатов Б.А., Бабаян П.В., Смирнов С.А.

Рязанский государственный радиотехнический университет

Информационные технологии автоматического обнаружения и сопровождения объектов всё более интенсивно применяются в различных областях человеческой деятельности. Наиболее широкое распространение они получили в системах технического зрения, интеллектуальных охранных комплексах, бортовых системах управления и навигации. Эффективность работы таких систем в значительной степени зависит от выбранного метода измерения координат объектов. Разнообразие всевозможных типов фоноцелевых обстановок привело к появлению большого числа методов и алгоритмов измерения координат. К сожалению, на сегодняшний момент среди существующих методов нет такого, который обладал бы удовлетворительным качеством измерения координат в любых условиях наблюдения. Одним из подходов, который позволяет добиться устойчивого обнаружения и сопровождения объектов в широком диапазоне условий наблюдения, является автоматический выбор метода измерения координат в зависимости от характеристик фоноцелевой обстановки.

Известен ряд подходов к выбору метода измерения координат, при которых принятие решения осуществляется в зависимости от степени неоднородности наблюдаемого изображения. Основным недостатком этих подходов является то, что анализ изображения производится на основе характеристик, не связанных непосредственно с особенностями того или иного алгоритма измерения координат.

В настоящей работе предлагается подход, позволяющий преодолеть указанный недостаток. Работу предлагаемого алгоритма автоматического выбора метода измерения координат можно кратко описать следующим образом: при поступлении очередного кадра видеопоследовательности для каждого из методов измерения координат рассчитывается признак, характеризующий возможность уверенного измерения координат, и на основании этих признаков принимается решение, какой алгоритм необходимо использовать.

Центральными вопросами здесь являются выбор системы признаков и приведение их к единой шкале, допускающей сравнение эффективности различных алгоритмов. Этой единой шкалой могут являться такие количественные критерии, как средняя частота срывов или среднее количество кадров до первого срыва. Наиболее эффективным признаётся алгоритм, для которого достигается наилучшее значение критерия.

Рассмотрим основные классы методов измерения координат, используемые для решения задачи обнаружения и сопровождения объектов [1].

Методы корреляционного совмещения дают хороший результат при измерении координат объектов, наблюдаемых на однородном и неоднородном фоне, при малых отношениях сигнал/шум и являются наиболее помехоустойчивыми [2]. Методы на основе статистической сегментации наиболее эффективны при относительно однородном фоне и характеризуются невысокой вычислительной сложностью [3]. Методы на основе пространственной фильтрации эффективны при измерении координат движущихся и неподвижных объектов на фоне ясного или облачного неба, в том числе и при малых отношениях сигнал/шум. Для их успешного использования требуется различие в свойствах пространственной структуры объекта и фона [4]. Методы на основе пространственно-временной фильтрации ориентированы на решение задачи измерения координат движущихся объектов, наблюдаемых на однородном или неоднородном фоне. Их отличительной чертой является возможность обнаружения объектов без участия оператора [1,5].

Опыт использования данных методов не позволяет выработать однозначных рекомендаций по применению того или иного алгоритма в конкретных условиях, например, в наземных, воздушных или морских условиях наблюдения. Однако для оценки работоспособности алгоритмов предлагается использовать ряд признаков, характеризующих возможность уверенного измерения координат.

Признак, характеризующий методы корреляционного совмещения, основан на сравнении временной изменчивости объекта и степени отличия объекта от фона: , (1), где – оценка степени различия эталонного изображения объекта и фона, – оценка межкадровой изменчивости изображения объекта. Для вычисления и используется разностная критериальная функция.

Если межкадровая изменчивость объекта Fg больше степени отличия эталонного изображения объекта и фона F, следует ожидать уверенного сопровождения объекта.

Признак, характеризующий алгоритм на основе статистической сегментации, основан на вычислении меры статистического различия объекта и фона. Если – гистограмма признаков изображения в прямоугольной области, ограничивающей объект, – гистограмма признаков изображения в ближайшей окрестности объекта, то меру статистического различия объекта и фона можно вычислить при помощи критерия Джинни [6]: . (2).

Признак, характеризующий алгоритм на основе пространственной фильтрации, основан на оценке амплитуды яркостного импульса, представляющего объект на изображении:

, (3), где l(ij) – яркость изображения в точке , – оценка средней яркости фона, – оценка СКО фона, – множество точек прямоугольной области, ограничивающей объект. Числитель выражения (3) представляет собой максимальный контраст объекта.

Признак, характеризующий алгоритм на основе пространственно-временной фильтрации, основан на оценке степени временной изменчивости изображения объекта:

, (4), где – оценка яркости фонового изображения в точке (i, j), l(ij) – яркость точки (i, j) изображения, – оценка СКО фона, M, N – размеры объекта, – множество точек объекта.

Отметим, что выбранная система признаков инвариантна к изменению яркости, контраста, масштаба, к вращению и сдвигу изображения.

Ввиду чрезвычайной сложности построения математических моделей видеосюжетов, практически отсутствует возможность аналитического построения функции, устанавливающей соответствие между значениями признаков и значениями критериев эффективности слежения. Поэтому в настоящей работе данная задача решается статистически с применением базы данных видеопоследовательностей с разной фоноцелевой обстановкой. Предварительно для каждого видеосюжета человеком-экспертом были сформированы эталонные данные, описывающие «точные» координаты и размеры объекта.

Используемая база данных содержала всего 50 сюжетов, что недостаточно для формирования непрерывной функции зависимости критерия качества от значений признаков. По этой причине принято решение ограничиться двоичным критерием качества слежения, имеющим значения «следит» (1) и «не следит» (0). Переход от значений признаков к двоичному критерию качества должен осуществляется путём сравнения признаков с пороговыми значениями.

Для получения пороговых значений была исследована работоспособность алгоритмов для каждой из отобранных видеопоследовательностей. Для каждой последовательности было принято решение о работоспособности того или иного алгоритма измерения координат, на основе сравнения эталонных данных с результатами измерения координат. Пороговые значения для признаков (1) – (4) были определены исходя из критерия максимального правдоподобия.

Если среди полученных четырёх значений критерия качества единичным окажется только одно, то необходимо использовать алгоритм измерения координат, соответствующий этому значению. В противном случае предлагается воспользоваться мнением эксперта, которое описывается таблицей принятия решений.

Экспериментальные исследования показали, что вероятность принятия ошибочного решения составляет около 15%, что в большинстве случаев является приемлемым для использования описанного подхода в системах обнаружения и сопровождения объектов.

Исследования выполнены при использовании Гранта для государственной поддержки ведущих научных школ НШ-10.2008.10.

Литература

  1. Алпатов Б.А., Бабаян П.В. Методы обработки и анализа изображений в бортовых системах обнаружения и сопровождения объектов // Цифровая обработка сигналов. – 2006. – №2. – С. 45-51

  2. Баклицкий В.К., Бочкарёв А.М. Методы фильтрации сигналов в корреляционно-экстремальных системах навигации. – М.: Радио и связь, 1986. – 216 c.

  3. Денисов Д.А., Низовкин В.А. Сегментация изображений на ЭВМ // Зарубежная радиоэлектроника. –1985. – №10 – С. 5-30.

  4. Муравьёв В.С., Муравьёв С.И. Алгоритм выделения и измерения координат объектов, наблюдаемых на облачных фонах // Вестник РГРТУ, Рязань. – 2007. – №21. – С. 20-24.

  5. Методы автоматического обнаружения и сопровождения объектов. Обработка изображений и управление / Алпатов Б.А., Бабаян П.В., Балашов О.Е., Степашкин А.И. – М.: Радиотехника, 2008. – 176 с.

  6. Кобзарь А.И., Прикладная математическая статистика. Для инженеров и научных работников. – М.: ФИЗМАТЛИТ, 2006. – 816 с.


automatic selection of coordinate measuring method in DETECTION and tracking SYSTEM

Alpatov B., Babayan P., Smirnov S.

Ryazan state radioengineering university

Operating efficiency of detection and tracking system depends on selected coordinate measuring method. In this paper the approach is presented that permits automated selection of coordinate measuring method against background type. It is necessary to choose one of these four methods: cross-correlation, statistical segmentation, methods based on spatial and spatio-temporal filtering [1].

Actual experience with these methods doesn't allow to give guidelines of usage one or another algorithm in concrete conditions. However, the algorithm workability can be estimated with the help of several features that describe reliable tracking.

The process of automatic coordinate measuring algorithm selection consists of two steps: 1) the extraction of features that describe reliable tracking, 2) selection of necessary algorithm using decision table.

The main challenges of this process are feature space selection, threshold selection and comparing binary results. The threshold values are defined on the basis of maximum likelihood criteria.

Experimental investigation has shown that false alarm probability is approximately 15%. In most cases it is acceptable for using in detection and tracking system.

This work was performed with the help of the Grant for state support of leading scientific schools НШ-10.2008.10.

References

  1. Alpatov B.A., Babayan P.V. Image processing and analysis techniques in vehicle-borne object detection and tracking systems // Digital signal processing. – 2006. – №2. – pp. 45-51



МЕТОДИКи ОЦЕНКИ КАЧЕСТВА КОМПРЕССИИ ВИДЕОПОСЛЕДОВАТЕЛЬНОСТЕЙ

Маклаков Д.В., Гулевич А.Е.

ФГУП «Главный радиочастотный центр»

В докладе подобно рассмотрена методика измерений, известная под названием VQM (video quality measurement techniques) [1]. Эта методика сравнивается с оценками качества по пиковому отношению сигнал/шум (PSNR) и по мере структурного подобия (SSIM) [2]. В докладе приводятся различия в подходах к оценке качества в методике VQM и методах PSNR, SSIM, и как эти различия в конечном итоге приводят к различиям в корреляции субъективных и объективных оценок, полученных при помощи этих методов.

При внедрении систем и аппаратуры цифровой обработки и передачи компрессированных сигналов по каналам связи возникают серьезные проблемы, связанные с недостатком, а часто и отсутствием методов измерения и аппаратуры, необходимых для настройки и поддержания технических характеристик систем вещания в состоянии, обеспечивающем их качественное функционирование.

Доклад посвящен сравнению нескольких методик измерения качества видеоданных, получаемых на выходе системы кодирования цифрового видео для последующей передачи или хранения. В докладе рассмотрены методики, которые дают возможность получить оценку работы системы кодирования, но позволяют обойтись без трудоемкой процедуры получения субъективной оценки, выставляемой независимой группой наблюдателей. При этом эффективность методики определяется тем, насколько объективная оценка, полученная с помощью методики, соответствует субъективной оценке.

Методика VQM позволяет получить объективную оценку качества кодирования видеопоследовательности на основании исходных и кодированных данных (full reference method). В методике VQM перед непосредственным вычислением оценки предусмотрен этап предобработки с целью калибровки кодированных данных по отношению к исходным данным. На этом этапе происходит поиск и совмещение по времени кодированных и исходных данных, пространственное выравнивание, а также калибровка контраста и яркости.

При разработке методики VQM использовались данные субъективных измерений. Эти данные были получены в результате ряда специальных опросов, проведенных в соответствии с рекомендациями ITU-R BT.500 [3] и ITU-T P.910 [4]. При проведении опросов независимая группа наблюдателей выставляла оценки качества кодирования видеопоследовательностей. Наблюдателям предлагалось дать сравнительную оценку качества кодирования после просмотра исходной видеопоследовательности и видеопоследовательности на выходе системы кодирования.

Кодирование видео производилось при помощи систем, использующих алгоритм, подобный алгоритму сжатия MPEG-2 [5]. Искажения, к которым приводит использование данного алгоритма, классифицируют как искажения, связанные с внутрикадровым кодированием, при котором используется информация только из данного кадра, и искажения, обусловленные межкадровым кодированием, при котором используется информация из ранее переданных кадров [6].

Кодирование без предсказания включает в себя разбиение изображения на блоки, независимое кодирование блоков, квантование коэффициентов ДКП с искажением низкочастотных и потерей высокочастотных составляющих сигнала. Следствием такого подхода является неточное восстановление уровней пикселей яркости и цветности. Это приводит к таким искажениям как блокинг эффект, мозаичный эффект, размывание изображения, окантовки на границах, размывание цвета, искажение в виде ступеньки и искажение в виде базисной функции ДКП.

При кодировании с предсказанием в алгоритмах, подобных алгоритму MPEG-2, происходит поиск похожего блока в опорном кадре, и в потоке передается вектор и разница между блоками. При этом в тех случаях, когда происходит грубое квантование разницы для блоков, возможен перенос искажений из опорного кадра. Возможны так же искажения в цветности, обусловленные тем, что при предсказании вектора движения часто используется только сигнал яркости. Искажения, связанные с межкадровым кодированием: ложные границы, эффект "комаров", зернистый шум в стационарной области, неправильные цвета, эффект приведения.

Для получения дополнительного материала для исследований, кроме опросов для получения субъективных оценок были проведены специальные опросы для получения оценки заметности таких искажений как блокинг эффект, размывание изображения, шум и выпадение кадров.

Применение методики VQM позволяет получить оценку, которая представляет собой числовое значение от 0 до 1, где 0 — отличное качество, а 1 — неприемлемое качество. Значение оценки рассчитывается как сумма взвешенных параметров, чувствительных к определенному виду искажений. Параметры рассчитываются как функция определенных характеристик исходного и кодированного видео. Для получения характеристик может применяться временное усреднение нескольких кадров, пространственная и временная фильтрация.

Таким образом, получение характеристики состоит из следующих шагов: усреднение нескольких кадров (опционально), пространственная или временная фильтрация (опционально), разбиение видеопоследовательности на пространственно-временные блоки, получение числового значения для блока (таких как среднее, среднеквадратичное отклонение или др.), применение пороговой функции (опционально). Для получения параметра следует применить функцию сравнения характеристик исходного и кодированного видео, далее для полученных значений произвести пространственно-временную свертку и определение значения параметра.

В зависимости от типа измеряемых последовательностей и области применения в методике VQM представлены четыре модели измерения: общая, телевизионная, модель для видеоконференций и модель для быстрых расчетов. Общая модель может использоваться для получения оценок качества для последовательностей, используемых в телевидении и видеоконференцсвязи, но при этом корреляция объективных и субъективных оценок ниже, чем при использовании моделей, соответствующих типу последовательности. Модель для быстрых расчетов – это разновидность общей модели с использованием усреднения нескольких кадров и упрощенными вычислениями.

Применение различных моделей, а так же такого подхода к разработке методики получения объективной оценки, позволили получить на выходе более высокую корреляцию объективных и субъективных результатов, чем в методах, не учитывающих специфических искажений, вносимых системой кодирования, таких как PSNR и SSIM. В докладе приводятся результаты оценки качества компрессии различных видеопоследовательностей и численные значения корреляции как для различных моделей VQM, так и для методов на основе PSNR и SSIM.

Литература

  1. Stephen Wolf, Margaret Pinson. Video Quality Measurement Techniques // NTIA Report 02-392, June 2002.

  2. Z. Wang, A. C. Bovik, H. R. Sheikh, E. P. Simoncelli. Image quality assessment: From error visibility to structural similarity // IEEE Transactions on Image Processing, vol. 13, no. 4, pp. 600-612, April 2004.

  3. ITU-R Recommendation BT.500-5: Method for the subjective assessment of the quality of television pictures.

  4. ITU-T Recommendation P.910: Subjective Video Quality Assessment Methods for Multimedia Applications. August 1996.

  5. ISO/IEC 13818-2: Generic coding of moving pictures and associated audio information: Video. 2000.

  6. Дворкович А.В., Дворкович В.П., Макаров Д.Г. и др. Характерные искажения изображений при цифровом кодировании MPEG и тестовые сигналы для оценки качества кодирования // Цифровая обработка сигналов и ее применение.: Докл. 1 Междун. конф. - М., 1998. - Т. 3. - С. 221-235.


Methods for compression quality evaluation of videosequencies

Maklakov D., Gulevich A.

General Radio Frequency Centre

An implementation of systems and equipments for digital processing and transmission of compressed signals on telecommunication channels arise the serious problems connected with a lack, and frequently also absence of measurement methods and the equipment, necessary for adjustment and maintenance of broadcasting system technical characteristics in a condition providing their qualitative functioning.

The report is devoted to comparison of several measurement techniques of video data quality received on digital video coding system output for subsequent transmission or storage. Techniques allowing to receive an evaluation of coding system operation, but to do without labour-consuming procedure of reception of subjective estimation, exposed by independent group of observers, are considered in the report. Thereby efficiency of a technique is defined by correspondence of objective estimation, received by means of a technique, to subjective estimation.

In the report the measurement technique known as VQM (video quality measurement techniques) is considered in details. This technique is compared to methods of quality estimation according PSNR and SSIM. The distinctions in approaches to measurement in VQM technique and PSNR and SSIM methods are shown in the report, and also how these distinctions finally lead to distinctions in correlation of the subjective and objective estimations received by means of these methods.



Точные оценки параметров звукового канала с использованием взвешивающей оконной функции

Дворкович В.П., Иртюга В.А.

ФГУП «Главный радиочастотный центр»

В настоящем докладе приводится алгоритм высокоточной оценки амплитуд и частот синусоидальных сигналов с использованием взвешивающей оконной функции [1-3].

При разработке алгоритмов оценки параметров звуковых каналов возникает проблема выбора взвешивающего окна [1], обеспечивающего максимальную точность производимых измерений. Использование прямоугольного окна неприемлемо ввиду большого уровня боковых лепестков модуля спектра этого окна: наибольший боковой лепесток имеет уровень -13 дБ относительно уровня главного лепестка, а скорость спада боковых лепестков составляет 6 дБ на октаву. Это приводит к так называемому «растеканию» спектра анализируемого сигнала вследствие частотной дискретности ДПФ.

В связи с этим для оценки параметров даже одночастотного сигнала (частоты и уровня) необходимо анализировать большое количество спектральных отсчетов. Для обеспечения высокой точности оценки параметров звукового сигнала предложено использовать специальное взвешивающее окно, обладающее низким уровнем боковых лепестков (менее 60 дБ). Платой за это является расширение центрального лепестка, аккумулирующего в себе большую часть энергии сигнала. Расширение центрального лепестка ведет к ухудшению разрешающей способности спектрального анализатора, построенного с использованием этого окна, однако существует возможность получения любого наперед заданного разрешения для данного взвешивающего окна путем увеличения длительности анализируемого сигнала при сохранении частоты дискретизации. С другой стороны, использование оконной функции существенно повышает точность оценки параметров однотональных сигналов. В связи с этим оценка параметров канала производится с помощью однотональных сигналов, либо двутональных сигналов (при оценке коэффициента разностного тона), в которых частоты синусоидальных сигналов отстоят друг от друга на величину, большую ширины центрального лепестка модуля спектра оконной функции.

Одна из идей построения оконной функции состоит в том, чтобы обеспечить близость формы взвешивающей функции u(x): (1), (где х = t/T – нормированный временной интервал) к форме модуля спектра этой оконной функции F(y) [3]:

. (2).

Использование приведенной взвешивающей оконной функции позволяет получить точную оценку для таких параметров синусоидального сигнала, как частота и уровень.

Без ограничения общности будем считать, что исследуемый одночастотный синусоидальный сигнал s(t) имеет амплитуду U и частоту f. Кроме того, обозначим: f = (kmaxxf, где kmax - индекс максимальной по модулю компоненты ДПФ, Δx( 0.5, 0.5) - смещение истинного положения частоты относительно индекса kmax в долях единицы, Δf - спектральное разрешение, Гц. Обозначим модуль ДПФ произведения входного сигнала s(t) и введенной оконной функции (2) через Fs(k). Тогда с учетом введенных обозначений и допущений можно записать: , (3), где , , .

Далее, учитывая то, что ширина центрального лепестка оконной функции составляет 6 бин, а основная энергия сигнала сосредотачивается в нулевом, первом и втором бине, запишем выражение для модуля спектральных компонент в соответствующих бинах:

(4)

(5)

(6)

(7)

Теперь, складывая (3), (6), (7), получаем оценку амплитуды входного сигнала U:

. (8)

Используя выражение для амплитуды сигнала (8), а также выражения (4) и (5), получаем оценку частоты входного сигнала:

. (9)

Таким образом, предложенная оконная функция позволяет получить одинаково точные оценки амплитуды и частоты синусоидального сигнала для любого частотного сдвига Δx(-0.5, 0.5).
Литература

  1. Хэррис Ф.Дж. Использование окон при гармоническом анализе методом дискретного преобразования Фурье // ТИИЭР. - 1978. - Т. 66, №1. - С. 60-96.

  2. Дворкович А.В. Новый метод расчета эффективных оконных функций, используемых при гармоническом анализе с помощью ДПФ // Цифровая обработка сигналов. - 2001. - №2. - С. 49-54.

  3. Дворкович А.В. Еще об одном методе расчета эффективных оконных функций, используемых при гармоническом анализе с помощью ДПФ // Цифровая обработка сигналов. - 2001. - №3. - С. 13-18.


Precise measurement of sound channel parameters using weighting window function

Dvorkovich V., Irtjuga V.

General Radio Frequency Centre

The algorithm of precise measurement of sinusoidal signal amplitude and frequency using unique weighting window function is described in current report. Proposed window function has low level of side lobe (lower than 60 dB). Utilization of this window function allows substantially increasing the precision of measurements of sound channel parameters. The equations of frequency and amplitude accurate estimation for analyzing signal are proposed.



Реализация многофункционального кодера H.264

Гулевич А.Е., Дворкович А.В., Кочарян А.Э., Мингазов И.Д.

ФГУП «Главный радиочастотный центр»

Современный стандарт видеокодирования Н.264/AVC был разработан совместно Группой Экспертов по Видеокодированию МСЭ-Т (VCEG ITU-T) и Экспертной Группой по Движущимся Изображениям МСС (MPEG ISO/IEC). Он принят как Рекомендация H.264 в МСЭ-Т и MPEG-4 Part 10 AVC в МСС (последняя редакция стандарта – ноябрь 2007г. [1], в январе 2009 опубликован Corrigendum 1 [2]). Основными целями разработки стандарта H.264/AVC были заявлены повышенная эффективность компрессии и обеспечение удобного для транспортировки по различным сетям представления видео как для интерактивных, так и вещательных приложений [3]. Стандарт H.264/AVC существенно повысил эффективность видеокодирования по отношению к ранее принятым стандартам MPEG-2 Part 2 [4], MPEG-4 Part 2 [5], H.263 [6].

Повышение эффективности видеокодирования в стандарте H.264/AVC обеспечивается применением как уже известных методов и подходов, так и новых функциональных возможностей: компенсация движения с использованием переменных размеров блока, включая малые размеры блока; компенсация движения с точностью до четверти пиксела; вектора движения, выводящие за границы изображения; компенсация движения с несколькими опорными изображениями; независимость порядка воспроизведения изображений и порядка опорных изображений; независимость методов обработки изображений и возможности их использования для предсказания движения; взвешенное предсказание; улучшенная обработка «пропущенных» (skipped) блоков и блоков с «прямым» (direct) предсказанием движения; направленное пространственное предсказание для внутрикадрового кодирования; деблокинговая фильтрация в цикле кодирования; преобразование блоков небольшого размера; иерархическое преобразование блоков; преобразование с использованием 16-битной арифметики; точное обратное преобразование; арифметическое или контекстно-адаптивное энтропийное кодирование. В стандарте H.264/AVC повышена устойчивость к ошибкам и потерям данных, обеспечивается гибкость работы на множестве сетевых структур.

В кодере НИИР-КОМ H.264 реализованы основные важные возможности стандарта, использование которых, с одной стороны, существенно повышает качество кодирования, а с другой стороны не приводит резкому росту вычислительных затрат. Кодер не поддерживает взвешенное предсказание, избыточные слои, разделение данных, High профиль, SP/SI синхронизацию/переключение изображений. Разработанный кодер может функционировать в составе ТВ кодера стандартного разрешения реального времени, в составе системы видеотрансляций в Интернете, в составе систем видеоконференцсвязи.

Важнейшей частью кодера при использовании в различных приложениях является блок контроля потока. При фиксированном параметре квантования количество бит каждого закодированного макроблока изменяется в зависимости от содержания кадра, поэтому скорость потока на выходе кодера существенно неравномерна. Обычно кодер с постоянными параметрами производит больше бит, если в видеосюжете присутствует быстрое движение и/или мелкие детали, и меньше бит в случае медленного движения и/или отсутствия мелких деталей.

Вариации скорости потока могут вызывать проблемы для многих практических задач доставки и хранения видео. Например, канал постоянной пропускной способности не может передавать поток переменной скорости, если флуктуации скорости потока превышают пиковую пропускную способность канала. В таких случаях происходит либо потеря данных, либо накопление задержки. Таким образом, необходимо адаптировать или контролировать скорость потока, производимого видеокодером, для удовлетворения требований, накладываемых пропускной способностью канала и механизмом доставки. Другое ограничение связано с ограниченностью объема информационных носителей, поэтому для оптимального заполнения объема носителя также необходимо контролировать скорость потока закодированного видео.

Неравномерность скорости потока, производимого видеокодером, может быть сглажена буферизацией закодированных данных перед передачей. Поток переменной скорости, создаваемый кодером, помещается в FIFO-буфер, этот буфер освобождается с постоянной скоростью, которая равна пропускной способности канала (данные из буфера помещаются в канал). Другой FIFO-буфер размещается перед входом декодера, он заполняется данными из канала с постоянной скоростью (равной пропускной способности канала) и освобождается декодером с неравномерной битовой скоростью, но с постоянной кадровой скоростью. Таким образом, поток переменной скорости может быть адаптирован к постоянной скорости канала посредством использования буферов кодера и декодера. Но такая адаптация достигается ценой внесения задержки и использования памяти для буферов, и чем больше вариации скорости потока, тем требуются большие задержка и размеры буферов. При произвольных вариациях скорости потока этот метод невозможно использовать на практике, т.к. это может привести к недопустимо высоким задержкам и размерам буферов, а система передачи зачастую должна иметь обратную связь.

Контроль потока управляет параметрами кодера (шагом квантования) с целью получения заданной скорости потока и минимизации искажений декодированного видео при данной скорости. Достижение оптимального компромисса между скоростью потока и качеством - нетривиальная задача, здесь могут применяться различные подходы и алгоритмы, в зависимости от типа видеоприложения. Их можно классифицировать следующим образом:

  • Кодирование не в реальном времени на носители. Время кодирования жестко не ограничено, поэтому могут применяться сложные алгоритмы. Целью является помещение закодированного видео на доступный объем носителя, при этом максимизируется качество и, возможно, учитывается, что буфер декодирующего устройства или программы не должен переполняться или опустошаться в процессе декодирования. Могут применяться двухпроходные схемы (во время первого прохода кодер собирает статистику о видеопоследовательности, и производит кодирование во время второго прохода).

  • Кодирование живого видео для трансляции. Процесс декодирования и буферизации может иметь ограничения, в то время как кодирование может использовать мощное оборудование. Обычно допустима задержка в несколько секунд. Здесь применяются алгоритмы контроля потока средней сложности, возможно, включая двухпроходное кодирование каждого кадра.

  • Кодирование для двусторонней видеоконференции. Каждый терминал производит как кодирование, так и декодирование, и вычислительная мощность может быть ограничена. Задержка должна быть минимальной (обычно в пределах 0,1 – 0,8 секунды). Здесь обычно применяются алгоритмы контроля потока невысокой сложности. Размеры буферов кодера и декодера должны быть минимизированы для обеспечения минимальной задержки, кодер должен точно выдерживать скорость выходного потока. Качество декодированного видео может значительно варьироваться, например, возможно существенное ухудшение качества при быстром движении, смене сюжета и т.п. Однако для некоторых задач (видеонаблюдение, телеконсультации) важно сохранять достаточное высокое качество изображения, при этом возможно пожертвовать постоянной кадровой скоростью. В этом случае применяется механизм пропуска кадров, он позволяет удовлетворить одновременно требования низкой задержки и постоянной, достаточно высокой четкости изображения.

В кодере НИИР-КОМ H.264 реализованы все перечисленные варианты регулирования выходного потока. В качестве иллюстрации третьего типа приводится сравнение качества (PSNR) декодированных последовательностей, закодированных кодером H.264 в режимах с пропуском кадров и без пропуска. Кодер H.264 в режиме с пропуском кадров позволяет добиться более высокой равномерности качества кадров. Также приводятся графики заполненности буфера при кодировании соответствующих последовательностей. Проведено сравнение качества работы кодера НИИР-КОМ H.264 с другими кодерами этого стандарта.

Алгоритм контроля потока кодера НИИР-КОМ H.264 построен на базе схемы SRC (Scalable Rate Control) [7-9]. Алгоритм выдерживает заданную скорость потока на сегменте кадров. Он использует следующую модель для скорости потока: R = X1*S / Q + X2*S / Q2, (1), где R - скорость потока, Q - шаг квантования, S - средняя абсолютная разность остаточного кадра после компенсации движения (мера сложности кадра), X1 и X2 - параметры модели. Алгоритм состоит из следующих шагов, которые выполняются после компенсации движения для i-того кадра:

  1. Вычисление целевой скорости потока Ri, основываясь на количестве кадров в сегменте кадров, числе бит, доступных для остатка сегмента кадров, и оценочной сложности i-того кадра (в качестве оценки используется размер предыдущего кадра). Если предыдущий кадр имел высокую сложность, то предполагается, что следующий кадр тоже будет сложным, и должен занять большое число бит. Алгоритм пытается найти баланс между этим требованием и лимитом на число бит для сегмента: Ri+1 = Gi / Ni*(1-W) + Ai*W, (2),

где Ri+1 – целевая скорость потока для i+1 кадра, Gi – число бит, доступных для остатка сегмента кадров на момент времени i, Ni – число кадров в остатке сегмента кадров на момент времени i, Ai – число бит, использованных для кодирования i-того кадра, W – взвешивающий параметр.

Далее учитываются требования размера буфера: Ri = (Bi + 2*(V - Bi)) / (2*Bi + (V - Bi))*Ri, (3),

где Bi – заполненность буфера, V – размер буфера.

Цель данного выражения - сохранять среднюю заполненность буфера, снижая тем самым вероятность его переполнения или опустошения.

  1. Вычисляется шаг квантования Qi (вычисляется S для всего остаточного кадра и решается уравнение 1)

  2. Кодируется кадр.

  3. Обновляются параметры модели X1, X2, используя число бит, фактически затраченных на кодирование i-того кадра Ri. Для этого выбираются точки данных, используя окно, размер которого зависит от изменения сложности видео. Если сложность изменяется значительно, то используется небольшое окно с предыдущими данными. При небольшом изменении сложности используется больше предыдущих данных. Далее методом линейной регрессии вычисляются параметры модели X1, X2:

, . (4).

После вычисления новых параметров из рассмотрения выбрасываются статистически «плохие» точки, для которых разность теоретически и практически затраченных бит превосходит величину стандартного отклонения. Таким образом, получается новый, более репрезентативный набор данных, для которого еще раз пересчитываются параметры модели по формуле 4.

Для предотвращения переполнения буфера применяется механизм пропуска кадров: если кодер предсказывает, что следующий кадр вызовет переполнение буфера, то следующий кадр пропускается. Это эффективный метод защиты от переполнения буфера, но он может вызвать значительное снижения качества восприятия видео в случае пропуска нескольких последовательных кадров. Для борьбы с этой проблемой алгоритм пропуска кадров несколько модифицируется и выглядит следующим образом. Перед кодированием следующего кадра, кодер вычисляет заполненность буфера и оценивает размер следующего кадра (используется размер предыдущего). Если их сумма выше некоторого порога (например, 80% от размера буфера), то следующий кадр пропускается. Данный порог применяется для снижения вероятности пропуска группы последовательных кадров. Он может быть адаптивным или являться некоторой предопределенной константой.

Данная схема контроля потока и пропуска кадров применима для различных битовых скоростей и временных/пространственных разрешений. Описанный алгоритм контроля потока используется в видеоинформационной системе НИИР-КОМ VPhone. Система обеспечивает высокое качество видеоизображения и малые задержки при интерактивном общении. Достоинства системы особенно проявляются на низкоскоростных каналах связи и каналах связи с жестким ограничением скорости передачи (например, спутниковый канал).

страница 1страница 2


скачать

Другие похожие работы: