Сообщений 0    Оценка 0        Оценить  
Система Orphus

О методах поиска нечетких дубликатов видео

Автор: Никитин Илья Константинович
Опубликовано: 13.01.2015
Исправлено: 10.12.2016
Версия текста: 1.1
Введение
Общий алгоритм
Методы
Локальные характеристики
Отслеживание траекторий
Среднее значение
Продольные кадры
Визуальные слова
Глобальные характеристики
Локально-чувствительное хеширование
Порядковые подписи
Видео как ДНК
Смена съёмок
Выводы по методам
Комбинация методов
Заключение

Введение

Существует широкий круг задач, где требуется анализ аудио-визуальных моделей реальности. Это относится и к статическим изображениям, и к видео.

Понятие «нечеткий дубликат» означает неполное или частичное совпадение объекта с другим объектом подобного класса. Дубликаты бывают естественными и искусственными. Естественные дубликаты — схожие объекты при схожих условиях. Искусственные нечеткие дубликаты — полученные на основе одного и того же оригинала.

Поиск нечетких дубликатов может быть полезен для оптической навигации беспилотных летальных аппаратов (к сожалению, не всегда в мирных целях), для определения характера ландшафта местности, составления каталогов видео, группировки результатов выдачи поисковых систем, фильтрация видео рекламы и поиска «пиратского» видео.


Рисунок 1. Для чего нужен поиск нечетких дубликатов

Проблема поиска нечетких дубликатов видео тесно связана с проблемами классификации и поиска по видео. Задача поиска нечетких дубликатов может быть сведена к классификации, а та, в свою очередь, к аннотации и поиску по видео. Но это самостоятельные задачи.


Рисунок 2. Задачи, связанные с поиском нечетких дубликатов

Общий алгоритм

Для поиска нечетких дубликатов видео делят на отрезки. Из каждого отрезка выделяют ключевые кадры. Под ключевыми кадрами в данном случае понимаются не I-кадр (опорный кадр), а просто некоторый особый кадр видео. Обычно используемые методы извлечения ключевых кадров:

Характеристики ключевых кадров используются для представления всего видео целиком. Подобие между видео вычисляют как подобие наборов этих характеристик.

Методы

Способы поиска нечетких дубликатов видео образуют две категории:

Грань между категориями условна, очень часто применяют смешанные техники. ГХ-методы выделяют подписи уровня кадра для моделирования пространственной, цветовой и временно́́й информации. ГХ обобщают глобальную статистику низкоуровневых признаков. Сходство между видео определяется как соответствие последовательностей подписей (сигнатур). Они могут быть полезны для поиска «почти одинаковых» видео и могут выявить незначительные правки в пространственно-временно́́й области. ГХ неэффективны при работе с искусственными НДВ, которые были получены в результате косметического редактирования. Для таких групп более полезны методы, использующие низкоуровневые характеристики сегмента или кадра. Обычно на работу этих методов влияют изменения во временно́м порядке и вставка или удаление кадров. По сравнению с глобальными методами, подходы уровня сегмента медленнее. Они более требовательны по памяти, хотя и способны к выявлению копий, которые подверглись существенному редактированию.

Локальные характеристики

ЛХ-методы, сводят задачу поиска похожих видео к задаче поиска дубликатов изображений. Основные шаги при сравнении изображений:

Отслеживание траекторий

В работе [1] выделяют особые точки кадра (с помощью детектора Харриса) и отслеживают их положение на протяжении всего видео. После чего формируют множество траекторий точек.

Сопоставление с образцом происходит на основе нечеткого поиска. Подход облегчает локализацию нечетких дубликатов фрагментов. Однако метод дорог из-за выделения особых точек кадров. А факт того, что траектории точек чувствительны к движению камеры, делают алгоритм применимым только для поиска точных копий видео.


Рисунок 3. Иллюстрация подхода [1].

Среднее значение

Авторы [2] выделяют особые точки ключевых кадров и оценивают подобие кадров на основе SIFT. Подобие кадров вычисляют как среднее арифметическое количества совпавших особых точек. Но для определения сходства видео, используется полная оценка соответствия (ПОС) как среднее значение подобия ключевых кадров по всему видео. Важно, что среднее значение вычисляется, не по всем возможным парам кадров, а только по некоторым из них. Это позволяет экономить вычислительные ресурсы.

Продольные кадры

В работе [2] предложен интересный способ выделения кадров: вдоль временной оси, а не поперек, как в обычном видео. Такой срез позволяет извлекать временную информацию из видео и применять к ней пространственные методы сравнения, такие же, как к обычным кадрам: к срезам двух видео применяют SIFT и вычисляют ПОС.

По результатам экспериментов метод продольного выделения кадров не дал каких-либо преимуществ для поиска дубликатов. Особенно это проявляется, если в видео много резких движений камеры. К минусам общего подхода можно отнести применение SIFT. Эксперименты проводились на видео с маленьким разрешением (320 на 240). При увеличении размера кадров выделение особых точек становится затратным. Если применять ПОС только к обычным кадрам, временная информация видео не будет учтена.


Рисунок 4. Иллюстрация продольных срезов из работы [2].

Визуальные слова

Методы, использующие визуальные слова, являются улучшенной версией прямого сравнения особых точек кадров. В их основе лежит квантование особых точек — формирование «слов». Сравнение кадров (и видео) целиком происходит по частотным словарям, как для текстов. Работа [3] демонстрирует превосходную производительность метода. Ключевые кадры представлены особенностями, которые получены с помощью SIFT. Затем эти характеристики квантуются в визуальные слова. Из визуальных слов строится бинарная подпись. Для применения визуальных слов должны быть построены частотные словари для заранее известной предметной области.

Глобальные характеристики

С помощью ГХ-методов из видео выделяют цветовую, пространственную и временную информацию, представляют ее в виде последовательности символов и применяют методы поиска совпадающих строк.

Локально-чувствительное хеширование

В работе [4] применяют локально-чувствительное хеширование (ЛЧХ). Его используют для отображения цветовой гистограммы каждого ключевого кадра на вектор чисел. Характеристики кадра выделяются из локальных особенностей изображения. Эти характеристики представляются как множества точек в пространстве характеристик. По набору характеристик строится гистограмма особенностей кадра. Далее гистограммы сравниваются как обычные последовательности.

Экспериментальные результаты подтвердили эффективность метода. Но, как было указано в работе [5] метод страдает от потенциальной проблемы большого потребления памяти. Временная информация никак не учитывается.

Порядковые подписи

В работе [6] используются порядковые подписи для моделирования относительного распределения интенсивности в кадре. Расстояние между двумя фрагментами измеряется с помощью временно́го сходства подписей. Подход позволяет искать нечеткие дубликаты видео с разными разрешением, частотой кадров, с незначительными пространственными изменениями кадров. Плюсом алгоритма является возможность работы в режиме реального времени. К минусам можно отнести неустойчивость к большим вставкам лишних кадров. Метод плохо применим для поиска естественных нечетких дубликатов, например, если объект снимался при разной освещенности.

В работе [7] описана подпись движения, которая фиксирует относительное изменение интенсивности с течением времени. Сравниваются цветовые подписи, подписи движения и порядковая подпись. Эксперименты показывают, что порядковая подпись является более эффективной.


Рисунок 5. Иллюстрация порядковой подписи

Видео как ДНК

Предложенный в работе [8] подход сводит задачу поиска нечетких дубликатов видео к задаче классификации видео. Метод основан на множественном выравнивании последовательностей (MSA). Подобный подход используется в биоинформатике для выравнивания последовательностей ДНК.

Авторы используют эвристическое выравнивание и итеративные методы, предложенные в работе [9]. Метод можно описать следующей последовательностью шагов.

  1. Строится ДНК-представление видео. Для этого:

Возможно всего 24 = (2 × 2)! порядковых комбинации блоков. Каждой такой комбинации можно поставить в соответствие букву латинского алфавита.

  1. ДНК-представления видео из базы данных сравниваются каждое с каждым, и строится матрица расстояний. Сравнение происходит на основе n-грамм. Таким образом, представления сравниваются не целиком, а некоторыми отрезками длины n. Причем между отрезками сравнения могут быть пропуски. Размер n и размер шага задаются как параметры.
  2. На основе матрицы расстояний с помощью метода присоединения соседей (neighbor joining) строится направляющее дерево (guide tree). Согласно матрице расстояний выделяют два наиболее близких ДНК-представления и объединяют их в один узел дерева как профиль видео. В этой модели каждое видео-ДНК — листья дерева, в узлах дерева оказываются профили. Профили также сравниваются между собой и склеиваются аналогично листовым представлениям. В результате образуется дерево принятия решений.
  3. На основе направляющего дерева выполняется прогрессивное выравнивание видео. Результаты выравнивания используются для формирования кластеров видео.

При поиске в базе данных запрос сравнивают с центрами кластеров. Если подобие между запросом и центром кластера превышает некоторый заданный порог, то все клипы кластера считаются нечеткими дубликатами запроса.


Рисунок 6. Формирование ДНК-представления видео в подходе [8]

Плюсы подхода: обладает высокой точностью и полнотой и не требует особенных вычислительных затрат. Минусы подхода — метод никак не учитывает временную информацию видео.

Смена съёмок

В работе [10] введена подпись на основе определения границ съёмок (съёмок). Существует три различных понятия. Кадр или фотографический кадр — статическая картинка. В мультипликации для его обозначения используют термин «кадрик». Сцена — множество кадров связанных единством места и времени. Съемка или монтажный план, множество кадров связанных единством процесса съёмки. Сцена может включать несколько съёмок.

Видео содержит больше информации, чем просто серия кадров. События в видео уникально определяют его временную структуру, которая может быть представлена набором ключевых кадров.

Под событиями понимается не смысловая составляющая сюжета видео, а только изменение содержимого кадров. Выделение ключевых кадров основано на поиске различий в гистограммах яркости. После извлечения ключевых кадров, вычисляется расстояние между текущим ключевым кадром и предыдущим. Это расстояние — длина съёмки, ограниченной указанными ключевыми кадрами. Последовательность расстояний записывается как одномерный вектор, который и является подписью видео.

Эксперименты показывают, что два несвязанных видеоклипа не имеют длинного набора последовательных ключевых кадров с теми же длинами съёмок. В работе предложен эффективный способ сопоставления подписей видео. Для этого используется суффиксный массив [11]. Проблема сводится к поиску общих подстрок. Метод плохо работает, если в видео много перемещений камеры или объектов, и при плавных переходах между съёмками. К минусам стоит отнести и невозможность работы в режиме реального времени, для сравнения необходимо иметь видео целиком.

В работе [12] предложен алгоритм сопоставления дерева съёмок. На основе найденных смен съёмок строят двоичное дерево. Поддеревья соответствуют фрагментам видео. Корневые вершины поддеревьев хранят величины и положение доминирующей смены съёмок в текущем фрагменте. При сравнении в одном дереве (более длинное видео) ищут вершины, наиболее близкие по величине к корню второго дерева, и сопоставляют их координаты. Процедуру выполняют рекурсивно для оставшихся смен съёмок.

Плюсами метода являются устойчивость к большинству приемов создания искусственных дубликатов (т.к. используется только временная информация), малая сложность сравнения двух клипов и возможность создания иерархических индексов фильмов. Это позволяет отлавливать несовпадения на начальных этапах проверки.

Минусами подхода, как и предыдущего, является то, что не учитываются характеристики самих съёмок. Для определения нечетких дубликатов требуется иметь видео-запрос полностью, что не всегда возможно.

Выводы по методам

Для поиска НДВ применяют самые разнообразные методы. На данный момент наиболее перспективными кажутся ГХ-методы. Они позволяют без особых вычислительных затрат приближенно решить задачу. Однако, для уточнения могут потребоваться ЛХ-методы. Как показано в работе [5] применение комбинированных подходов дает точность выше, чем у каждого из методов по отдельности.

Комбинация методов

Ниже нами предложен вариант поиска нечетких дубликатов видео, использующий комбинацию рассмотренных подходов.

Видео можно рассматривать как последовательность фактов, развивающихся во времени. Причем в разных видео могут различаться как сами факты, так и их порядок. Свойства фактов образуют пространственную характеристику видео, а продолжительность и порядок фактов — временную. Самый простой способ выделить факты из видео — использовать точки смены съёмок. Важно учитывать, что время в двух различных видео может идти по-разному. Мы предлагаем использовать отношения длин съёмок к длинам соседних съёмок.

Относительные длины съёмок двух нечетких дубликатов редко будут совпадать. Это связано, в том числе, и с ошибками распознавания границ съёмок. Для решения такой проблемы можно применить алгоритмы выравнивания последовательностей. Но так мы сравним только порядок видео-фактов. Для сравнения самих фактов требуются внутренние характеристики съёмок, например, характеристики начального и конечного кадров. Тут удобно использовать визуальные слова, как прием из ЛХ-методов. Таким образом, мы получили дескриптор съёмки.

Формально cцена как «съёмка», кинематографический кадр — совокупность множества фотографических кадров внутри временной области, кадры, которой значительно отличается от кадров соседних областей.

Если исходное видео сжать разными кодеками, мы получим файлы нечетких дубликатов этого видео. Выделяя съёмки каждого видео, увидим, что точки перемены съёмок для этих двух файлов не совпадают.

Для разрешения такого противоречия предлагается использовать относительные длины съёмок. Относительная длина съёмки вычисляется как вектор отношений абсолютной длины съёмки к абсолютным длинам остальных съёмок видео. В практических задачах удобнее вычислять отношения длин для трех предыдущих съёмок, а не для всех. Это удобно и в случае, если всё видео целиком нам недоступно, и мы имеем дело с видео-потоком, например в задачах реального времени.

Относительные длины съёмок двух нечетких дубликатов редко будут совпадать. Более того, многие съёмки могут просто не распознаваться. Это связано, в том числе, с ошибками распознавания границ съёмок.

Если относительная длина съёмки одного видео отличается от длины съёмки другого видео не более чем в два раза, и все предыдущие съёмки выровнены, то текущая пара съёмок выражает одно и то же явление, при условии, что оба видео являются нечеткими дубликатами друг друга (гипотеза Гейла-Черча [13]).

Подобный подход применяется в математической лингвистике для выравнивания параллельных корпусов текстов на разных языках. Чем менее отличаются относительные длины съёмок, тем более ожидаемо, что съёмки похожи. Если длины отличаются больше чем в два раза, то длину меньшей съёмки складывают с длиной следующей съёмки этого же видео, и рассматривают объединенную съёмку как одну. В случае совпадения относительных длин съёмок видео применяется сравнение внутренних свойств съёмки.

Таким образом, формально можно описать предложенный дескриптор съёмки. Он состоит из вектора отношений длины съёмки к длинам других съёмок и характеристик начального и конечного кадров. Его удобно его сразу хранить, с объединениями соседних съёмок (трех предыдущих) учитывая гипотезу Гейла-Черча.

Заключение

В работе рассмотрены различные методы поиска нечетких дубликатов.

Методы, основанные на глобальных характеристиках, выделяют подписи уровня кадра для моделирования пространственной, цветовой и временной информации. Глобальные характеристики обобщают глобальную статистику низкоуровневых признаков. Сходство между видео из запроса и видео из базы данных определяется как соответствие последовательностей подписей (сигнатур). Глобальные характеристики полезны, для поиска «почти одинаковых» видео и выявляют незначительные правки в пространственно-временной области. Однако глобальные характеристики становятся неэффективными при работе с искусственными нечеткими дубликатами, которые были получены в результате косметического редактирования. Для таких групп более полезны методы, использующие низкоуровневые характеристики сегмента или кадра. Обычно на работу этих методов влияют изменения во временном порядке и вставка или удаление кадров. По сравнению с глобальными методами, подходы уровня сегмента медленнее. Кроме того, они более требовательны по памяти, хотя и способны к выявлению копий, которые подверглись существенному редактированию. Грань между категориями методов достаточно условна, очень часто применяют смешанные техники распознавания. Чтобы учесть достоинства и недостатки обеих категорий методов, в работе предложен дескриптор съёмок. Дескриптор учитывает и пространственную, и временную информацию в видео.

Список использованных источников
  1. Law-To J. et al. Robust Voting Algorithm Based on Labels of Behavior for Video Copy Detection // Proceedings of the 14th Annual ACM International Conference on Multimedia. New York, NY, USA: ACM, 2006. pp. 835–844.
  2. Vaiapury K. et al. Non-identical Duplicate Video Detection Using The SIFT method // Visual Information Engineering, 2006. VIE 2006. IET International Conference on. 2006. pp. 537–542.
  3. Douze M. et al. INRIA-LEARs video copy detection system // TREC Video Retrieval Evaluation (TRECVID Workshop). Gaithersburg, United States, 2008.
  4. Dong W. et al. Efficiently Matching Sets of Features with Random Histograms // Proceedings of the 16th ACM International Conference on Multimedia. New York, NY, USA: ACM, 2008. pp. 179–188.
  5. Zhao W.-L., Tan S., Ngo C.-W. Large-scale near-duplicate web video search: Challenge and opportunity // Multimedia and Expo, 2009. ICME 2009. IEEE International Conference on. 2009. pp. 1624–1627.
  6. Hua X.-S., Chen X., Zhang H.-J. Robust video signature based on ordinal measure // Image Processing, 2004. ICIP ’04. 2004 International Conference on. 2004. vol. 1. pp. 685–688 Vol. 1.
  7. Hampapur A. H.K., R. B. Comparison of sequence matching techniques for video copy detection // Storage and Retrieval for Media Databases. 2002. pp. 194–201.
  8. Wang Y., Belkhatir M., Tahayna B. Near-duplicate Video Retrieval Based on Clustering by Multiple Sequence Alignment // Proceedings of the 20th ACM International Conference on Multimedia. New York, NY, USA: ACM, 2012. pp. 941–944.
  9. Edgar R.C. Muscle: multiple sequence alignment with high accuracy and high throughput // NUCLEIC ACIDS RES. 2004. vol. 32. pp. 1792–1797.
  10. Wu P.-H., Thaipanich T., Kuo C.-C. A suffix array approach to video copy detection in video sharing social networks // Acoustics, Speech and Signal Processing, 2009. ICASSP 2009. IEEE International Conference on. 2009. pp. 3465–3468.
  11. Manber U., Myers G. Suffix Arrays: A New Method for On-line String Searches // Proceedings of the First Annual ACM-SIAM Symposium on Discrete Algorithms. Philadelphia, PA, USA: Society for Industrial; Applied Mathematics, 1990. pp. 319–327.
  12. Глазистов И. В. П.А.Е. Алгоритм поиска дубликатов в базе видеопоследовательностей на основе сопоставления иерархии смен сцен. Москва: ВМиК МГУ, 2010.
  13. Gale W.A., Church K.W. A Program for Aligning Sentences in Bilingual Corpora // Comput. Linguist. Cambridge, MA, USA: MIT Press, 1993. vol. 19, № 1. pp. 75–102.


Любой из материалов, опубликованных на этом сервере, не может быть воспроизведен в какой бы то ни было форме и какими бы то ни было средствами без письменного разрешения владельцев авторских прав.
    Сообщений 0    Оценка 0        Оценить