多媒体基础学习笔记：MPEG-7

为了期末考试学习了一些多媒体基础，在这里整理记录一哈，嗯！不能白学！
学习概要如下图所示：

一、基本介绍

伴随着数字视听信息的增加与内容描述、内容快速检索的使用，MPEG-7 应运而生，其实质上是一种多媒体内容描述接口。MPEG-7 主要功能应用场景描述如下：

为高维索引提供支持
快速而准确的访问
个性化内容的生产与消费
内容管理
信息自动化

MPEG-7 旨在对包括音频、视频、图像以及场景中组合对象信息在内的各种视听信息描述进行标准化，继而实现快速有效的内容检索、过滤以及鉴定。其中，内容描述主要围绕着底层特征、结构以及语义模型等方面而展开。该标准的主要内容可划分罗列如下：

系统 Systems：为 MPEG-7 描述的传输、存储以及终端服务
描述定义语言 DDL：定义描述工具的语法，定义新的描述方案
视频 Visual：处理视频描述
音频 Audio：处理音频描述
多媒体描述方案 MDS：处理普通的多媒体描述
参考软件 Reference Software：用标准化的步骤对制定的标准进行软件测试
一致性测试 Conformance Testing：对 MPEG-7 标准的执行情况进行一致性检验
描述的提取与使用 Extraction and Use of Descriptions：以技术报告的形式对描述工具的提取和使用提出注释
配置文件和级别
模式定义

二、概念定义

1. 描述符 D / Description

实质上是一种通过描述符值实现的特征表示，该表示定义了语法和低层次特征的语义。描述符值即描述符针对给定数据集得到的实例，可通过多个描述符值基于 DS 机制组合实现单个特征的表示。

2. 描述方案 DS / Description Schema

描述方案 DS 可用于指定结构与 Ds 、DSs 之间的语义关系，其仅包含基础的数据类型，不参考其他 D 或 DS。
图1. 各元素之间关系

图2. 描述实例示意

图3. 描述方案实例

3. 描述定义语言 DDL / Description Definition Language

DDL 是基于 XML 方案的一种衍生，其对结构与数据类型都进行了扩展与变更，用于定义描述的有效性。DDL 允许创造新的 DSs 与Ds ，同时也允许对已存在的 DSs 进行扩展与修改。目前存在针对于 DDL 的解析器软件，用于检查描述是否有效。

注：XML 方案即可扩展标记语言 eXtensible Markup Language，其实质上是一种元语言，是用于创造标记语言的一套规则而不是标记语言本身。该方案被选用为 DDL 的基底原因有两个方面：1）其自发展以来已得到了广泛的应用；2）该方案与其他标准的互操作性较强。

4. 系统工具 System Tools

系统工具用于支持多路复用描述、同步问题、传输机制、编码表示以及知识产权的管理与保护等。

三、内容描述

基于 MPEG-7 的内容描述可从低层次描述、高层次描述与基础描述三个方面来说明。

1. 低层次描述

低层次描述主要是针对低层特征进行的，其具有通用、灵活的特性，适用于智能高效的搜索引擎。该描述的内容信息来源广泛，创作生产过程中的标题与导演信息等、与内容使用相关的版权与使用历史等、与内容相关的特征存储格式与编码等以及颜色、纹理等低层次的特征均在其描述范围之内。

2. 高层次描述

高层次描述则是围绕着内容的结构与概念而展开的，其高效且强大，但是缺乏一定的灵活性。视频片段、帧、静止与移动区域、音频片段以及包括时间空间结构在内的片段描述方案均是高层次描述的结构描述处理范围。而高层次的概念（语义）描述则是针对对象、事件与概念以及两个描述之间的链接进行的。

3. 基础描述

基础描述可划分为三个方面：1）元素：信息容器，包含数据和其他元素；2）属性：用于表征元素的属性值对；3）结构化：适用于检索的树状结构。

四、视听描述

1. 低层次视听描述符

针对不同对象的低层次视听描述符也不尽相同。例如，针对视频片段，低层次描述符则针对颜色、镜头移动以及移动趋势等内容进行描述；针对音频片段则是围绕着结构特征、口语内容以及音色等内容展开。针对不同对象的详细描述如下图4所示。

图4. 低层视听描述符

2. 音频

音频描述符框架可依照五个主要标准进行划分：1）时域音色；2）频域音色；3）基本频谱；4）频谱基底；5）信号参数。

同样的，音频描述由描述了频谱、参数与时间特征等信息的低层次描述符与描述了音域签名描述方案、乐器音色描述方案、旋律描述工具以及口语内容描述工具等的高层次描述符构成。其中，最为主要也是应用最为广泛的两个描述符是用于描述音频波形包络 AudioWaveform 与描述瞬时平滑的瞬间功率描述符 AudioPower。

在高层次音频描述符中，音频签名描述方案可为音频信号自动识别提供唯一的内容标识，保障识别的鲁棒性，多被应用于音频指纹识别与查找传统音频内容元数据中。而旋律描述工具旨在促进高效、健壮与表达性强的旋律相似度匹配，其中也包括了支持可扩展描述符集与高精度区间编码的旋律序列描述方案。

基本音频频谱可罗列如下：

音频包络 AudioSpectrumEnvelope
描述短期能量频谱
音频质心 AudioSpectrumCentroid
描述对数能量频谱的重心
音频传播 AudioSpectrumSpread
描述对数能量频谱的第二时刻
音频平坦度 AudioSpectrumFlatness
描述频谱的平坦度属性

3. 视频

按照基本结构划分，视频描述符可分为：网格布局、时间序列（规则、不规则）、多视图、空间二维坐标以及时间插值五个类别。

按照描述符类型划分，可分为颜色、纹理、形状以及视频的运动四大模块。

其中，颜色又可划分为：
1）主色描述符：聚类为义雄安部分的代表颜色，如下图所示：

2）尺度化颜色：HSV 颜色空间内的颜色直方图，由 Haar 变换编码实现。

3）颜色布局：基于 YCbCr 空间，将图像聚类为多个小块导出均值颜色。常应用于基于草图的图像检索与基于图像索引的内容过滤领域。
4）颜色结构：基于 HMMD 空间，通过像素块对图像进行扫描，计算每种颜色的块数生成颜色直方图。常应用于静止图像检索与自然图像检索。
5）可扩展的颜色描述符：HSV 空间中的直方图、Haar 变换编码、GoP / GoF 颜色描述符（可用于生成视频的直方图或一组图像）。

按照视频图像的纹理纹理信息，可划分为基于均匀纹理的描述符与非均匀纹理的描述符。
其中，基于均匀纹理的描述符将图像按照通道进行划分后进行能量偏差的计算，继而计算频率系数的均值与标准差。实例有二维小波变换与Radon 变换后的傅里叶变换。其中，小波变换基于高斯加权正弦变换实现，用于模型的独立通道且每个通道过滤特定类型纹理；

Radon 变换基本思想在于将带有线条的图像转换为潜在线条参数域，每根线条在结果图像中被转换为峰值点，如下图所示。

而基于非均匀纹理的描述符则依赖于边缘直方图实现，其可用于表示包括横向、纵向、45度、135度与无向在内的五种边缘的空间分布。基本思想在于将图像分块后各自生成直方图，以维持特征描述的尺度不变性，如下图所示。

基于形状划分视频描述符时，可将描述符按照区域、轮廓以及二维三维空间进行划分。
基于区域的描述符可利用复杂的 2D 角度径向变换算法 ART 表示二维对象内的像素分布，具有快速、尺寸小、可描述独立区域等优点。

基于轮廓的描述符是在曲率尺度空间基础上实现的，具有能够很好地捕捉形状、对噪声鲁棒性强、尺度方向不变性且快速而紧凑等优点。

由于三维立体对象能够被不同角度的快照描述，其可用一组二维描述符进行描述并基于二维描述符进行相似性匹配。三维描述符是基于形状光谱实现的，其是形状指数的扩展，能够捕捉有关于局部凸度的信息。算法实现时实质是在三维表面上计算形状索引直方图。

基于视频运动所划分的视频描述符可分为以下四个类别：

动作活动
基于运动矢量大小的标准差，捕捉行动强度与步伐行动。
相机运动
描述相机的移动或视野的移动
运动轨迹
描述某一区域特定代表点的动向
参数化运动
描述区域随着时间变换，使用 2D 几何变换

五、多媒体描述方案基本元素

多媒体描述方案的基本组织结构如下图所示：

1. 架构工具与基本数据类型

架构工具有基本类型、根元素、顶层类型、多媒体内容实体、包裹以及元数据描述六个类型，每个类型的详细示例如下所示：

基本类型
根元素
顶层类型
多媒体内容实体
多媒体内容包括图像、视频、音频、视听类型、多媒体类型、多媒体集合类型、信号类型等多个类别。
包裹
元数据描述

而多媒体描述方案的基本数据类型定义了可以表达不同限制类型种类的数据类型，如整数、实数、矩阵以及字符串等，可总结为可扩展数据类型集合以及向量与矩阵两个主要模块。

2. 基本工具

时间描述工具
内容管理
内容描述
内容描述可分为基于结构的描述与基于语义的描述两个类型。其中，基于结构的描述工具有分段实体描述工具（将数据划分为 T/S 段）、段分解工具以及分段树或是图结构的段关系描述工具。

分段实体描述如下所示：

T/S 段划分如下图所示：

段分解工具工作流程如下图所示：

段关系（图结构）描述示意如下所示：

语义实体描述工具如下图所示，包括语义实体与导航以及访问两个模块。其中，语义实体描述示意图如下所示：

导航与访问又可分为层次或是序列上的总结、时空域或是频率上的查看、分区域分解以及具有适应性的变化。
层次水平的总结：

序列水平的总结：

视图变化：

变化示例：

内容组织可分为集合与模型两个部分，其中，集合即内容所组成的簇群，其可描述语义信息、模型的参数值信息以及集合簇群之间的关系；而模型则包括了构造模型的参数与视听内容的特征，实例有概率模型与分析模型两种。集合结构如下图所示：
用户交互
用户偏好以时间、空间为基准对上下文依赖进行了描述，包括不同用户偏好的相关重要性、私密特征及来自用户的内容更新。而用户使用历史则包括了用户操作历史等，其用于确认用户偏好。

六、实验模型 XM 与应用

实验模型实质上是为 Ds、DSs、CSs 以及 DDL 提供实验仿真平台，常应用于服务器端的提取以及客户端的搜索、过滤与转码。
提取：

检索：

过滤：

转码：

MPEG-7 的应用领域十分广泛，具体应用场景可罗列如下：
• 存储和检索视听数据库（图像，电影，广播）档案）
• 广播媒体选择（广播，电视节目）
• 监督（交通管制，地面运输，生产链）
• 电子商务和电话购物（寻找衣服/图案）
• 遥感（制图，生态学，自然资源管理）
• 娱乐（搜索游戏，卡拉OK）
• 文化服务（博物馆，美术馆）
• 新闻（寻找事件，人）
• 互联网上的个性化新闻服务（推送媒体过滤）
• 智能多媒体演示

信息流传输如下所示：

MPEG-7 推拉应用程序中的拉动应用程序实例有 Internet 和 DB 的搜索引擎，许多搜索引擎都致力于标准化描述。

推送应用程序实例则有视频广播、互动电视等，智能代理过滤器可进行对描述进行标准化。

七、总结

MPEG-7 的本质为可互操作应用的视听内容描述，包括结合使用了 XML 方案与二进制版本的灵活且高效的描述定义语言与囊括了可涵盖广泛通用需求描述工具库的描述方案。其终极目标在于使得网络可以像检索文本一样实现对多媒体内容的检索，并尽可能简单地改进计算机系统的使用。
对 MPEG-7 的期望：

围绕人类的需求溯造计算机，而不是让人类调整自身来使用计算机。
根据内容事实自动实现标注，而不依赖人工标注。
通过丰富的口头查询、手绘图像查询信息。