深度学习视频理解02

基于2D卷积的动作识别

RNN、LSTM和GRU结构 略去

1、平均汇合(Average Pooling)

image-20231012194017339

在帧特征层面进行汇合得到视频级别特征Z,为视频内容的向量化表示称视频Embedding

每帧图像的特征对整体的共享是相同的

2、VLAD(Vector of Locally Aggregated Descriptors)(Jégou et al.,2010)

先聚类,后对聚类的特征进行拼接

image-20231012195513915

NetVLAD(Arandjelovic et al.,2016)

image-20231012195648968

NeXtVLAD(Lin et al.,2018a)

image-20231012195333324

image-20231012200053990

image-20231012200110019

3、RNN特征融合

RNN(Recurrent Neural Networks,循环神经网络)有很强的时序建模能力,可以显式地考虑帧之间的时序关系

image-20231012200226625

Fast-Forward 网络结构图

image-20231012200347116

将特征分成两个部分,一部分用图像分类模型提取特征,另一部分用LSTM/GRU捕获各帧之间的时序关系。

ConvLSTM(Convolutional LSTM,卷积LSTM)(Shi et al.,2015)对LSTM的结构进行改造,将LSTM内的计算由矩阵乘法改为卷积运算,将卷积操作和LSTM合二为一

image-20231012200501154

3.4 3D卷积特征融合

对卷积层进行改造,把2D特征转化为3D特征

image-20231012200947536

image-20231012201132754

3.5、ECO

(Efficient COnvolution network,高效卷积网络)(Zolfaghari et al.,2018)

image-20231012201239664

3.6 双流法

可以从视频帧中计算光流,而光流反映了视频帧中人物的运动情况

image-20231012201522688

3.7 时序稀疏采样

更高效地从视频中采样图像帧

TSN(Temporal Segment Networks,时序分段网络)(Wang et al.,2019)

TRN(Temporal Relation Network,时序关系网络)(Zhou et al.,2018)

3.8 IDT轨迹利用

DT和iDT可以借助光流得到图像中特征点沿着时间的运动轨迹,之后可以沿着运动轨迹进行特征提取

3.9 TDD

TDD同时结合了两种传统算法(iDT和光流)和深度学习算法(基于光流的双流法)的优点

image-20231012202110053

汇总

image-20231012202154915