增强学习方面,policy iteration可以迭代策略,但策略往往是给定action数目的情况下进行迭代收敛。

这方面是否可以结合计算机视觉的注意力机制,将无限定的无穷action集中在某些区域进行action上的探索。

Machine MetaLearning

一个很酷的但不知道怎么实现的idea,机器学习从来都按照给定的某套框架在运转,机器只从数据中learning,自己从来没有对自己的学习机制产生过怀疑,固定的预处理,固定的bp,固定的learning schedule。

是否可以设立一套机制,然后让机器对学习过程进行质疑与猜测,比如让系统在优化部分产生元认知,对其进行质疑。用bp到底好不好,用当前的optimizer到底是不是有问题。如果我试试其他方式呢?

质疑,则通过exploration来探索其他可能性,不质疑,则通过exploitation来利用探索得到的结果。

最近做视频理解中的一些体验和对该问题独有特点或难点的一些感悟。

1.视频的特点,视频其实是一种在时间上没有对齐的嵌入表征。类比自然语言理解,人类将表达欲潜入到语言空间,然而一句话中都是由词组成,也就是不同句子中往往都是“时间”对齐的,当然也有存在不对齐的情况,比如俚语和正式语,如果不把它们当成两种语言是很难做的。然而视频中的时间流动和真实世界往往不一致,所以嵌入到图像空间的真实世界不仅是像图像问题一样进行了有损嵌入,更严重的是这个时间流动被扰乱了。(除非视频都是对应真实世界以同样流速拍摄并按同样帧率压缩的)

对于理想中时间对齐的视频理解问题,我们可以拿lstm取得较好的效果。但是对于时间不对齐的视频,这可能就需要好好想想解决方案了。

2.attenion机制的推断因子,pixel level的推断因子来生成frame level的attention强度是否合理?

attention可以表达为g(infer),其推断因子可以是时间维上的一个通道的每个activation(类比max),也可以是一个feature map上所有activation。g的输出可以是frame level的值也可以是pixel level的值。要决定的是attention中什么应该是相同,什么应该是不同。

相同 的应该是注意力机制,比如人都对某些颜色感受强,这是共性。对于高层语意信息有自己的爱好这是特性。区分主体是人类个体。

类比我们这里,对于每一个处理对象用权值共享的attention block这是建立共性,对于不同instance发出不同query这是特性。如果没有特性,当然也有可能work,这要看具体问题。而共性更讲究共性的合理性,一种好的共性应当对大部分问题可以带来提高。

pixel level的activation的选择:1.使用rgb信息仅仅包含固定时间的rgb信息,无时间分辨率,空间上的attention,时间上的权值共享。2.使用光流信息,包含某时间分辨率下的rgb差分信息。 3.DOVF固定时间分辨率下的rgb。 4.极限时间分辨率(时间维上的attention,空间上的权值共享。

moe的结合,moe两部分可学习权重,

第一部分是expert,它将embedding层全连接以分类数*(num_mixture)作为输出节点个数,其含义是一共有num个专家logistic分类器。相当于对于每一类都有num个专家给它打了分。

第二部分是gate,它将embedding层全连接以分类数*(num_mixture+1)作为输出节点个数,其含义是对于每一个类num个专家都有分别的置信度,已经另一个+1的‘白痴’的置信度。理想状况num个专家擅长的领域不同,有些类别a专家的置信度高,然而另一个类别不然。

那么把置信度和专家打分乘起来并reduce_sum掉专家个数那个维度就得到了对于每一个类别的得分。其实就是一种多logistic的融合。

results matching ""

    No results matching ""