6 - Broadcasting

6个月前 297次点击 来自 TensorFlow

收录专题: TensorFlow入门笔记

broadcasting是tensorflow中tensor维度扩张的最常用的手段,指对某一个维度上重复N多次,虽然它呈现数据已被扩张,但不会复制数据。

可以这样理解,对 [b,784]@[784,10]+[10]这样一个操作([10]可以理解为偏置项),那么原式可以化为[b,10]+[10],但是[b,10]和[10]这两个tensor是不能直接相加的,两者必须化为相一致维度的单元才能相加,即,把[10]扩张为[b,10],两者才能相加,而broadcasting做的就是这样一件事。

又如,对tensor[4,32,32,3],要给它加一个偏置项b:[3],那么这个b的扩张过程为[3]→[1,1,1,3]→[4,32,32,3]

又如,现有两个tensor,tensor1:[4,1],tensor2:[1,3],两个tensor相加,则变化为,[4,1]→[4,3],[1,3]→[4,3]

又如,现有两个tensor,tensor1:[4],tensor2:[1,3],两个tensor不能相加,因为我们扩张时遵循的是右对齐原则,即[4]将要变成[1,4],而[1,4]和[1,3]是不能相加的

那么broadcasting有什么实际意义呢?

举个实际例子,对于[classes,students,scores]这样一个tensor概念(前文已经提过),由于期末考试某科难度提高,我们需要提高它的基准分,因此我们构建一个偏置项[scores],让它与前者相加,这时候通过broadcasting我们就可以让高维元素普适我们的[scores]操作(因为单纯的[scores]是没有学生和班级这样的概念的,通过broadcasting可以看成是对这种概念的补充),即,给所有班级的所有学生的成绩都加上这样的一个偏置。

开头我们提到broadcasting可以实现数据的维度扩张但不会复制数据,意思是,对于[b,10]+[10]这样一个操作,虽然经过broadcasting我们将[10]理解为了一个b,10,但其实际的数据shape仍然是[10],如果不使用broadcasting而是用我们前面提到过的维度变换的方法,过程是这个样子的:首先使用expand方法在axis=0的地方插入一个维度使其变为[1,10],然后使用tf.tile方法对[1,10]复制b次,使其变为[b,10],经过这样一个数据变换后,原来的偏置就真的变成了shape为[b,10]的tensor。对比之下可以看到,如果不指定高维度的配置,只给定低维度的概念那么broadcasting默认会进行高维的适配和扩张,而且broadcasting使用更加的简洁,同时可以节省大量的存储空间(因为并没有复制数据)。

Card image cap
开发者雷

尘世间一个小小的开发者,每天增加一些无聊的知识,就不会无聊了

要加油~~~

技术文档 >> 系列应用 >>
热推应用
Let'sLearnSwift
学习Swift的入门教程
PyPie
Python is as good as Pie
标签