知识点发现
未读
Transformer掩码学习
之前感觉这个一直很难,不知道从哪里入手,看不懂这个掩码矩阵是什么。下面我给一个具体的例子。 也就是说它这个mask呀,一般是W和H它都表示token的数量,每行的一个元素都代表其中一个token,每列的一个元素也代表其中一个token,我们是将行看成query, 列(竖着看)就是key,也就是说图中