word2vec并没有对词向量进行正则化(或者使用其他类似手段),为什么最后学到的词向量既不会趋于零也不会爆炸(类似于gradient vanishing)?

RT.
绝大部分词向量的分量都是零点零几或者零点几,离群值很少。
已邀请:

要回答问题请先登录注册