1

Index Üzerinde Bu Rapor inceleyin

brucek271pcn1
之前讨论的负载均衡损失可能会导致稳定性问题。我们可以使用许多方法来稳定稀疏模型的训练,但这可能会牺牲模型质量。例如,引入 Dropout 可以提高稳定性,但会导致模型质量下降。 那么一个典型的门控网络是什么呢?一个典型的门控网络通常是一个带有 softmax 函数的简单的网络。这个网络将学习将输入发送给哪个 expert。如下所示: 论文指出,门控网络倾向于收敛到一种状态,总是为相同的几个专家产生大的权重。这种... https://www.blogger.com/u/9/profile/10810167670069336925
Report this page

Comments

    HTML is allowed

Who Upvoted this Story