Salut !
J'ai une question de math toute bête mais dont je n'arrive pas à m'en sortir.
Imaginons une simple régressions linéaire, on a q exemples de dimensions n, ce qui nous fait une matrice X (q lignes, n colonnes)
Imaginons alors que chaque exemple à un label de dimensions p. On a la régression basique f(X) = XW + b = Y (avec W une matrice des poids et b le biais) Y est donc une matrice de dimension q lignes, p colonnes.
Quel est le gradient de f par rapport à X ?
Grossièrement, on dérive une matrice par rapport à une matrice. Dans mon esprit le gradient devrait être une matrice de matrices (la dérivée d'une matrice par rapport à un scalaire étant déjà une matrice) Est-ce correcte ?
Merci d'avance !
De ce que je vois, il n'y a pas de manière conventionnelle de représenter ce gradient.
On sait facilement que la différentielle est l'application H -> HW.
Ptet qu'une représentation du gradient utilise des produits tensoriels...
Vous devez être membre accéder à ce service...
Pas encore inscrit ?
1 compte par personne, multi-compte interdit !
Ou identifiez-vous :