0 Daumen
3,9k Aufrufe

wie kommt man auf diese Ableitung? Welche Regeln wendet man an?

XRDxN X \in \mathbb{R}^{D x N}
wRDx1 \vec{w} \in \mathbb{R}^{D x 1}

(wTXXTw)w=2XXTw \frac{\partial\left(\vec{w}^{T} X X^{T} \vec{w}\right)}{\partial \vec{w}}=2 X X^{T} \vec{w}  

Avatar von

Was ist denn die "Ableitung einer Matrixmultiplikation nach einem Vektor"?

Die Formel ist jedenfalls richtig, wenn man sagt, dass da links der Gradient einer quadratischen Form gebildet werden soll. Wobei der Gradient haesslicherweise als Spaltenvektor rauskommt ...

Hallo be1255, zugegeben habe ich den Titel etwas seltsam formuliert, werde ihn eventuell gleich editieren. Aber kannst du auch Herleiten, wie man auf das Ergebnis kommt, anstatt nur die Richtigkeit der Formel zu bestätigen?

Ja, aber ich bin zu faul, das jetzt komplett aufzuschreiben. S=XXTS=XX^T ist eine symmetrische Matrix und QS(w)=wTSw=1i,jnsijwiwjQ_S(w)=w^TSw=\sum_{1\le i,j\le n}s_{ij}w_iw_j die quadratische Form, um die es geht. Es kommt gradQS(w)=2(Sw)T\mathop{\mathrm{grad}}Q_S(w)=2(Sw)^T raus, wobei ich den Schoenheitsfehler gleich korrigiert habe. Kannst Du zur Uebung selber nachrechnen. :)

1 Antwort

0 Daumen

Hi,

es gilt xTw=i=1nxiwi=wTx x^T w = \sum_{i=1}^n x_i w_i = w^T x Also folgt
wj(wTxxTw)=wj(i=1nxiwi)2=2xjxTw \frac{\partial}{\partial w_j} (w^T x x^T w) = \frac{\partial}{\partial w_j} \left( \sum_{i=1}^n x_i w_i \right)^2 = 2 x_j x^T w
Deshalb gilt wj(wTxxTw)=2xxTw \frac{\partial}{\partial w_j} (w^T x x^T w) = 2 x x^T w

Avatar von 39 k

Hallo Ullim,

aber XTw und  wTX  sind doch als Ergebnis einer Matrixmultiplikation keine Skalare (was deine erste Gleichung mit der Summe andeutet), sondern Vektoren?!

 

Sorry, ich habe da nur einen Vektor und keine Matrix gesehen..

Wie vorher schon gesagt ist S=XXT S = X X^T eine symmetrische Matrix, also muss gezeigt werden das gilt

w(wTSw)=2Sw \frac{\partial}{\partial \vec w} ( \vec w^T S \vec w ) = 2 S \vec w
Es gilt
wTSw=i,jSi,jwiwj \vec w^T S \vec w = \sum_{i,j} S_{i,j} w_i w_j und deshalb
wk(wTSw)=i,jSi,jδikwj+i,jSi,jwiδjk \frac{\partial}{\partial w_k} ( \vec w^T S \vec w ) = \sum_{i,j} S_{i,j} \delta_{ik} w_j + \sum_{i,j} S_{i,j} w_i \delta_{jk}
also
wk(wTSw)=jSk,jwj+iSi,kwi=jSk,jwj+iSk,iwi=2(Sw)k \frac{\partial}{\partial w_k} ( \vec w^T S \vec w ) = \sum_j S_{k,j}w_j + \sum_i S_{i,k}w_i = \sum_j S_{k,j}w_j + \sum_i S_{k,i}w_i = 2 (S \vec w)_k

Ein anderes Problem?

Stell deine Frage