Gradient war doch eine gute Idee.
Dazu brauchst die Ableitung von f(x) nach xk mit k ∈ { 1,...,n}.
Dazu würde ich so überlegen:   f(x) ist eine Summe, also jeder
Summand einzeln ableitbar.  Ein Summand wie || x - a(j) ||22 ist durch das
Quadrat einfach nur die Summe über alle ( xk - a(j)k)2  für k = 1 bis n.
Wenn man die nach xk  ableitet, fallen alle Summanden weg, bis auf den k-ten
und aus dem wird  2* ( xk - a(j)k)   .
Also ist die k-te partielle Ableitung  fk' (x) = ∑ von j = 1 bis N über  2* ( xk - a(j)k)
=2 * (   ( ∑ von j = 1 bis N über   xk  )  -    ( ∑ von j = 1 bis N über   a(j)k) ) 
Die erste Summe in der Klammer besteht aus N gleichen Zahlen, also hast du
= 2 * (  N*xk   -    ( ∑ von j = 1 bis N über   a(j)k) ) .      #
Und wenn du nun in diese  k-te partielle Ableitung  das m für x einsetzt,
muss du nur überlegen wie die k-te Komponente von m aussieht, nämlich 
          (1/N) * ∑ von j = 1 bis N über   a(j)k     
also   N*xk  = ∑ von j = 1 bis N über   a(j)k  
und damit zeigt # :  Die k-te part. Ableitung am Punkt m ist 0, also 
m ein krit. Pkt.