Stern Mathematik: Die Taylorentwicklung mit linearer Algebra verstehen
Released by matroid on Mi. 01. Juli 2020 18:12:01 [Statistics]
Written by Vercassivelaunos - 652 x read [Outline] Printable version Printer-friendly version -  Choose language   
Analysis

\(\begingroup\)\(\newcommand{\N}{\mathbb{N}} \newcommand{\Z}{\mathbb{Z}} \newcommand{\Q}{\mathbb{Q}} \newcommand{\R}{\mathbb{R}} \newcommand{\C}{\mathbb{C}} \newcommand{\F}{\mathbb{F}} \newcommand{\K}{\mathbb{K}} \newcommand{\E}{\mathbb{E}} \newcommand{\H}{\mathbb{H}} \newcommand{\D}{\mathrm{D}} \newcommand{\d}{\mathrm{d}} \newcommand{\i}{\mathrm{i}} \newcommand{\e}{\mathrm{e}} \newcommand{\diag}{\operatorname{diag}} \newcommand{\span}{\operatorname{span}} \newcommand{\im}{\operatorname{im}} \newcommand{\id}{\operatorname{id}} \newcommand{\grad}{\operatorname{grad}} \newcommand{\zyk}[1]{\Z/#1\Z} \newcommand{\matrix}[1]{\left(\begin{matrix}#1\end{matrix}\right)} \newcommand{\vector}[1]{\left(\begin{array}{c}#1\end{array}\right)} \newcommand{\align}[1]{\begin{align*}#1\end{align*}} \newcommand{\ket}[1]{\left\vert#1\right>} \newcommand{\bra}[1]{\left<#1\right\vert} \newcommand{\braket}[2]{\left<#1\middle\vert#2\right>} \newcommand{\braketop}[3]{\left<#1\middle\vert#2\middle\vert#3\right>} \newcommand{\mean}[1]{\left<#1\right>} \newcommand{\lvert}{\left\vert} \newcommand{\rvert}{\right\vert} \newcommand{\lVert}{\left\Vert} \newcommand{\rVert}{\right\Vert} \newcommand{\Abb}{\operatorname{Abb}}\) Die Grundidee der Ableitung einer Funktion $f$ ist, dass die Ableitung eine lineare Näherung von $f$ darstellen soll. In der Analysis 1 tut sie dies für gewöhnlich in Form der Tangentensteigung. Die Ableitung ist die Steigung einer (affin) linearen Funktion, deren Graph sich an den von $f$ anschmiegt. In der Analysis 2 wird das Konzept der linearen Näherung auf mehrere Dimensionen ausgeweitet und gleichzeitig verstärkt: Die totale Ableitung $\D f$ einer Funktion ist jetzt im wahrsten Sinne des Wortes eine lineare Abbildung, die in einem gewissen Sinne $f$ gut nähert. Ihre Darstellungsmatrix ist die bekannte Jacobimatrix. Wir werden im Folgenden sehen, dass die Taylorentwicklung eine Verallgemeinerung dieses Konzepts der linearen Näherung darstellt. Wir werden dabei feststellen, dass auch höhere Ableitungen in mehrdimensionalen Räumen in der Sprache der linearen Algebra beschrieben werden können, wenn man höhere Ableitungen von Funktionen mehrerer Variablen als Multilinearformen interpretiert. Wir wollen ein tieferes Verständnis für die Taylorentwicklung auch in mehreren Dimensionen entwickeln und werden bemerken, dass die mehrdimensionale und die eindimensionale Taylorentwicklung gar nicht so verschieden sind. Wir werden dabei in der theoretischen Beschreibung vollständig auf Multiindizes, Multinomialkoeffizienten und partielle Ableitungen verzichten. Nebenbei können wir die Definition höherer Ableitungen auch noch erweitern. Am Schluss werden einige beispielhafte Taylorentwicklungen in 2d berechnet und graphisch dargestellt.

Der vertraute Fall: Funktionen in einer Variablen

Bevor wir uns ins tiefe Wasser stürzen, wollen wir unsere Intuition in einer Dimension schulen. Dazu betrachten wir in diesem Abschnitt erstmal nur Funktionen $f:I\to\R$ mit einem offenen Intervall $I\subseteq\R$. Hier wird die lineare Algebra auch noch gar keine große Rolle spielen. Sie wird uns jedoch im mehrdimensionalen Fall immens helfen. Ich erinnere an die gewohnte Definition der Differenzierbarkeit:
DEFINITION 1: Differenzierbarkeit $f$ heißt differenzierbar in $x_0\in I$, wenn der Grenzwert \[f'(x_0):=\lim_{x\to x_0}\frac{f(x)-f(x_0)}{x-x_0}\] existiert. $f'(x_0)$ heißt dann die Ableitung von $f$ an der Stelle $x_0$.
Diese Definition ist zur Genüge bekannt. Die Idee ist, dass die Steigung $m_t$ der Tangente an den Graphen von $f$ im Punkt $(x_0,f(x_0))$ durch die Steigung $m_s$ der Sekante durch die Punkte $(x_0,f(x_0))$ und $(x,f(x))$ genähert wird. Diese berechnet sich zu \[m_s=\frac{f(x)-f(x_0)}{x-x_0}.\] Wählt man $x$ beliebig nah an $x_0$, so kommt auch die Sekantensteigung hoffentlich beliebig nah an eine Zahl heran, die man dann als Steigung der Tangenten wählt. Wenn das funktioniert, dann nennt man die Funktion differenzierbar. Es geht aber auch anders: Statt darauf zu setzen, dass die Sekantensteigung konvergiert und die resultierende Gerade $f$ tatsächlich gut nähert, kann man auch direkt verlangen, dass eine Tangente existiert, die $f$ gut nähert. Diesen Ansatz hat bereits Karl Weierstraß im 19. Jahrhundert gewählt. Das funktioniert so:
DEFINITION 2: Differenzierbarkeit nach Weierstraß $f$ heißt differenzierbar in $x_0\in I$, wenn es eine Zahl $f'(x_0)$ und eine Restfunktion $r:I\to\R$ gibt, sodass gilt: \[f(x)=f(x_0)+f'(x_0)\cdot(x-x_0)+r(x)\\~\\ \textrm{und}\\~\\ \lim\limits_{x\to x_0}\frac{r(x)}{x-x_0}=0.\]
Dabei ist $f(x_0)+f'(x_0)\cdot(x-x_0)$ die Tangentenfunktion, und $r$ eben ein Rest, der klein werden soll, wenn man sich weit genug an $x_0$ annähert. Diese Bedingung forciert man durch die Forderung, $\frac{r(x)}{x-x_0}$ solle gegen 0 gehen. Dass man durch $x-x_0$ teilt, garantiert eine gewisse Konvergenzgeschwindigkeit. Der Restterm wird schneller klein, als $x-x_0$, also schneller als linear. Dass diese beiden Definitionen äquivalent sind, kann man leicht nachrechnen: Falls der Grenzwert $f'(x_0)$ aus der ersten Definition existiert, dann ist $r(x)=f(x)-f(x_0)-f'(x_0)\cdot(x-x_0)$ eine Restfunktion, welche die zweite Definition erfüllt. Sind andersherum $f'(x_0)$ und $r(x)$ wie in der zweiten Definition, dann ist $\frac{f(x)-f(x_0)}{x-x_0}=f'(x_0)+\frac{r(x)}{x-x_0}$, was gegen $f'(x_0)$ konvergiert. Damit ist also auch die erste Definition der Differenzierbarkeit erfüllt. Wir wollen im weiteren Verlauf die zweite, Weierstraß'sche Definition der Differenzierbarkeit weiterverwenden und ausbauen. Das geschulte Auge erkennt vermutlich bereits, was das mit der Taylorentwicklung zu tun hat: Die Weierstraß'sche Definition der Differenzierbarkeit sagt aus, dass $f$ genau dann differenzierbar in $x_0$ ist, wenn die Taylorformel für $n=1$ gilt:
SATZ 1: Taylorformel in einer Dimension für stetig differenzierbare Funktionen Sei $f:I\to\R$ $n$-mal stetig differenzierbar und $x_0\in I$. Dann gibt es eine stetige Restfunktion $R_{n,x_0}:I\to\R$ mit $\lim\limits_{x\to x_0}\frac{R_{n,x_0}(x)}{(x-x_0)^n}=0$, sodass die Taylorformel gilt: \[f(x)=\sum_{k=0}^n\frac{f^{(k)}(x_0)}{k!}(x-x_0)^k~+~R_{n,x_0}(x)\]
Für $n=1$ reduziert sich die Formel genau auf jene aus der Definition nach Weierstraß. Lediglich auf die Stetigkeit des Restglieds wird verzichtet. Für $n=1$ haben wir also mit der Weierstraßschen Ableitungsdefinition eine stärkere Variante der Taylorformel. Kann man diese stärkere Variante vielleicht verallgemeinern? Glücklicherweise lautet die Antwort ja:
SATZ 2: Taylorformel in einer Dimension für differenzierbare Funktionen Sei $f:I\to\R$ $n$-mal differenzierbar in $x_0\in I$. Dann gibt es eine Restfunktion $R_{n,x_0}:I\to\R$ mit $\lim\limits_{x\to x_0}\frac{R_{n,x_0}(x)}{(x-x_0)^n}=0$, sodass die Taylorformel gilt: \[f(x)=\sum_{k=0}^n\frac{f^{(k)}(x_0)}{k!}(x-x_0)^k~+~R_{n,x_0}(x)\]
\showon Beweis: Der Beweis ist nicht lang und läuft per Induktion. Es wird im folgenden $Tf_{n,x_0}(x):=\sum_{k=0}^n\frac{f^{(k)}(x_0)}{k!}(x-x_0)^k$ gesetzt. Es handelt sich also um das $n$-te Taylorpolynom mit Entwicklungspunkt $x_0$. Induktionsanfang: Für $n=1$ entspricht die Aussage der Weierstraßschen Ableitungsdefinition. Induktionsschritt: Wir setzen die Aussage für $n\in\N$ voraus. Sei nun $f$ $n+1$-mal differenzierbar. Man setze \[R_{n+1,x_0}(x):=f(x)-Tf_{n+1,x_0}(x).\] Da $f$ $n+1$-mal differenzierbar ist, und $Tf_{n+1,x_0}$ als Polynom ebenfalls, können wir die Ableitung $R_{n+1,x_0}'$ von $R_{n+1,x_0}$ bestimmen: \[\begin{align*}R_{n+1,x_0}'(x)&=f'(x)-(Tf_{n+1,x_0})'(x)\\ &=f'(x)-T(f')_{n,x_0}(x) \end{align*}\] Die zweite Gleichung hat lediglich verwendet, dass die Ableitung des $n+1$-ten Taylorpolynoms von $f$ gerade das $n$-te Taylorpolynom der Ableitung von $f$ ist. Die Gleichung besagt im Wesentlichen, dass $R_{n+1,x_0}'$ das Restglied der Taylorentwicklung bis Ordnung $n$ von $f'$ ist. Laut Induktionsvoraussetzung gilt also \[\lim_{x\to x_0}\frac{R_{n+1,x_0}'(x)}{(x-x_0)^n}=0.\] Damit ist für jedes $\varepsilon>0$ also $R_{n+1,x_0}'(x)$ in einer geeigneten Umgebung von $x_0$ durch $R_{n+1,x_0}'(x)< S:= \varepsilon\vert x-x_0\vert^n$ beschränkt. Wir können deshalb den Schrankensatz anwenden, der in dieser Umgebung besagt: \[\vert R_{n+1,x_0}(x)-R_{n+1,x_0}(0)\vert< S\vert x-x_0\vert=\varepsilon\vert x-x_0\vert^{n+1}\] Da $R_{n+1,x_0}(0)=0$ ergibt sich die zu beweisende Aussage, wenn man durch $\vert x-x_0\vert^{n+1}$ teilt und $\varepsilon\to0$ gehen lässt. \showoff Man beachte die Hauptunterschiede: in der zweiten Variante reicht es, wenn $f$ in nur einem einzigen Punkt $n$-mal differenzierbar ist. In einer Umgebung von $x_0$ muss natürlich trotzdem die $n-1$-te Ableitung existieren, damit man überhaupt die $n$-te Ableitung aufstellen kann. Aber die $n$-te Ableitung muss nur in $x_0$ existieren. Und stetig muss sie auch nicht sein. Damit sind wir jetzt am Kern dieses Abschnittes angekommen. Wir haben gesehen, dass wenn $f:I\to\R$ in $x_0$ $n$-mal differenzierbar ist, es dann ein Polynom von Grad $n$ gibt (nämlich das Taylorpolynom $Tf_{n,x_0}$), das $f$ "gut nähert". Die Güte der Näherung wird dabei durch das Konvergenzverhalten des Restes $R_{n,x_0}$ angegeben. Je schneller dieser Term klein wird, desto besser ist die Näherung. Und es stellt sich heraus, dass der Restterm eben schneller als $(x-x_0)^n$ klein wird. Und weil das ganze so schöne Parallelen zur einfachen Differenzierbarkeit aufweist, drehen wir das ganze auch noch um. Wir sagen nicht mehr, dass $f$ durch ein Polynom gut genähert wird, wenn $f$ $n$-mal differenzierbar ist, sondern wir definieren neu:
DEFINITION 3: Höhere Differenzierbarkeit nach Weierstraß Eine Funktion $f:I\to\R$ heißt $n$-mal differenzierbar in $x_0\in I$, wenn es ein Polynom \[Tf_{n,x_0}(x)=\sum_{k=0}^n a_k(x-x_0)^k\] von Grad $n$ und eine Restfunktion $R_{n,x_0}:I\to\R$ mit $\lim\limits_{x\to x_0}\frac{R_{n,x_0}(x)}{(x-x_0)^n}=0$ gibt, sodass \[f(x)=Tf_{n,x_0}(x)+R_{n,x_0}(x).\] Man nennt $f^{(k)}(x_0):=k!a_k$ die $k$-te Ableitung von $f$ an der Stelle $x_0$ und $Tf_{n,x_0}$ das $n$-te Taylorpolynom von $f$ mit Entwicklungspunkt $x_0$.
Ich möchte als erstes anmerken, dass diese Definition nicht wirklich von Weierstraß stammt. Sie verallgemeinert jedoch die Weierstraßsche Definition der gewöhnlichen Ableitung, deshalb will ich hier weiter seinen Namen verwenden. Bei der Einführung einer neuen Definition für bereits definierte Begriffe gehört überprüft, ob beide Definitionen äquivalent sind, oder zumindest die neue eine Verallgemeinerung der alten darstellt. Wir werden gleich sehen, dass diese Weierstraßsche Definition eine echte Verallgemeinerung des Begriffs der höheren Differenzierbarkeit darstellt. Wir haben bereits mit SATZ 2 gesehen, dass eine nach alter Definition $n$-mal differenzierbare Funktion auch nach der neuen Definition $n$-mal differenzierbar ist. Zum Schluss schauen wir uns ein Beispiel an, das nach der alten Definition nicht mehrfach differenzierbar ist, nach der neuen allerdings schon:
BEISPIEL 1 Definiere für $n\geq1$ die Funktion \[f_n:\R\to\R,~f_n(x):=\cases{x^{n+1}&$x\in \R\backslash\Q$\\ 0&$x\in\Q$}\] Diese Funktion ist nirgends stetig, außer an der Stelle $x_0=0$. Das heißt insbesondere, dass ihre erste Ableitung höchstens in 0 existieren kann, sonst nirgends. Da Funktionen auf diskreten Mengen, z.B. $\{0\}$ nicht differenzierbar sein können, ist $f_n'$ nicht differenzierbar, entsprechend ist $f_n$ nach der gewöhnlichen Definition höchstens einmal differenzierbar. Immerhin das ist die Funktion aber: Mit dem Differenzenquotienten kann man leicht nachrechnen, dass $f_n$ differenzierbar ist mit $f_n'(0)=0$ für alle $n\geq1$. Wir wollen zeigen, dass diese Funktion für $n\geq1$ nach der erweiterten Definition jedoch $n$-mal differenzierbar in $0$ ist. Dazu wählen wir ${Tf_n}_{n,0}(x)=0$. Das heißt wir behaupten, dass $f^{(k)}(0)=0$ für alle $0\leq k\leq n$. Dann ist $R_{n,0}(x)=f(x)-{Tf_n}_{n,0}(x)=f(x)$, und es gilt \[\frac{R_{n,0}(x)}{x^n}=\frac{f(x)}{x^n}=\cases{x&$x\in\R\backslash\Q$\\0&$x\in\Q$}\] Für $x\to0$ konvergieren beide Fälle gegen $0$, womit die $n$-fache Differenzierbarkeit gezeigt ist.
Dieses Beispiel illustriert eine schöne Verallgemeinerung der Eigenschaften der ersten Ableitungen. Mit dem gewöhnlichen Ableitungsbegriff kann eine Funktion in einem Punkt differenzierbar sein, ohne irgendwo anders überhaupt stetig (also "$0$-mal differenzierbar") zu sein. Diese Eigenschaft geht für höhere Ableitungen verloren: Damit eine Funktion in einem Punkt $n$-mal differenzierbar sein kann, muss sie in einer Umgebung $n-1$-mal differenzierbar sein. Unsere erweiterte Definition erhält diese Möglichkeit aber: Funktionen können nun in einem Punkt beliebig häufig differenzierbar sein, ohne irgendwo anders auch nur stetig zu sein.

Der gar nicht so andere Fall: Funktionen mehrerer Variablen

Wir wollen jetzt die Konstruktionen aus dem ersten Teil wiederholen, jedoch für Funktionen $f:U\to\R^m$ mit $U\subset\R^n$ offen. Dabei stehen wir vor einem Problem: Wir haben die ganze Zeit mit Polynomen gearbeitet. Das ist in einer Variablen ja ganz in Ordnung. Wenn wir aber eine Funktion $f:\R^n\to\R$ mit einem Polynom nähern wollen, dann brauchen wir ein Polynom in $n$ Variablen. Schon in zwei Variablen ist ein Polynom von Grad 2 von der Form $a+bX+cY+dX^2+eXY+fY^2$. Das heißt, ein Taylorpolynom von Grad 2 hätte bereits sechs Terme. Bei Grad 3 sind es 10. Und wir sind ja noch beim Bildbereich $\R$. Wenn wir als Bild einen höherdimensionalen Raum zulassen wollen, dann brauchen wir für jede Koordinate des höherdimensionalen Raumes ein eigenes Polynom. Das wird schnell unübersichtlich. Hier wird uns die lineare Algebra aushelfen, indem wir Polynome durch multilineare Abbildungen ersetzen. Zuvor schauen wir uns aber noch einmal die bekannte Definition der Differenzierbarkeit an:
DEFINITION 4: Differenzierbarkeit in mehreren Variablen Eine Funktion $f:U\to\R^m$ heißt (total) differenzierbar in $x_0\in U$, falls es eine lineare Abbildung $\D f(x_0):\R^n\to\R^m$ gibt, sodass \[\lim_{x\to x_0}\frac{f(x)-f(x_0)-\D f(x_0)(x-x_0)}{\Vert x-x_0\Vert}=0.\] Dann heißt $\D f(x_0)$ das (totale) Differential von $f$ an der Stelle $x_0$.
Tatsächlich ist diese Definition so nah an der Weierstraßschen in einer Dimension (zumindest für die erste Ableitung), dass ich hier gar nicht mehr von einer alternativen Definition sprechen möchte. Der Nenner des Ausdrucks, der gegen 0 gehen soll, ist nämlich gerade der Restterm bei Weierstraß. Man könnte es also auch so formulieren:
DEFINITION 4: Umformulierung Eine Funktion $f:U\to\R^m$ heißt (total) differenzierbar in $x_0\in U$, falls es eine lineare Abbildung $\D f(x_0):\R^n\to\R^m$ und eine Restfunktion $r:U\to\R^m$ gibt, sodass \[f(x)=f(x_0)+\D f(x_0)(x-x_0)+r(x)\\~\\ \textrm{und}\\~\\ \lim\limits_{x\to x_0}\frac{r(x)}{\Vert x-x_0\Vert}=0.\]
Der einzige unterschied zur ersten Definition ist, dass wir hier $r(x):=f(x)-f(x_0)-\D f(x_0)(x-x_0)$ setzen, und dann mit $r$ arbeiten. Allerdings erkennen wir in dieser Formulierung leichter etwas ähnliches wie eine Taylorentwicklung: $f(x_0)+\D f(x_0)(x-x_0)$ sieht sehr ähnlich aus, wie $f(x_0)+f'(x_0)(x-x_0)$ im eindimensionalen Fall. Und das liegt daran, dass sie auch wirklich dieselbe Rolle einnehmen, wie wir gleich sehen werden. Wir sollten jetzt erwarten, dass der Satz von Taylor sich ähnlich verallgemeinern lässt. Insbesondere sollte er für den Fall einmal differenzierbarer Funktionen etwa so klingen: Sei $f:U\to\R^m$ differenzierbar in $x_0$. Dann gibt es eine Restfunktion $R_{1,x_0}:U\to\R^m$ mit $\lim\limits_{x\to x_0}\frac{R_{1,x_0}(x)}{\Vert x-x_0\Vert}=0$, sodass \[f(x)=f(x_0)+\D f(x_0)(x-x_0)+R_{1,x_0}(x).\] Das Taylorpolynom ersten Grades sollte also eine konstante ($f(x_0)$) plus eine lineare Funktion ($\D f(x_0)$) sein. In einer Dimension würden quadratische, kubische, und dann noch höhere Terme folgen. Solche Terme müssen wir auf höhere Dimensionen verallgemeinern, um die Taylorentwicklung in höherern Dimensionen zu formulieren. Und hier kommt nun endlich die lineare Algebra! Die Idee einer linearen Funktion wurde bereits durch eine lineare Abbildung verallgemeinert. Rein quadratischen Funktion verallgemeinern wir dann durch bilineare Abbildung. Kubische Funktionen durch trilineare Abbildungen. Allgemein ersetzen wir den Term $\frac{f^{(k)}}{k!}(x-x_0)^k$ durch eine $k$-lineare Abbildung. Dafür zu Erinnerung die Definition:
DEFINITION 5: Multilineare Abbildung Seien $V,W$ $\R$-Vektorräume. Eine Abbildung $M_k:\overbrace{V\times\dots\times V}^{k\textrm{ mal}}\to W$ heißt $k$-linear, wenn sie linear in jedem Argument ist. Das heißt für $\lambda\in\R$, $v_1,\dots,v_k,w\in V$ und $1\leq i\leq k$ gilt \[M_k(v_1,\dots,v_i+\lambda w,\dots,v_k)=M_k(v_1,\dots,v_i,\dots,v_k)+\lambda M_k(v_1,\dots,w,\dots,v_k).\] Man spricht bei $k=2$ auch von bilinearen Abbildungen.
Wir wollen jetzt höhere Ableitungen und multilineare Abbildungen miteinander in Beziehung setzen. Dafür betrachten wir beispielhaft die zweite totale Ableitung. Ist $f$ differenzierbar in $U$, dann können wir eine Abbildung $\D f:U\to\operatorname{Hom}(\R^n,\R^m),~x\mapsto\D f(x)$ definieren. Sie ordnet jedem Punkt $x\in U$ das totale Differential $\D f(x)$ zu, bildet also Vektoren aus $U$ auf lineare Abbildungen $\R^n\to\R^m$ ab, also auf Elemente von $\operatorname{Hom}(\R^n,\R^m)$. Wollen wir diese Abbildung in $x_0$ ableiten, so müssen wir eine lineare Abbildung $\D(\D f)(x_0):\R^n\to\operatorname{Hom}(\R^n,\R^m)$ finden. Wir schreiben sie auch kürzer als $\D(\D f)(x_0)=\D^2 f(x_0)$. Das ist die zweite Ableitung, beziehungsweise das zweite totale Differential von $f$ an der Stelle $x_0$. Wir wollen sie jetzt mit einer bilinearen Abbildung $\R^n\times\R^n\to\R^m$ identifizieren. Wählen wir zwei Vektoren $v_1,v_2\in\R^n$, dann können wir ja beobachten, was $\D^2 f(x_0)$ mit $v_1$ macht. Da $\D^2 f(x_0)$ Vektoren auf lineare Abbildungen abbildet, ist $\D^2 f(x_0)(v_1)$ eine lineare Abbildung von $\R^n$ nach $\R^m$. Diese lineare Abbildung können wir auf $v_2$ anwenden, und erhalten mit $\D^2 f(x_0)(v_1)(v_2)$ einen Vektor aus $\R^m$. Man kann also $\D^2f$ als Abbildung mit zwei Argumenten interpretieren, indem man $\D^2 f(x_0)(v_1,v_2):=\D^2 f(v_1)(v_2)$ setzt. Eine kurze Rechnung zeigt auch, dass diese Abbildung tatsächlich bilinear ist. Dieses Verfahren kann man fortsetzen. Ist $\D^2 f$ differenzierbar, dann kann man $\D^3 f(x_0)$ als trilineare Abbildung $\R^n\times\R^n\times\R^n\to\R^m$ auffassen, indem man $\D^3 f(x_0)$ erst mit dem ersten Argument füttert. Man erhält eine lineare Abbildung $\D^3f(x_0)(v_1):\R^n\to\operatorname{Hom}(\R^n,\R^m)$ in den Raum der linearen Abbildung $\R^n\to\R^m$. Diese füttert man mit dem zweiten Argument und erhält eine lineare Abbildung $D^3f(x_0)(v_1)(v_2):\R^n\to\R^m$. Füttert man diese schließlich mit dem dritten Argument, erhält man einen Vektor $\D^3f(x_0)(v_1)(v_2)(v_3)\in\R^m$. Das schreiben wir wieder als $\D^3f(x_0)(v_1,v_2,v_3)$. Auf diese Weise lassen sich alle höheren Ableitungen $\D^kf$ als $k$-lineare Abbildungen auffassen, und das wollen wir von jetzt an auch tun. Als wichtige Kurzschreibweise führen wir noch ein: $\D^k f(x_0)v^k:=\D^kf(x_0)(\underbrace{v,\dots,v}_{k\textrm{ mal}})$. Damit können wir eine sehr elegante Fassung der Taylorformel für mehrere Dimensionen aufstellen:
SATZ 3: Taylorformel in mehreren Dimensionen Sei $U\subseteq\R^n$ offen, $f:U\to\R^m$ $n$-mal differenzierbar in $x_0\in U$. Dann gibt es eine Restfunktion $R_{n,x_0}:U\to\R^m$ sodass \[f(x)=\sum_{k=0}^\infty\frac{1}{k!}\D^kf(x_0)(x-x_0)^k~+~R_{n,x_0}(x)\\~\\ \textrm{und}\\~\\ \lim_{x\to x_0}\frac{R_{n,x_0}(x)}{\Vert x-x_0\Vert^k}=0.\]
\showon Beweis: Der Beweis funktioniert eigentlich genau wie in einer Dimension. Wir müssen nur einige kleine Anpassungen vornehmen. Diesmal schreiben wir die Taylorpolynome als $Tf_{n,x_0}(x):=\sum_{k=0}^n\frac{1}{k!}\D^kf(x_0)(x-x_0)^k$. Es lässt sich mit etwas Rechnerei auch hier zeigen, dass $\D Tf_{n+1,x_0}=T(\D f)_{n,x_0}$. Die Ableitung des $n+1$-ten Taylorpolynoms ist also weiterhin das $n$-te Taylorpolynom der Ableitung. Außerdem müssen wir bei der Verwendung des Schrankensatzes etwas aufpassen, da er nur für konvexe Mengen gilt. Induktionsanfang: Für $n=1$ entspricht die Aussage der Definition der totalen Differenzierbarkeit. Induktionsschritt: wieder können wir das Restglied beziehungsweise dessen Ableitung berechnen. Das Restglied: \[R_{n+1,x_0}(x):=f(x)-Tf_{n+1,x_0}(x).\] Und seine Ableitung: \[\begin{align*}\D R_{n+1,x_0}(x)&=\D f(x)-\D Tf_{n+1,x_0}(x)\\ &=\D f(x)-T(\D f)_{n,x_0}(x) \end{align*}\] Bei $\D f$ handelt es sich jetzt um eine in $x_0$ $n$-mal differenzierbare Abbildung $U\to\operatorname{Hom}(\R^n,\R^m)$. Da $\operatorname{Hom}(\R^n,\R^m)$ ein endlichdimensionaler $\R$-Vektorraum ist, können wir darauf trotzdem die Induktionsvoraussetzung anwenden. Die gezeigte Gleichung heißt im Wesentlichen, dass $\D R_{n+1,x_0}$ das Restglied in der Taylorformel der Ordnung $n$ für $\D f$ ist. Daher gilt \[\lim_{x\to x_0}\frac{\D R_{n+1,x_0}(x)}{\Vert x-x_0\Vert^n}=0,\] Damit ist für jedes $\varepsilon>0$ also $\D R_{n+1,x_0}(x)$ in einer geeigneten Umgebung von $x_0$ durch $\D R_{n+1,x_0}(x)< S:= \varepsilon\Vert x-x_0\Vert^n$ beschränkt. Wählen wir die Umgebung konvex, beispielsweise als offene Kugel um $x_0$, so können wir den Schrankensatz anwenden, der in dieser Umgebung besagt: \[\Vert R_{n+1,x_0}(x)-R_{n+1,x_0}(0)\Vert< S\Vert x-x_0\Vert=\varepsilon\Vert x-x_0\Vert^{n+1}\] Mit $R_{n+1,x_0}(0)=0$ ergibt sich wieder die zu beweisende Aussage, wenn man durch $\Vert x-x_0\Vert^{n+1}$ teilt und $\varepsilon\to0$ gehen lässt. \showoff Ich bitte kurz darum, diese Fassung mit der in einer Dimension zu vergleichen. Die Struktur ist exakt die selbe. Lediglich $f^{(k)}$ wurde durch $\D^k f$ ersetzt. Wir haben diesmal also wirklich die Struktur der Taylorpolynome durchschaut. Es müssen eben nicht willkürlich scheinende Summen mit Multiindizes, Multinomialkoeffizienten und partiellen Ableitungen sein. Vielmehr reicht es, die höheren totalen Ableitungen als multilineare Abbildungen zu betrachten, um die gleiche Struktur wie in einer Dimension zu erkennen. All diese Parallelen zu einer Dimension können uns auch hier ermutigen, die Definition höherer Ableitungen zu erweitern, so dass auch hier die Ableitungen nur in einem einzigen Punkt zu existieren brauchen:
DEFINITION 6: Höhere totale Differenzierbarkeit nach Weierstraß Eine Funktion $f:U\to\R^m$ heißt $n$-mal (total) differenzierbar in $x_0\in U$, wenn es für $0\leq k\leq n$ $k$-lineare Abbildungen $M_k:(\R^n)^k\to\R^m$ und eine Restfunktion $R_{n,x_0}:U\to\R^m$ mit $\lim\limits_{x\to x_0}\frac{R_{n,x_0}(x)}{\Vert x-x_0\Vert^n}=0$ gibt, sodass \[f(x)=\sum_{k=0}^n M_k(x-x_0)^k~+~R_{n,x_0}(x).\] Unter einer $0$-linearen Abbildung verstehen wir dabei eine konstante Abbildung. Es sind dann $\D^k f(x_0):=k!M_k$ für $1\leq k\leq n$ die $k$-ten totalen Ableitungen von $f$ an der Stelle $x_0$.
Auch hier will ich der Vollständigkeit halber nochmal anmerken, dass diese Definition nur an die ursprüngliche Definition von Weierstraß für einfache Ableitungen in einer Dimension angelehnt ist. Sie kommt nicht von Weierstraß, und ist auch sonst nicht etabliert, wahrscheinlich auch weil sie wenig praktischen Mehrwert gegenüber anderen Definitionen hat. Sie stellt eher ein Gedankenspiel dar, das Strukturunterschiede zwischen der einfachen und den höheren Ableitungen nach gängiger Definition aufdecken soll. Nämlich sind Funktionen wie schon im ersten Abschnitt gezeigt genau dann einmal differenzierbar, wenn sie von einem Taylorpolynom erster Ordnung genähert werden können. Bei höheren Ableitungen funktioniert nur die eine Richtung: mehrfach differenzierbare Funktionen lassen sich "taylorn", aber "taylorbare" Funktionen sind nicht zwingend differenzierbar.

Beispiele

Wir wollen jetzt noch einige Taylorentwicklungen mit unseren neugewonnenen Kenntnissen untersuchen, und ein wenig rechnen.

Taylorentwicklung eindimensionaler Funktionen

Hier werden wir sehen, dass die allgemeine Form der Taylorformel sich im eindimensionalen Fall wieder auf die spezielle Formel aus dem ersten Abschnitt reduziert. In der allgemeinen Variante der Taylorformel tauchen Multilineare Abbildungen $(\R^n)^k\to\R^m$ auf. Wie sehen die aus, wenn $n=m=1$? So: \[M_k(x_1,\dots,x_k)=m_kx_1\dots x_k\] mit $m_k\in\R$. Es werden einfach alle Argumente miteinander multipliziert, und mit einem Faktor $m_k$ skaliert. Die multilineare Abbildung wird durch diesen Faktor $m_k$ vollständig charakterisiert. Setzt man jetzt immer das gleiche Argument ein, beispielsweise $x-x_0$, so erhält man \[M_k(x-x_0)^k=m_k(x-x_0)^k\] Betrachten wir nun eine $n$-mal differenzierbare Abbildung $f:I\to\R$ mit einem offenen Intervall $I\subseteq\R$, dann gilt die Taylorformel: \[f(x)=\sum_{k=0}^n\frac{1}{k!}\D^kf(x_0)(x-x_0)^k~+~R_{n,x_0}(x).\] Die multilineare Abbildung $\D^kf(x_0)$ charakterisieren wir durch den Faktor $a_k\in\R$ und erhalten \[f(x)=\sum_{k=0}^n\frac{a_k}{k!}(x-x_0)^k~+~R_{n,x_0}(x).\] Wir sehen sofort, dass nach der eindimensionalen Taylorformel $a_k=f^{(k)}(x_0)$ sein muss. Wir können die multilineare Abbildung $\D^k f(x_0)$ demnach als Multiplikation mit der Zahl $f^{(k)}(x_0)$ sehen, und erkennen, dass sich die mehrdimensionale Taylorformel auf die eindimensionale reduziert: \[f(x)=\sum_{k=0}^n\frac{1}{k!}\D^kf(x_0)(x-x_0)^k~+~R_{n,x_0}(x)=\sum_{k=0}^n\frac{f^{(k)}(x_0)}{k!}(x-x_0)^k~+~R_{n,x_0}(x).\]

Taylorentwicklung zweiter Ordnung für skalare Funktionen

Ein besonders hübsches Beispiel ergibt sich, wenn man $f:U\to\R$ mit $U\subset\R^n$ offen betrachtet, und die Taylorentwicklung bis zur zweiten Ordnung durchführt. Da der Bildbereich jetzt einfach nur $\R$ ist, reduzieren sich die multilinearen Abbildungen zu Multilinearformen (also multilineare Abbildungen in den zugrundeliegenden Körper). Bis zur zweiten Ordnung erhalten wir dann eine Linearform für die erste Ableitung und eine Bilinearform für die zweite Ableitung. Da Linear- und Biliniearformen eine Matrixdarstellung besitzen, lässt sich die Entwicklung bis zur Ordnung 2 sehr übersichtlich aufschreiben: \[f(x)=f(x_0)+\nabla f(x_0)\cdot(x-x_0)+\frac{1}{2}(x-x_0)^T\mathrm Hf(x_0)(x-x_0)+R_{2,x_0}(x).\] Bei $\nabla f(x_0)$ handelt es sich um den Gradienten von $f$ in $x_0$, und bei $\mathrm H f(x_0)$ um die Hessematrix in $x_0$. Sie ist die darstellende Matrix von $\D^2 f(x_0)$, sowohl als lineare Abbildung $\R^n\to\operatorname{Hom}(\R^n,\R)$, als auch als Bilinearform $\R^n\times\R^n\to\R$. Da die Einträge der Hessematrix gerade die zweiten partiellen Ableitungen von $f$ sind, und nach dem Satz von Schwarz partielle Ableitungen vertauschen, wenn sie in einer offenen Menge stetig sind, ist die Hessematrix für zweimal stetig differenzierbare Funktionen symmetrisch. Das erleichtert einem die Rechnung. Wir wollen sie mal für die Funktion \[f:\R^2\to\R,~f(x,y)=\exp(-(x^2+y^2))\] durchführen. Wir wählen als Entwicklungspunkt $(x_0,y_0)=(0,0)$. Wir erhalten $f(0,0)=1$ und $\nabla f(x,y)=-2\exp(-(x^2+y^2))\vector{x\\y}$, also $\nabla f(0,0)=(0,0)$. Fehlt noch die Hessematrix. Deren Einträge sind wie gesagt die zweiten partiellen Ableitungen: \[\begin{align*} \partial_x^2 f(x,y)&=(4x^2-2)\exp(-(x^2+y^2))\\ \partial_y^2 f(x,y)&=(4y^2-2)\exp(-(x^2+y^2))\\ \partial_y\partial_x f(x,y)&=4xy\exp(-(x^2+y^2)) \end{align*}\] Die partielle Ableitung $\partial_x\partial_y f$ brauchen wir nicht zu berechnen, denn sie ist mit $\partial_y\partial_x f$ identisch, da $f$ glatt, also insbesondere beliebig oft stetig differenzierbar ist. Einsetzen von $(0,0)$ ergibt die Hessematrix \[\mathrm Hf(0,0)=\matrix{-2&0\\0&-2}.\] Setzen wir alles zusammen, so erhalten wir die Taylorentwicklung zweiter Ordnung: \[\exp(-(x^2+y^2))\approx 1+\frac{1}{2}\vector{x&y}\matrix{-2&0\\0&-2}\vector{x\\y}=1-(x^2+y^2).\] Dazu ein Bildchen:
Die blaue Fläche stellt den Graphen von $f$ dar, das violette Paraboloid den Graphen des Taylorpolynoms $1-(x^2+y^2)$. Man sieht, wie sich das Paraboloid in der Umgebung des Entwicklungspunktes $(0,0)$ an den Graphen von $f$ anschmiegt. Ein visuell komplizierterer, von der Rechnung her fast identischer Fall ist die Funktion $f(x,y)=\exp(y^2-x^2)$. Die Hessematrix an der Stelle $(0,0)$ ist $\matrix{-2&0\\0&2}$ und die Taylorentwicklung ergibt $f(x,y)\approx 1+y^2-x^2$, und sieht so aus:
Die Farbwahl ist dieselbe: blau für $f$, violett für die Taylorentwicklung. Der Graph von $f$ wird diesmal durch ein hyperbolisches Paraboloid genähert, das sich in der Nähe des Entwicklungspunktes auch wieder an den Graphen von $f$ anschmiegt.
\(\endgroup\)
Get link to this article Get link to this article  Printable version Printer-friendly version -  Choose language     Kommentare zeigen Comments  
pdfFür diesen Artikel gibt es keine pdf-Datei


Arbeitsgruppe Alexandria Dieser Artikel ist im Verzeichnis der Arbeitsgruppe Alexandria eingetragen:
: Analysis :: automatisch eingefügt und unbearbeitet :
Die Taylorentwicklung mit linearer Algebra verstehen [von Vercassivelaunos]  
In diesem Artikel wird die Taylorentwicklung mit Hilfe multilinearer Abbildungen auch in mehreren Dimensionen auf die selbe Form gebracht, wie in einer Dimension. Die Voraussetzungen an Differenzierbarkeit und Stetigkeit der Ableitungen werden dabei so weit wie es nur geht abgeschwächt.
[Die Arbeitsgruppe Alexandria katalogisiert die Artikel auf dem Matheplaneten]

 
 
Aufrufzähler 652
 
Aufrufstatistik des Artikels
Insgesamt 97 externe Seitenaufrufe zwischen 2020.10 und 2021.10 [Anzeigen]
DomainAnzahlProz
https://google.com4546.4%46.4 %
https://google.de4546.4%46.4 %
https://www.bing.com33.1%3.1 %
https://www.startpage.com33.1%3.1 %
https://duckduckgo.com11%1 %

Aufrufer der letzten 5 Tage im Einzelnen
Insgesamt 7 Aufrufe in den letzten 5 Tagen. [Anzeigen]
DatumAufrufer-URL
2021.10.02-2021.10.25 (7x)https://google.com/

Häufige Aufrufer in früheren Monaten
Insgesamt 80 häufige Aufrufer [Anzeigen]
DatumAufrufer-URL
202104-06 (43x)https://google.de/
2020-2021 (37x)https://google.com/

[Top of page]

"Stern Mathematik: Die Taylorentwicklung mit linearer Algebra verstehen" | 1 Comment
The authors of the comments are responsible for the content.

Re: Die Taylorentwicklung mit linearer Algebra verstehen
von: LSRamone am: So. 10. Januar 2021 22:01:10
\(\begingroup\)Super Beitrag! bin interessierter Mathelaie und habe lange nach einem Artikel gesucht, wo erklärt wird, WARUM und UNTER WELCHEN BEDINGUNGEN eine Funktion sich durch eine Taylorreihe ausdrücken bzw. annähern lässt. In vielen Lehrbüchern, z.B. für Ingenieure, wird dies am Beispiel der e-Funktion vorgeführt und dann stillschweigend bei anderen Funktionen angewendet. Das finde ich etwas unbefriedigend und bin darum dankbar für diesen Beitrag. Meine Frage zum Beweis von SATZ 2: Taylorformel in einer Dimension für differenzierbare Funktionen: Ganz am Schluss des Beweises heißt es: "Da Rn+1,x0(0)=0..." Warum ist das so? Ist das Restglied nicht stattdessen an der Stelle x0 gleich 0? Irgendetwas verstehe ich da nicht, habe mir schon den Kopf zerbrochen aber ich komme einfach nicht drauf. Kann mir jemand weiterhelfen?\(\endgroup\)
 

 
All logos and trademarks in this site are property of their respective owner. The comments are property of their posters, all the rest © 2001-2021 by Matroids Matheplanet
This web site was originally made with PHP-Nuke, a former web portal system written in PHP that seems no longer to be maintained nor supported. PHP-Nuke is Free Software released under the GNU/GPL license.
Ich distanziere mich von rechtswidrigen oder anstößigen Inhalten, die sich trotz aufmerksamer Prüfung hinter hier verwendeten Links verbergen mögen.
Lesen Sie die Nutzungsbedingungen, die Distanzierung, die Datenschutzerklärung und das Impressum.
[Seitenanfang]