Tools
Mathematik: Mehrdimensionale Differentialrechnung - Teil I
Released by matroid on Mo. 19. Juni 2023 21:06:10 [Statistics] [Comments]
Written by nzimme10 - 454 x read [Outline] Printable version Printer-friendly version -  Choose language   
Analysis

\(\begingroup\)\(\renewcommand{\i}{\mathrm{i}} \renewcommand{\Re}{\operatorname{Re}} \renewcommand{\Im}{\operatorname{Im}} \newcommand{\e}{\mathrm{e}} \renewcommand{\d}{\mathrm{d}} \renewcommand{\dd}{\ \mathrm d} \newcommand{\ddz}{\frac{\mathrm{d}}{\mathrm{d}z}} \newcommand{\ddw}{\frac{\mathrm{d}}{\mathrm{d}w}} \newcommand{\ddt}{\frac{\mathrm{d}}{\mathrm{d}t}} \newcommand{\opn}{\operatorname} \newcommand{\rot}{\opn{rot}} \newcommand{\div}{\opn{div}} \renewcommand{\vec}[3]{\begin{pmatrix} #1 \\ #2 \\ #3 \end{pmatrix}}\)

Die mehrdimensionale Ableitung

Dies ist der erste Teil einer Reihe von Artikeln über mehrdimensionale Differentialrechnung. Dieser erste Teil beschäftigt sich mit der Verallgemeinerung der Ableitung aus Analysis I auf Funktionen mehrerer Veränderlicher (wie man so schön sagt). Eine Themenübersicht ist unter dieser Einleitung zu finden. Geplante weitere Teile dieser Reihe werden sich dann unter anderem mit folgenden Inhalten befassen: $\bullet$ Differentialformen vom Grad 1 auf $\mathbb R^n$, Integration solcher Differentialformen entlang Kurven & Anwendungen davon in der Physik (Vektoranalysis). $\bullet$ Höhere Ableitungen (mit und ohne Koordinaten) & der Satz von Taylor. $\bullet$ Der Satz über implizite Funktionen & der Umkehrsatz.

Themenübersicht

$\bullet$ Das Conceptum Crucis     $\bullet$ Erste Beispiele für das Differential     $\bullet$ Elementare Folgerungen aus der Definition $\bullet$ Das Hauptkriterium für Differenzierbarkeit     $\bullet$ Koordinatendarstellung des Differentials     $\bullet$ Alternative Koordinatendarstellung $\bullet$ Ein nützliches Kriterium & stetige Differenzierbarkeit $\bullet$ Kettenregel, Mittelwertsatz & Schrankensatz     $\bullet$ Die Kettenregel     $\bullet$ Der Mittelwertsatz     $\bullet$ Der Schrankensatz Wir setzen Grundkenntnisse der mengentheoretischen Topologie voraus, wie man sie üblicherweise am Anfang einer Analysis II Vorlesung zum ersten mal sieht.

Das Conceptum Crucis

Das zentrale Vorhaben dieses ersten Teils soll die Verallgemeinerung der aus der eindimensionalen Analysis bekannten Ableitung auf den $\mathbb R^n$ bzw. normierte Vektorräume sein. In der Analysis I (und oftmals in der Schule) begegnet man in der Regel zunächst folgender Definition: Es sei $f\colon I\to \mathbb R$ ($I\subseteq \mathbb R$ ein offenes Intervall) eine Funktion und $x_0\in I$. Man nennt $f$ in $x_0$ differenzierbar, wenn der mit $f'(x_0)$ bezeichnete Grenzwert $$ f'(x_0):=\lim_{h\to 0} \frac{f(x_0+h)-f(x_0)}{h} $$ existiert (und eine reelle Zahl ist, falls auch $\pm\infty$ als Grenzwerte zugelassen werden). Die Zahl $f'(x_0)$ nennt man gegebenenfalls die (erste) Ableitung von $f$ in $x_0$. Mit Hilfe dieser Definition kann man die wichtigsten Eigenschaften der Ableitung untersuchen und verifizieren. Wenn man sich dann aber die Sätze der eindimensionalen Theorie einmal genauer ansieht, stellt man fest, dass die Zahl $f'(x_0)$ selten für sich selbst genommen auftritt. Zum Beispiel sagt der Mittelwertsatz, dass $$ f(b)-f(a)=f'(\xi)(b-a) $$ für eine Zwischenstelle $\xi$ unter geeigneten Voraussetzungen gilt. Hier taucht in der Regel eher $f'(\xi)(b-a)$ als nur $f'(\xi)$ auf. Auch bei der Gleichung einer Tangenten von $f$ taucht die Zahl $f'(x_0)$ nicht für sich genommen auf, sondern in der Regel multipliziert mit einem Term der Form $x-x_0$, i.e. $$ T\colon \mathbb R\to \mathbb R, \ T(x)=f(x_0)+f'(x_0)(x-x_0) $$ ist die Tangente des Graphen von $f$ im Punkt $(x_0,f(x_0))$. Was ist so besonders an $f'(x_0)\cdot h$ für $h\in \mathbb R$? Wir bemerken zunächst, dass eine Abbildung $\mathbb R\to \mathbb R$, die die Form $h\mapsto ah$ für eine reelle Zahl $a$ besitzt, eine $\mathbb R$-lineare Abbildung ist. Ausgehend von $$ f'(x_0)=\lim_{h\to 0} \frac{f(x_0+h)-f(x_0)}{h} $$ erhalten wir durch eine einfache Umformung die äquivalente Aussage $$ \lim_{h\to 0} \frac{f(x_0+h)-f(x_0)-f'(x_0)h}{h}=0. $$ und haben damit (im Prinzip) den folgenden Satz bewiesen:
Satz. Es sei $f\colon I\to \mathbb R$ eine Funktion. Die folgenden Aussagen sind äquivalent: (i) $f$ ist differenzierbar in $x_0\in I$. (ii) Es gibt eine $\mathbb R$-lineare Abbildung $L_{x_0}\colon \mathbb R\to \mathbb R$ und eine Funktion $\varphi$, so dass $$ f(x_0+h)=f(x_0)+L_{x_0}(h)+\varphi(h) $$ für alle $h\in \mathbb R$ mit $x_0+h\in I$ und $$ \lim_{h\to 0} \frac{\varphi(h)}{|h|}=0. $$ gilt.
Falls es so eine lineare Abbildung $L_{x_0}$ gibt, so ist diese auch eindeutig bestimmt. Sind nämlich $L_1,L_2$ zwei solche Abbildungen mit "Fehlertermen" $\varphi_1$ und $\varphi_2$, so gilt für $t>0$ $$ (L_1-L_2)(1)=(L_1-L_2)\left(\frac{t}{|t|}\right)=\lim_{t\to 0^+}\frac{(L_1-L_2)(t)}{|t|}=\lim_{t\to 0^+}\frac{\varphi_2(t)}{|t|}-\lim_{t\to 0^+}\frac{\varphi_1(t)}{|t|}=0 $$ und somit $L_1(1)=L_2(1)$. Mit $$ L_1(h)=L_1(1)\cdot h=L_2(1)\cdot h=L_2(h) $$ folgt daher $L_1=L_2$. Die wichtigste Erkenntnis (das conceptum crucis) hierbei ist, dass "die Ableitung" als (lokale) Approximation einer (komplizierten) Funktion durch eine (einfache) lineare Abbildung aufgefasst werden kann. Diese Grundidee der linearen Approximation lässt sich natürlich 1:1 auf Funktionen $f\colon \mathbb R^n\to \mathbb R^m$ übertragen. Wir machen daher nun die für diesen Artikel zentrale
Definition. Es sei $U\subseteq \mathbb R^n$ offen und $f\colon U\to \mathbb R^m$ eine Funktion. Man nennt $f$ in $x_0\in U$ differenzierbar, falls es eine $\mathbb R$-lineare Abbildung $L_{x_0}\colon \mathbb R^n\to \mathbb R^m$ und eine Funktion $\varphi$ gibt, so dass $$ f(x_0+h)=f(x_0)+L_{x_0}(h)+\varphi(h) $$ für alle $h\in \mathbb R^n$ mit $x_0+h\in U$ und $$ \lim_{h\to 0} \frac{\varphi(h)}{\lVert h\rVert}=0\in \mathbb R^m $$ gilt. Dabei ist $\lVert \cdot \rVert$ eine beliebige Norm auf $\mathbb R^n$. $f$ heißt differenzierbar (auf $U$), wenn $f$ in jedem $x_0\in U$ differenzierbar ist.
Auch in diesem Fall ist solch eine lineare Abbildung (falls es überhaupt eine gibt) eindeutig bestimmt. Sind $L_1,L_2\colon \mathbb R^n\to \mathbb R^m$ nämlich zwei solche Abbildungen mit "Fehlertermen" $\varphi_1$ und $\varphi_2$, so gilt für alle $v\in \mathbb R^n$ mit $\lVert v\rVert=1$ $$ (L_1-L_2)(v)=\lim_{t\to 0^+}\frac{(L_1-L_2)(tv)}{\lVert t v\rVert}=\lim_{t\to 0^+}\frac{\varphi_2(tv)}{\lVert t v\rVert}-\lim_{t\to 0^+}\frac{\varphi_1(tv)}{\lVert t v\rVert}=0. $$ Da diese Vektoren ein Erzeugendensystem von $\mathbb R^n$ bilden, folgt $L_1-L_2\equiv 0$. Die lineare Abbildung $L_{x_0}$ nennt man im Falle der Existenz auch das Differential von $f$ in $x_0$ und schreibt $L_{x_0}=(Df)_{x_0}$ oder $L_{x_0}=(\mathrm{d}f)_{x_0}$ dafür.

Erste Beispiele für das Differential

Durch die bisherigen Überlegungen wissen wir, dass das Differential für jede differenzierbare Funktion $f\colon I\to \mathbb R$ existiert. Ist $f\colon I\to \mathbb R$ differenzierbar (im Sinne von Analysis I oder im Sinne der "neuen" Definition), dann existiert auch das Differential $(\d f)_{x_0}\colon \mathbb R\to \mathbb R$ und es gilt $$ (\d f)_{x_0}(h)=f'(x_0)\cdot h $$ für alle $h\in \mathbb R$. Ebenso sollte klar sein, dass alle $\mathbb R$-linearen Abbildungen $L\colon \mathbb R^n\to \mathbb R^m$ natürlich differenzierbar sind und ihre eigene "beste" lineare Approximation sind. Wir sehen das aber auch ganz einfach an der Definition: Für $x_0,h\in \mathbb R^n$ gilt in diesem Fall $$ L(x_0+h)=L(x_0)+L(h)=L(x_0)+L(h)+0. $$ Der "Fehlerterm" verschwindet hier sogar identisch. Folglich ist $L$ in $x_0$ differenzierbar und es gilt $(\d L)_{x_0}=L$ für alle $x_0\in \mathbb R^n$. Ähnliches findet man für affine Abbildungen $A\colon \mathbb R^n\to \mathbb R^m, \ x\mapsto L(x)+b$, wobei $L$ eine lineare Abbildung und $b\in \mathbb R^m$ ist. Wirklich interessant wird es also erst, wenn wir auch nicht-lineare Abbildungen betrachten. Ein typisches Beispiel, das jeder im Rahmen einer Analysis II Vorlesung behandeln wird, ist die Funktion $$ f\colon \mathbb R^2\to \mathbb R, \ f(x,y)=\begin{cases} (x^2+y^2) \sin \left(\frac{1}{x^2+y^2} \right), & (x,y) \neq (0,0)\\ 0, & (x,y)=(0,0) \end{cases}. $$ Wir fragen uns, ob diese Funktion in $(0,0)$ differenzierbar ist. Anschaulich wird der Graph von $f$ in der Nähe von $(0,0)$ von oben durch das Paraboloid $x^2+y^2=\lVert (x,y)\rVert^2$ und von unten durch das Paraboloid $-x^2-y^2$ beschränkt. Genauer haben wir $$ 0\leq |f(x,y)|\leq x^2+y^2=\lVert (x,y)\rVert^2 $$ für alle $(x,y)\in \mathbb R^2$. Intuitiv können wir daher Vermuten, dass die $xy$-Ebene in der Nähe von $(0,0)$ eine gute Approximation des Graphen von $f$ ist. Sei daher $L\colon \mathbb R^2\to \mathbb R$ die Nullabbildung, i.e. $L(h_1,h_2)=0$ für alle $(h_1,h_2)\in \mathbb R^2$. Mit $$ \varphi(h_1,h_2):=f(h_1,h_2) $$ haben wir $$ f((0,0)+(h_1,h_2))=f(0,0)+L(h_1,h_2)+\varphi(h_1,h_2) $$ für alle $(h_1,h_2)\in \mathbb R^2$. Außerdem ist $$ 0\leq \frac{|\varphi(h_1,h_2)|}{\lVert (h_1,h_2)\rVert}=\frac{|f(h_1,h_2)|}{\lVert (h_1,h_2)\rVert}\leq \frac{\lVert (h_1,h_2)\rVert^2}{\lVert (h_1,h_2)\rVert}=\lVert (h_1,h_2)\rVert $$ und somit $$ \lim_{(h_1,h_2)\to (0,0)}\frac{|\varphi(h_1,h_2)|}{\lVert (h_1,h_2)\rVert}=0. $$ $f$ ist also in $(0,0)$ tatsächlich differenzierbar und $(\d f)_{(0,0)}\colon \mathbb R^2\to \mathbb R$ ist die Nullabbildung.

Elementare Folgerungen aus der Definition

Bevor wir weitere Beispiele betrachten und die Theorie weiter ausbauen, wollen wir einige elementare Folgerungen aus der Definition der Differenzierbarkeit machen, die uns oft helfen werden. Eine häufig benutzte Tatsache ist, dass Differenzierbarkeit auch im Mehrdimensionalen die Stetigkeit nach sich zieht.
Satz. Ist $f\colon U\to \mathbb R^m$ in $x_0\in U$ total differenzierbar, so ist $f$ in $x_0$ stetig.
Beweis. Da $f$ in $x_0$ differenzierbar ist, gibt es eine Funktion $\varphi$ mit $\lim_{h\to 0} \varphi(h)/\lVert h\rVert=0$ und $$ f(x)=f(x_0)+(\d f)_{x_0}(x-x_0)+\varphi(x-x_0) $$ für alle $x\in U$. Also folgt $$ \lim_{x\to x_0} f(x) =f(x_0)+\lim_{x\to x_0} \left((\d f)_{x_0}(x-x_0)+\varphi(x-x_0)\right)=f(x_0), $$ da $(\d f)_{x_0}$ als lineare Abbildung zwischen endlich-dimensionalen normierten Räumen stetig ist und $(\d f)_{x_0}(0)=0$ gilt. $\square$ Natürlich haben wir wie in Analysis I auch direkt eine Aussage über die Differenzierbarkeit von Summen und skalaren Vielfachen von Funktionen.
Satz. Seien $U\subseteq \mathbb R^n$ offen und $f,g\colon U\to \mathbb R^m$ differenzierbare Abbildungen. Dann gilt: (i) Die Abbildung $f+g\colon U\to \mathbb R^m$ ist differenzierbar und es gilt $$ (\d (f+g))_x=(\d f)_{x}+(\d g)_{x} $$ für alle $x\in U$. (ii) Für jedes $\lambda\in \mathbb R$ ist die Abbildung $\lambda f\colon U\to \mathbb R^m$ total differenzierbar und es gilt $$ (\d (\lambda f))_x=\lambda \cdot (\d f)_{x} $$ für jedes $x\in U$.
Beweis. Wir zeigen exemplarisch die Aussage (i). (ii) zeigt man analog. Für festes $x\in U$ und $h\in \mathbb R^n$ mit $h\neq 0$ haben wir mit $L_x(h):=(\d f)_{x}(h)+(\d g)_{x}(h)$ $$ \begin{align*} \frac{(f+g)(x+h)-(f+g)(x)-L_x(h)}{\lVert h \rVert} = &\phantom{+}\frac{f(x+h)-f(x)-(\d f)_x(h)}{\lVert h\rVert}\\ &+\frac{g(x+h)-g(x)-(\d g)_x(h)}{\lVert h\rVert}. \end{align*} $$ Da $f$ und $g$ nach Voraussetzung in $x$ differenzierbar sind, haben wir daher $$ \lim_{h\to 0}\frac{(f+g)(x+h)-(f+g)(x)-L_x(h)}{\lVert h \rVert}=0. $$ Somit ist $f+g$ in $x$ total differenzierbar und es gilt $$ (\d (f+g))_x=L_x=(\d f)_{x}+(\d g)_{x}, $$ was zu zeigen war. $\square$ Analoga zu Produkt- und Kettenregel betrachten wir erst später. Als letzte elementare Folgerung aus der Definition, betrachten wir noch die Fragestellung, wie die Differenzierbarkeit einer Abbildung $f\colon\mathbb R^n\to \mathbb R^m$ mit der Differenzierbarkeit ihrer Komponentenfunktionen $f^j\colon \mathbb R^n\to \mathbb R$ zusammenhängt. Für einige Beweise und auch für die konkrete Anwendung ist folgender Satz sehr nützlich.
Satz. (Reduktionssatz) Sei $U\subseteq \mathbb R^n$ offen und $f=(f^1,\dots,f^m)\colon U\to \mathbb R^m$ eine Abbildung. $f$ ist genau dann in $x_0\in U$ differenzierbar, wenn $f^1,\dots,f^m \colon U\to \mathbb R$ in $x_0$ differenzierbar sind. Gegebenenfalls ist $$ (\d f)_{x_0}=(\d f^1)_{x_0}\times \dots\times (\d f^m)_{x_0}=((\d f^1)_{x_0},\dots,(\d f^m)_{x_0}). $$
Beweis. Wir betrachten den Fall $m=2$, da hier bereits die ganze Idee klar wird. Der Beweis der allgemeinen Situation ist daher eine gute Übung. Es sei zunächst $f=(f^1,f^2)\colon U\to \mathbb R^2$ in $x_0\in U$ differenzierbar. Wir haben somit $$ f(x_0+h)=f(x_0)+(\d f)_{x_0}(h)+\varphi(h) $$ für geeignete $h\in \mathbb R^n$ und $\lim_{h\to 0} \varphi(h)/\lVert h\rVert=0$. Es sei nun $\pi^1\colon \mathbb R^2\to \mathbb R, \ (x,y)\mapsto x$ die Projektion auf den ersten Eintrag und $L_1\colon \mathbb R^2\to \mathbb R$ gegeben durch $$ L_1(h):=\pi^1((\d f)_{x_0}(h)). $$ Folglich haben wir $$ f^1(x_0+h)=\pi^1(f(x_0+h))=f^1(x_0)+L_1(h)+\pi^1(\varphi(h)) $$ für geeignete $h\in \mathbb R^2$. Da $\pi^1$ als lineare Abbildung (auf einem endlich-dimensionalen normierten Raum) stetig ist, haben wir auch $$ \lim_{h\to 0} \frac{\pi^1(\varphi(h))}{\lVert h\rVert}=\lim_{h\to 0} \pi^1\left(\frac{\varphi(h)}{\lVert h\rVert}\right)=0. $$ Es folgt die Differenzierbarkeit von $f^1$ in $x_0$. Für $f^2$ ersetzt man $\pi^1$ durch die Projektion auf den zweiten Eintrag $\pi^2$. Umgekehrt sei nun $f=(f^1,f^2)\colon U\to \mathbb R^2$ eine Funktion, so dass $f^1$ und $f^2$ in $x_0\in U$ differenzierbar sind. Wir haben daher $$ f^j(x_0+h)=f^j(x_0)+(\d f^j)_{x_0}(h)+\varphi^j(h) $$ für geeignete $h$ und $\lim_{h\to 0} \varphi^j(h)/\lVert h\rVert=0$ für $j=1,2$. Nun ist $$ f(x_0+h)=(f^1(x_0+h),f^2(x_0+h))=f(x_0)+((\d f^1)_{x_0}(h),(\d f^2)_{x_0}(h))+\varphi(h), $$ wobei $\varphi(h)=(\varphi^1(h),\varphi^2(h))$. Bezüglich der euklidischen Norm (sogar bezüglich jeder Norm) auf $\mathbb R^2$ haben wir $$ \lim_{h\to 0} \frac{\varphi(h)}{\lVert h\rVert}=0 \iff \lim_{h\to 0} \frac{\varphi^1(h)}{\lVert h\rVert}=0 \text{ und } \lim_{h\to 0} \frac{\varphi^2(h)}{\lVert h\rVert}=0. $$ Da letztere Bedingung nach Voraussetzung erfüllt ist, folgt die Differenzierbarkeit von $f$ in $x_0$ und es gilt $(\d f)_{x_0}=((\d f^1)_{x_0},(\d f^2)_{x_0})$. $\square$

Das Hauptkriterium für Differenzierbarkeit

Mit Hilfe der Definition der Differenzierbarkeit konnten wir bereits ein paar Beispiele differenzierbarer Funktionen betrachten und einige grundlegende Eigenschaften des Differentials beweisen. Allerdings können wir bisher nicht unbedingt zeigen, dass eine bestimmte Funktion nicht differenzierbar ist. Es könnte ja sein, dass wir einfach noch nicht die "richtige" lineare Approximation gefunden haben und daher die Bedingung aus der Definition nicht erfüllen konnten. Andererseits wissen wir, dass das Differential, sofern existent, eindeutig bestimmt ist. Können wir etwas konkreter hinschreiben, wie das Differential einer differenzierbaren Funktion aussehen muss?

Koordinatendarstellung des Differentials

Es sei $U\subseteq \mathbb R^n$ offen und $f\colon U\to \mathbb R$ in $x_0\in U$ differenzierbar. Es sei $v\in \mathbb R^n$ beliebig und $r>0$ derart, dass $x_0+tv\in U$ für alle $t\in (-r,r)$ gilt (das geht, weil $U$ offen ist). Für $t\in (-r,r)$ gilt damit $$ f(x_0+tv)=f(x_0)+(\d f)_{x_0}(tv)+\varphi(tv), $$ wobei $\lim_{h\to 0}\varphi(h)/\lVert h\rVert=0$ gilt. Wegen $(\d f)_{x_0}(tv)=t\cdot(\d f)_{x_0}(v)$ haben wir somit $$ (\d f)_{x_0}(v)=\frac{f(x_0+tv)-f(x_0)}{t}-\frac{\varphi(t)}{t} $$ und daher $$ (\d f)_{x_0}(v)=\lim_{t\to 0}\frac{f(x_0+tv)-f(x_0)}{t}. $$
Definition. Es sei $U\subseteq \mathbb R^n$ offen und $f\colon U\to \mathbb R$ eine Funktion. Man nennt $f$ in $x_0\in U$ entlang des Vektors $v\in \mathbb R^n\setminus\lbrace 0\rbrace$ differenzierbar, wenn der Grenzwert $$ \nabla_vf(x_0):=\lim_{t\to 0} \frac{f(x_0+tv)-f(x_0)}{t} $$ existiert. Die reelle Zahl $\nabla_vf(x_0)$ nennt man im Falle der Existenz die Richtungsableitung von $f$ in $x_0$ entlang $v$. Ist $(e_1,\dots,e_n)$ die kanonische Basis von $\mathbb R^n$, dann schreiben wir gegebenenfalls $\partial_jf(x_0):=\nabla_{e_j}f(x_0)$. In diesem Fall nennt man die reelle Zahl $\partial_jf(x_0)$ auch die partielle Ableitung von $f$ in $x_0$ nach dem $j$-ten Eintrag.
Die Erkenntnis vor obiger Definition können wir mit Hilfe jener also wie folgt zusammenfassen:
Satz. Sei $U\subseteq \mathbb R^n$ offen und $f\colon U\to \mathbb R$ in $x_0\in U$ differenzierbar. Dann ist $f$ in $x_0$ entlang jedes Vektors differenzierbar und es gilt $$ \nabla_vf(x_0)=(\d f)_{x_0}(v) $$ für alle $v\in \mathbb R^n\setminus\lbrace 0\rbrace$.
Aus der Differenzierbarkeit von $f$ in $x_0$ folgt also sofort, dass in $x_0$ alle Richtungsableitungen von $f$ existieren. Umgekehrt ist die Existenz aller Richtungsableitungen aber nicht hinreichend für die Differenzierbarkeit, wie folgendes Beispiel zeigt.
Beispiel. Wir betrachten die Funktion $$ f\colon \mathbb R^2\to \mathbb R, \ f(x,y)=\begin{cases} \frac{xy^2}{x^2+y^4}, & (x,y)\neq(0,0) \\ 0, & (x,y)=(0,0) \end{cases}. $$ Für $(v_1,v_2)\neq(0,0)$ und $t\neq 0$ gilt dann $$ \frac{f(tv_1,tv_2)}{t}=\frac{tv_1\cdot t^2v_2^2}{t(t^2v_1^2+t^4v_2^4)}=\frac{v_1v_2^2}{v_1^2+t^2v_2^4} $$ und somit $$ \lim_{t\to 0}\frac{f(tv_1,tv_2)}{t}=\lim_{t\to 0}\frac{v_1v_2^2}{v_1^2+t^2v_2^4}=\begin{cases} \frac{v_2^2}{v_1}, & v_1\neq 0 \\ 0, & v_1=0 \end{cases}. $$ Daher ist $f$ in $(0,0)$ entlang jedes Vektors $v\in \mathbb R^2\setminus\lbrace (0,0)\rbrace$ differenzierbar. Betrachte nun die Parabel $x=y^2$ in $\mathbb R^2$. Für $y\neq 0$ gilt $$ f(y^2,y)=\frac{y^4}{y^4+y^4}=\frac{1}{2}. $$ Hingegen ist $f(0,0)=0$ und $(0,0)$ liegt auch auf dieser Parabel. Folglich ist $f$ in $(0,0)$ nicht stetig, obwohl dort alle Richtungsableitungen existieren! Da $f$ in $(0,0)$ nicht stetig ist, ist $f$ dort insbesondere auch nicht differenzierbar.
Ist nun allgemeiner $f=(f^1,\dots,f^m)\colon U\to \mathbb R^m$ in $x_0\in U$ differenzierbar, dann liefert der Reduktionssatz, dass $f^1,\dots,f^m$ in $x_0$ differenzierbar sind und $$ (\d f)_{x_0}(v)=((\d f^1)_{x_0}(v),\dots,(\d f^m)_{x_0}(v)) $$ gilt. Schreiben wir $v=\sum_{j=1}^n v^j e_j$, dann haben wir somit $$ \begin{align*} (\d f)_{x_0}(v) &=(\d f)_{x_0}\left(\sum_{j=1}^n v^j e_j\right)=\sum_{j=1}^n v^j (\d f)_{x_0}(e_j) =\sum_{j=1}^n v^j \vec{(\d f^1)_{x_0}(e_j)}{\vdots}{(\d f^m)_{x_0}(e_j)} \end{align*} $$ und wegen $$ (\d f^i)_{x_0}(e_j)=\nabla_{e_j}f^i(x_0)=\partial_j f^i(x_0) $$ somit insgesamt $$ (\d f)_{x_0}\begin{pmatrix} v^1 \\ v^2 \\ \vdots \\ v^n \end{pmatrix}=\begin{pmatrix} \partial_1 f^1(x_0) & \ldots & \partial_n f^1(x_0) \\ \partial_1 f^2(x_0) & \ldots & \partial_n f^2(x_0) \\ \vdots & \ddots & \vdots \\ \partial_1 f^m(x_0) & \dots & \partial_n f^m(x_0) \end{pmatrix}\cdot\begin{pmatrix} v^1 \\ v^2 \\ \vdots \\ v^n \end{pmatrix}. $$ Die darstellende Matrix des Differentials (man erinnere sich, dass das Differential an einem Punkt eine lineare Abbildung ist) bezüglich der kanonischen Basen hat als Einträge also die partiellen Ableitungen der Komponenten von $f$. Diese Matrix existiert demnach schon dann, wenn alle partiellen Ableitungen von allen Komponenten von $f$ existieren. Dies motiviert die folgende
Definition. Es sei $f=(f^1,\dots,f^m)\colon U\to \mathbb R^m$ eine Funktion derart, dass $f^1,\dots,f^m$ in $x_0\in U$ partiell differenzierbar sind. Die $m\times n$-Matrix $$ J_f(x_0):=\left(\partial_j f^i(x_0)\right)_{\substack{1\leq i \leq m \\ 1\leq j \leq n}}= \begin{pmatrix} \partial_1 f^1(x_0) & \ldots & \partial_n f^1(x_0) \\ \partial_1 f^2(x_0) & \ldots & \partial_n f^2(x_0) \\ \vdots & \ddots & \vdots \\ \partial_1 f^m(x_0) & \dots & \partial_n f^m(x_0) \end{pmatrix} $$ nennt man die Jacobi-Matrix von $f$ in $x_0$.
Insgesamt erhalten wir durch die Überlegungen in diesem Kapitel eine wichtige und nützliche Einsicht: Wenn die Komponenten $f^1,\dots,f^m$ einer Funktion $f\colon U\to \mathbb R^m$ in einem Punkt $x_0\in U$ alle partiell differenzierbar sind, so ist die lineare Abbildung $$ L_{x_0}\colon \mathbb R^n\to \mathbb R^m, \ h\mapsto J_f(x_0)\cdot h $$ der einzige Kandidat für das Differential von $f$ in $x_0$, da dieses im Falle der Existenz eindeutig bestimmt ist. Folglich muss man nur noch diese Abbildung in die Definition der totalen Differenzierbarkeit einsetzen und nachprüfen, ob die Definition damit erfüllt ist.
Beispiel. Wir haben nun also ein ganz konkretes Kriterium, um eine Funktion auf Differenzierbarkeit zu überprüfen. Insbesondere können wir nun auf einfache Weise herausfinden, ob eine konkrete Funktion es nicht ist. Ein Beispiel: Sei $g\colon\mathbb R^2 \to \mathbb R$ gegeben durch $$ g(x,y)=\begin{cases} \frac{x|y|}{\sqrt{x^2+y^2}}, & (x,y) \neq (0,0)\\ 0, & (x,y)=(0,0) \end{cases}. $$ $g$ ist in $(0,0)$ partiell differenzierbar, denn es ist $$ \partial_1g(0,0)=\lim_{h \to 0}\frac{g(h,0)-g(0,0)}{h} =\lim_{h \to 0} \frac{1}{h} \cdot \frac{h \cdot 0}{\sqrt{h^2}} =\lim_{h \to 0} \frac{0}{\sqrt{h^2}} =0 $$ sowie $$ \partial_2g(0,0)=\lim_{h \to 0}\frac{g(0,h)-g(0,0)}{h} =\lim_{h \to 0} \frac{1}{h} \cdot \frac{0 \cdot |h|}{\sqrt{h^2}} =\lim_{h \to 0} \frac{1}{h} \cdot \frac{0 \cdot |h|}{|h|}=\lim_{h \to 0} \frac{0}{h}= 0. $$ Mit $h=(h_1,h_2)^T$ gilt folglich $$ \begin{align*} &\lim_{h \to 0} \frac{g(h_1,h_2)-g(0,0)-J_g(0,0)h}{\lVert h\rVert}=\lim_{h \to 0} \frac{\frac{h_1 |h_2|}{\sqrt{h_1^2+h_2^2}}}{\sqrt{h_1^2+h_2^2}}=\lim_{h \to 0} \frac{h_1 |h_2|}{h_1^2+h_2^2}. \end{align*} $$ Wir betrachten nun die beiden Nullfolgen $((\tfrac 1n,\tfrac 1n))_{n\in \mathbb N}$ und $((\tfrac 2n,\tfrac 1n))_{n\in \mathbb N}$. Dann ist $$ \lim_{n\to \infty} \frac{\tfrac 1n\cdot |\tfrac 1n|}{(\tfrac 1n)^2+(\tfrac 1n)^2}=\lim_{n\to \infty}\frac{\tfrac{1}{n^2}}{\tfrac{2}{n^2}}=\lim_{n\to \infty} \frac 12=\frac 12 $$ aber $$ \lim_{n\to \infty} \frac{\tfrac 2n\cdot |\tfrac 1n|}{(\tfrac 2n)^2+(\tfrac 1n)^2}=\lim_{n\to \infty}\frac{\tfrac{2}{n^2}}{\tfrac{5}{n^2}}=\lim_{n\to \infty} \frac{2}{5}=\frac{2}{5}. $$ Folglich existiert der Grenzwert $$ \lim_{h \to 0} \frac{h_1 |h_2|}{h_1^2+h_2^2} $$ nicht und somit ist $g$ in $(0,0)$ nicht differenzierbar. (Wir hätten schon nach der ersten Nullfolge aufhören können, da diese uns gezeigt hat, dass der Grenzwert auf jeden Fall nicht Null ist).

Alternative Koordinatendarstellung

Abschließend wollen wir noch eine Koordinatendarstellung des Differentials angeben, die ohne Matrizen auskommt und z.B. in der Physik und der Differentialgeometrie häufig Verwendung findet. Betrachtet man die kartesischen Koordinaten auf $\mathbb R^n$ als die Abbildungen $$ x^j\colon \mathbb R^n\to \mathbb R, \ (p_1,\dots,p_n)\mapsto p_j, $$ so sind diese differenzierbar und folglich können wir dann deren Differential $(\d x^j)_{x_0}$ betrachten. Man überlegt sich leicht, dass für jedes $x_0\in \mathbb R^n$ und $(h_1,\dots,h_n)\in \mathbb R^n$ $$ (\d x^j)_{x_0}(h)=h_j $$ gilt. Bezüglich den kartesischen Koordinaten haben wir daher für eine in $x_0\in \mathbb R^n$ total differenzierbare Funktion $f\colon \mathbb R^n\to \mathbb R$ $$ (\d f)_{x_0}(h)=\sum_{j=1}^n \frac{\partial f}{\partial x^j}(x_0)\cdot h_j=\sum_{j=1}^n \frac{\partial f}{\partial x^j}(x_0) \ (\d x^j)_{x_0}(h) $$ beziehungsweise $$ (\d f)_{x_0}=\sum_{j=1}^n \frac{\partial f}{\partial x^j}(x_0) \ (\d x^j)_{x_0} $$ als Gleichung zwischen Abbildungen $\mathbb R^n\to \mathbb R$. Wenn $f$ überall differenzierbar ist, dann haben wir $$ \d f=\sum_{j=1}^n \frac{\partial f}{\partial x^j} \dd x^j $$ als Gleichung zwischen Abbildungen $\mathbb R^n\to L(\mathbb R^n,\mathbb R)$. Dabei ist $\frac{\partial f}{\partial x^j}$ in kartesischen Koordinaten nur eine andere Schreibweise für $\partial_j f$ (bezüglich anderen Koordinaten aber nicht). Insbesondere haben wir für eine differenzierbare Funktion $f\colon \mathbb R\to \mathbb R$ $$ \d f=f'\dd x, $$ wenn man die einzige kartesische Koordinate auf $\mathbb R$ mit $x$ bezeichnet (i.e. $x=\opn{id}_{\mathbb R}$). Ist allgemein $f\colon \mathbb R^n\to \mathbb R^m$ in $x_0$ differenzierbar, so hat man bezüglich den kartesischen Koordinaten $(x^1,\dots,x^n)$ auf $\mathbb R^n$ und $(y^1,\dots,y^m)$ auf $\mathbb R^m$ $$ (\d f)_{x_0}=\sum_{i=1}^m\sum_{j=1}^n \frac{\partial f^i}{\partial x^j}(x_0) \ (\d x^j)_{x_0}\otimes \left(\frac{\partial}{\partial y^i}\right)_{f(x_0)}\in (\mathbb R^n)^*\otimes \mathbb R^m. $$ Dabei kann man $\left(\frac{\partial}{\partial y^i}\right)_{f(x_0)}$ in diesem Fall mit dem kanonischen Basisvektor $e_i$ von $\mathbb R^m$ identifizieren, der durch $\mathbb R^m\cong(\mathbb R^m)^{**}$ als die lineare Abbildung $$ (\mathbb R^m)^*\to \mathbb R, \ \varphi\mapsto \varphi(e_i) $$ betrachtet wird.

Ein nützliches Kriterium & stetige Differenzierbarkeit

Wir haben bereits gesehen, dass aus der Existenz aller partieller Ableitungen (ja nicht einmal aus der Existenz aller Richtungsableitungen) nicht die Differenzierbarkeit folgt. Sind die partiellen Ableitungen $$ \partial_j f\colon U\to \mathbb R, \ x\mapsto \partial_jf(x) $$ allerdings stetig, dann sieht das anders aus. Allgemein haben wir den folgenden nützlichen
Satz. Sei $U\subseteq \mathbb R^n$ offen und $f=(f^1,\dots,f^m)\colon U \to \mathbb R^m$. Weiter seien $f^1,\dots,f^m$ auf $U$ partiell differenzierbar und alle partiellen Ableitungen $\partial_jf^i$ in $x_0\in U$ stetig. Dann ist $f$ in $x_0$ differenzierbar.
Beweis. O.B.d.A. sei $m=1$ (Warum?). Seien $r>0$ derart, dass $B_r(x_0)\subseteq U$ ist und $h=(h_1,\dots,h_n)\in B_r(0)$ beliebig. Für $0\leq k \leq n-1$ betrachte nun die Punkte $$ y^{(0)}:= x_0, \quad y^{(k+1)}=y^{(k)}+h_{k+1}e_{k+1}. $$ Betrachte weiter für $1\leq j\leq n$ die Funktion $g_j\colon I_j\subseteq \mathbb R\to \mathbb R, \ g_j(t)=f(y^{(j-1)}+te_j)$ mit einem Intervall $I_j\subseteq \mathbb R$ wobei $0,h_j\in I_j$. Da $f$ partiell differenzierbar ist, ist $g_j$ differenzierbar und daher gibt es nach dem Mittelwertsatz der Differentialrechnung ein $\theta_j$ zwischen $0$ und $h_j$ derart, dass $$ f(y^{(j)})-f(y^{(j-1)})=g_j(h_j)-g_j(0)=g_j'(\theta_j)h_j=\partial_jf(y^{(j-1)}+\theta_je_j)h_j. $$ Mit $z^{(j)}:=y^{(j-1)}+\theta_je_j$ erhalten wir also $$ f(x_0+h)-f(x_0)=f(y^{(n)})-f(y^{(0)})=\sum_{j=1}^{n} \left(f(y^{(j)})-f(y^{(j-1)}) \right)=\sum_{j=1}^{n} \partial_jf(z^{(j)})h_j. $$ Sei nun $L_{x_0}\colon \mathbb R^n\to \mathbb R, \ h\mapsto \sum_{j=1}^n\partial_jf(x_0) h_j$. Mit $$ \varphi(h):=\sum_{j=1}^n \left(\partial_jf(z^{(j)})-\partial_jf(x_0)\right)h_j $$ gilt dann $$ f(x_0+h)=f(x_0)+L_{x_0}(h)+\varphi(h) $$ sowie $$ \frac{|\varphi(h)|}{\lVert h\rVert}\leq \sum_{j=1}^n \left|\partial_jf(z^{(j)})-\partial_jf(x_0)\right|\cdot \frac{|h_j|}{\lVert h\rVert}\overset{h\to 0}{\longrightarrow} 0, $$ da $\partial_j f$ in $x_0$ stetig ist und $z^{(j)}\overset{h\to 0}{\longrightarrow} x_0$. Also ist $f$ in $x_0$ differenzierbar. $\square$ Wenn die partiellen Ableitungen stetig sind, dann ist das nach obigem Satz hinreichend für die Differenzierbarkeit. Notwendig ist diese Bedingung nicht - das zeigen schon Beispiele aus Analysis I. Ein typisches mehrdimensionales Beispiel dafür, ist die Funktion $f\colon \mathbb R^2 \to \mathbb R$ gegeben durch $$ f(x,y)=\begin{cases} (x^2+y^2) \sin \left(\frac{1}{x^2+y^2} \right), & (x,y) \neq (0,0)\\ 0, & (x,y)=(0,0) \end{cases}, $$ von deren totalen Differenzierbarkeit wir uns bereits überzeugt haben. Die partiellen Ableitungen von $f$ sind in $(0,0)$ nicht stetig. Bei der eindimensionalen Schwester $x\mapsto x^2\sin(1/x^2)$ von $f$ ist es so, dass die Ableitung in $0$ und somit auch das Differential dieser Funktion in $0$ nicht stetig ist. Wie sieht das im Mehrdimensionalen aus? Wie hängt die Stetigkeit der partiellen Ableitungen mit der Stetigkeit des Differentials $\d f$ zusammen? Wir untersuchen diese Fragestellung recht allgemein im folgenden
Satz. Seien $(X,\mathcal T)$ ein topologischer Raum, $(V,\lVert\cdot\rVert_V)$ und $(W,\lVert\cdot\rVert_W)$ endlich-dimensionale normierte $K$-Vektorräume und $L(V,W)$ versehen mit der von $\lVert\cdot\rVert_V$ und $\lVert\cdot\rVert_W$ induzierten Operatornorm $\lVert\cdot\rVert_{\mathrm{op}}$. Dann ist eine Abbildung $$ F\colon X\to L(V,W) $$ genau dann in $x_0\in X$ stetig, wenn für jedes $v\in V$ die Abbildung $$ F_v\colon X\to W, \ x\mapsto F(x)(v) $$ in $x_0$ stetig ist.
\showon Beweis. Es sei $n=\dim_K(V)$, $m=\dim_K(W)$, $B$ eine Basis von $V$, $C$ eine Basis von $W$ mit zugehörigen Isomorphismen $\sigma_B$ bzw. $\sigma_C$ sowie $\Phi:=\Phi^B_C\colon L(V,W)\to K^{m\times n}$ der zugehörige Isomorphismus. Wegen $\dim_K(L(V,W))<\infty$ ist $\Phi$ sogar ein Homöomorphismus und $F$ daher genau dann stetig, wenn $\varphi:=\Phi\circ F\colon X\to K^{m\times n}$ stetig ist. Nun ist die Abbildung $\varphi$ genau dann stetig, wenn ihre $m\cdot n$ Komponentenfunktionen $\varphi^i_j\colon X\to K$ es sind. Das ist wiederum genau dann der Fall, wenn die $n$ Abbildungen $$ \tilde \varphi_j\colon X\to K^m, \ x\mapsto \vec{\varphi^1_j(x)}{\vdots}{\varphi^m_j(x)}=\varphi(x)\cdot e_j $$ stetig sind, wobei $e_1,\dots,e_n$ die kanonische Basis von $K^n$ ist. Das ist wegen $$ \varphi(x)\cdot \tilde v=\sum_{j=1}^n \tilde v^j \varphi(x)\cdot e_j=\sum_{j=1}^n \tilde v^j\tilde \varphi_j(x) $$ äquivalent dazu, dass für jedes $\tilde v\in K^n$ die Abbildung $$ \varphi_{\tilde v}\colon X\to K^m, \ x\mapsto \varphi(x)\cdot \tilde v $$ stetig ist. Letzteres ist abschließend wegen $$ \sigma_C^{-1}(F_v(x))=\Phi(F(x))\cdot \sigma_B^{-1}(v)=\varphi(x)\cdot \sigma_B^{-1}(v)=\varphi_{\sigma_B^{-1}(v)}(x) \iff F_v=\sigma_C\circ \varphi_{\sigma_B^{-1}(v)} $$ äquivalent dazu, dass $F_v$ für jedes $v\in V$ stetig ist. \showoff Für unsere ursprüngliche Frage bemerken wir, dass das Differential $\d f$ einer differenzierbaren Funktion $f\colon U\to \mathbb R^m$ eine Abbildung $\d f\colon U\to L(\mathbb R^n,\mathbb R^m)$ ist und erhalten das folgende
Korollar. Es sei $U\subseteq \mathbb R^n$ offen und $f=(f^1,\dots,f^m)\colon U\to \mathbb R^m$ differenzierbar. Dann ist das Differential $$ \d f\colon U\to L(\mathbb R^n,\mathbb R^m), \ x\mapsto (\d f)_x $$ genau dann in $x_0\in U$ stetig, wenn alle partiellen Ableitungen $$ \partial_j f^i\colon U\to \mathbb R, \ x\mapsto \partial_jf(x) $$ in $x_0$ stetig sind.
Wir machen abschließend noch die folgende Definition.
Definition. Sei $U\subseteq \mathbb R^n$ offen. Eine Abbildung $f\colon U\to \mathbb R^m$ heißt stetig differenzierbar, wenn $f$ total differenzierbar und das Differential $\d f\colon U\to L(\mathbb R^n,\mathbb R^m), \ x\mapsto (\d f)_x$ stetig ist. Für die Menge aller stetig differenzierbaren Abbildungen $U\to \mathbb R^m$ schreiben wir $C^1(U,\mathbb R^m)$.

Kettenregel, Mittelwertsatz & Schrankensatz

Zum Abschluss dieses ersten Teils der mehrdimensionalen Differentialrechnung wollen wir einen zentralen Satz der eindimensionalen Analysis - den Mittelwertsatz - auch auf das mehrdimensionale Setting erweitern. Ein sehr wichtiges Hilfsmittel dafür ist die Kettenregel.

Die Kettenregel

Die Kettenregel ist wohl die mit Abstand wichtigste Differentiationsregel. Sie schlägt die Brücke zwischen der eindimensionalen und der mehrdimensionalen Analysis und erlaubt uns, zentrale Sätze wie den Mittelwertsatz und den Satz von Taylor mühelos auf mehrere Veränderliche zu übertragen.
Satz. Sei $U\subseteq \mathbb R^n$ offen, $V\subseteq \mathbb R^m$ offen, $f\colon U\to \mathbb R^m$ mit $f(U)\subseteq V$ sowie $g\colon V\to \mathbb R^\ell$. Ist $f$ in $x\in U$ differenzierbar und $g$ in $f(x)\in V$ differenzierbar, dann ist $g\circ f\colon U\to \mathbb R^\ell$ in $x$ differenzierbar und es gilt $$ (\d (g\circ f))_x=(\d g)_{f(x)}\circ (\d f)_x. $$
Oftmals sind auch die folgenden Varianten mit der Jacobi-Matrix oder den partiellen Ableitungen sehr nützlich. In der Situation des obigen Satzes gilt $$ J_{g\circ f}(x)=J_g(f(x))\cdot J_f(x) $$ beziehungsweise $$ \partial_j (g\circ f)^i(x)=\sum_{k=1}^m \partial_k g^i(f(x))\cdot \partial_j f^k(x). $$ für $i=1,\dots,\ell$ und $j=1,\dots,n$. Beweis der Kettenregel. Es sei $y:=f(x)$. Nach Definition der Differenzierbarkeit gilt $$ f(x+h)=f(x)+(\d f)_x(h)+\lVert h\rVert\phi_1(h) \text{ mit } \lim_{h\to 0}\phi_1(h)=0 $$ sowie $$ g(y+k)=g(y)+(\d g)_y(k)+\lVert k\rVert\phi_2(k) \text{ mit } \lim_{k\to 0}\phi_2(k)=0. $$ Mit $k(h):=(\d f)_x(h)+\lVert h\rVert\phi_1(h)$ haben wir somit $$ \begin{align*} (g\circ f)(x+h) &=g(f(x+h))=g(y+k(h)) \\ &=g(y)+(\d g)_y(k(h))+\lVert k(h)\rVert\phi_2(k(h)) \\ &=g(y)+(\d g)_y((\d f)_x(h))+(\d g)_y(\lVert h\rVert\phi_1(h))+\lVert k(h)\rVert\phi_2(k(h)) \\ &=(g\circ f)(x)+((\d g)_{f(x)}\circ (\d f)_x)(h)+\psi(h), \end{align*} $$ wobei $$ \psi(h):=(\d g)_y(\lVert h\rVert\phi_1(h))+\lVert k(h)\rVert\phi_2(k(h)). $$ Es bleibt zu zeigen, dass $$ \lim_{h\to 0} \frac{\psi(h)}{\lVert h\rVert}=0 $$ gilt. Zunächst ist $$ \frac{\psi(h)}{\lVert h\rVert}=(\d g)_y\left(\phi_1(h)\right)+\frac{\lVert k(h)\rVert}{\lVert h\rVert}\phi_2(k(h)). $$ Da $\phi_1(h)\to 0$ für $h\to 0$, folgt $$ \lim_{h\to 0}(\d g)_y\left(\phi_1(h)\right)=0 $$ mit der Stetigkeit von $(\d g)_y$. Da $(\d f)_x$ stetig ist, gibt es ein $C\geq 0$ mit $\lVert (\d f)_x(h)\rVert\leq C\cdot \lVert h\rVert$ für alle $h\in \mathbb R^n$. Folglich gilt $$ \lVert k(h)\rVert=\lVert (\d f)_x(h)+\lVert h\rVert\phi_1(h)\rVert\leq C\cdot \lVert h\rVert +\lVert h\rVert\lVert \phi_1(h)\rVert =(C+\lVert \phi_1(h)\rVert)\lVert h\rVert \overset{h\to 0}{\longrightarrow} 0. $$ Somit gilt $$ 0\leq \frac{\lVert k(h)\rVert}{\lVert h\rVert}\lVert \phi_2(k(h))\rVert \leq (C+\lVert \phi_1(h)\rVert) \lVert \phi_2(k(h))\rVert\overset{h\to 0}{\longrightarrow} 0. $$ Insgesamt gilt daher $\frac{\psi(h)}{\lVert h\rVert}\to 0$ für $h\to 0$, was zu zeigen war. $\square$ Die Anwendung der mehrdimensionalen Kettenregel in ihren verschiedenen Formen gilt es sicherlich zu üben. Wir verzichten daher an dieser Stelle auf konkrete Beispiele. Die Beweise in den folgenden Kapiteln zeigen aber, wie die Kettenregel in Beweisen häufig benutzt wird. Als eine nette Übungsaufgabe überlassen wir dem Leser den Beweis einer sehr allgemeinen Form der Produktregel:
Übung. Eine zur Produktregel aus Analysis I analoge Aussage können wir natürlich nur erwarten, wenn wir Abbildungen $\mathbb R^n\to \mathbb R$ betrachten. Ansonsten ist nicht klar, was mit dem Produkt zweier Abbildungen gemeint sein soll. Da die Multiplikation $\mathbb R\times \mathbb R\to \mathbb R$ eine bilineare Abbildung ist, können wir das Konzept des punktweisen Produktes zweier Funktionen allerdings wesentlich verallgemeinern:
Definition. Es seien $X$ eine Menge, $V,W$ und $Z$ Vektorräume über einem Körper $K$ und $\beta\colon V\times W\to Z$ eine $K$-bilineare Abbildung. Für Abbildungen $f\colon X\to V$ und $g\colon X\to W$ definieren wir eine neue Abbildung $$ f\times_\beta g\colon X\to Z, \ x\mapsto \beta(f(x),g(x)). $$
Das punktweise Produkt $f\cdot g$ zweier Abbildungen $f,g\colon \mathbb R^n\to \mathbb R$ ist damit lediglich ein Spezialfall der obigen Definition. Man hat nun eine sehr allgemeine Produktregel:
Satz. Seien $U\subseteq \mathbb R^n$ offen, $f\colon U\to \mathbb R^m$ und $g\colon U\to \mathbb R^k$ in $x\in U$ differenzierbar sowie $\beta\colon \mathbb R^m\times \mathbb R^k\to \mathbb R^\ell$ eine $\mathbb R$-bilineare Abbildung. Dann ist $f\times_\beta g\colon U\to \mathbb R^\ell$ in $x$ differenzierbar und es gilt $$ (\d (f\times_\beta g))_{x}(h)=\beta((\d f)_{x}(h),g(x))+\beta(f(x),(\d g)_{x}(h)) $$ für alle $h\in \mathbb R^n$.
Für $f,g\colon \mathbb R\to \mathbb R$ und $\beta$ die Multiplikation auf $\mathbb R$ ist das die bekannte Leibnizsche Produktregel aus Analysis I. Ein weiteres Beispiel ist die Produktregel für das Kreuzprodukt:
Beispiel. Es sei $\times$ das Kreuzprodukt auf $\mathbb R^3$. Für die Tangentialvektoren differenzierbarer Kurven $\gamma,\delta\colon I\to \mathbb R^3$ gilt dann nach der allgemeinen Produktregel $$ (\gamma \times \delta)'=\gamma'\times\delta+\gamma\times \delta'. $$

Der Mittelwertsatz

Wir führen zunächst eine nützliche Bezeichnung ein.
Definition. Seien $x,y\in \mathbb R^n$. Dann schreiben wir $$ [x,y]:=\lbrace (1-t)x+ty\mid 0\leq t\leq 1\rbrace\subseteq \mathbb R^n $$ für die Verbindungsstrecke von $x$ und $y$.
Mit dieser Bezeichnung erhalten wir eine Verallgemeinerung des Mittelwertsatzes aus Analysis I und sehen dabei, wie die Kettenregel hilft, die Verbindung zu Analysis I herzustellen.
Satz. Sei $U\subseteq \mathbb R^n$ offen, $f\colon U\to \mathbb R$ differenzierbar und $x,y\in U$ mit $[x,y]\subseteq U$. Dann gibt es ein $\xi\in [x,y]$ mit $$ f(y)-f(x)=(\d f)_\xi(y-x). $$
Für $n=1$ ist das der Mittelwertsatz aus Analysis I: es gibt ein $\xi$ zwischen $x$ und $y$ mit $f(y)-f(x)=f'(\xi)(y-x)$. Beweis. Es sei $\gamma\colon [0,1]\to U$ mit $\gamma(t)=(1-t)x+ty$ eine Parametrisierung von $[x,y]$. Dann ist $\gamma$ differenzierbar und es gilt $\gamma'(t)=y-x$ für alle $t\in [0,1]$. Folglich ist $f\circ \gamma\colon [0,1]\to \mathbb R$ differenzierbar und nach der Kettenregel gilt $$ (f\circ \gamma)'(t)=\partial_1 (f\circ \gamma)(t)=\sum_{k=1}^n \partial_k f(\gamma(t))\cdot \partial_1\gamma^k(t)=(\d f)_{\gamma(t)}(\gamma'(t))=(\d f)_{\gamma(t)}(y-x). $$ Nach dem eindimensionalen Mittelwertsatz gibt es ein $t_0\in (0,1)$ derart, dass $$ f(y)-f(x)=(f\circ \gamma)(1)-(f\circ \gamma)(0)=(f\circ \gamma)'(t_0)=(\d f)_{\gamma(t_0)}(y-x) $$ gilt. Mit $\xi:=\gamma(t_0)$ folgt die Behauptung. $\square$ Auch im mehrdimensionalen erhalten wir damit ein nützliches Kriterium für die Konstanz einer Funktion.
Satz. Es sei $G\subseteq \mathbb R^n$ ein Gebiet und $f\colon G\to \mathbb R^m$ differenzierbar mit $(\d f)_x\equiv 0$ für alle $x\in G$. Dann ist $f$ konstant.
Beweis. Da $f$ genau dann konstant ist, wenn jede Komponente von $f$ konstant ist, können wir o.B.d.A. annehmen, dass $m=1$ ist. Sei nun $x_0\in G$ fest. Da $G$ wegzusammenhängend ist, gibt es für jedes $x\in G$ einen Streckenzug $[x_0,x_1]\cup\dots\cup[x_{j-1},x]\subseteq G$ von $x_0$ nach $x$. Nach dem Mittelwertsatz gilt $$ f(x_i)-f(x_{i-1})=(\d f)_{\xi_i}(x_i-x_{i-1})=0 $$ für Zwischenstellen $\xi_i\in [x_i,x_{i-1}]$. Folglich gilt $$ f(x)-f(x_0)=f(x)-f(x_{j-1})+f(x_{j-1})-f(x_{j-2})\pm\dots +f(x_1)-f(x_0)=0 $$ und daher $f(x)=f(x_0)$ für alle $x\in G$. $\square$ Auch hier gilt der Satz natürlich nur, wenn $G$ zusammenhängend ist. Sonst liefern schon die Argumente aus Analysis I genügend Gegenbeispiele.

Der Schrankensatz

Man beachte, dass der Mittelwertsatz nicht für Funktionen $f\colon \mathbb R^n\to \mathbb R^m$ mit $m\geq 2$ gilt. Das Problem dabei ist, dass der obige Mittelwertsatz für jede Komponente von $f$ verschiedene Zwischenstellen liefern kann und nicht sichergestellt ist, dass man eine Zwischenstelle findet, die für jede Komponente von $f$ gleichzeitig funktioniert.
Beispiel. Wir betrachten die Funktion $$ f\colon \mathbb R\to \mathbb R^2, \ f(x)=(x^2,x^3). $$ Angenommen es gibt ein $\xi\in [0,1]\subseteq \mathbb R$ mit $$ f(1)-f(0)=(\d f)_\xi(1-0)=(2\xi,3\xi^2). $$ Wegen $f(1)-f(0)=(1,1)$, folgt $1=2\xi$ und $1=3\xi^2$. Aus der ersten Gleichung folgt $\xi=1/2$. Allerdings ist $3(1/2)^2=3/4\neq 1$. So eine Zwischenstelle $\xi$ kann es in diesem Fall also nicht geben!
Man kann in diesem Fall aber zumindest noch Hoffnung auf eine gute Abschätzung von $\lVert f(y)-f(x)\rVert$ haben. Solch eine Abschätzung liefert der Schrankensatz. Dazu definieren wir zunächst das Integral von vektorwertigen Funktionen.
Definition. Seien $a,b\in \mathbb R$ und $\gamma=(\gamma^1,\dots,\gamma^m)\colon [a,b]\to \mathbb R^m$ stetig. Dann setzen wir $$ \int_a^b \gamma(t)\dd t:=\begin{pmatrix} \int_a^b \gamma^1(t)\dd t \\ \vdots \\ \int_a^b \gamma^m(t)\dd t \end{pmatrix}\in \mathbb R^m. $$
Mit dieser naheliegenden Definition erhalten wir den folgenden Satz, der den obigen Mittelwertsatz verallgemeinert. Letzterer liefert für $m\geq 2$ für jede Komponente von $f$ im Allgemeinen eine von den anderen Komponenten unabhängige Zwischenstelle. Wenn die betrachtete Funktion sogar stetig differenzierbar ist (was man für den Mittelwertsatz nicht benötigt!), dann kann man diese Abweichungen der einzelnen Komponenten aber "mitteln" und erhält damit die folgende Aussage, die manchmal auch als Mittelwertsatz bezeichnet wird. Man vergleiche die folgende Aussage mit dem Fundamentalsatz der Analysis.
Satz. Sei $U\subseteq \mathbb R^n$ offen, $f\colon U\to \mathbb R^m$ stetig differenzierbar und $x,y\in U$ mit $[x,y]\subseteq U$. Dann gilt $$ f(y)-f(x)=\int_0^1 (\d f)_{(1-t)x+ty}(y-x) \dd t. $$
Beweis. Sei $\gamma\colon [0,1]\to U$ gegeben durch $\gamma(t):=(1-t)x+ty$. Mit dem Fundamentalsatz der Analysis gilt dann $$ \begin{align*} f(y)-f(x)&=f(\gamma(1))-f(\gamma(0))= \begin{pmatrix} f^1(\gamma(1))-f^1(\gamma(0)) \\ \vdots \\ f^m(\gamma(1))-f^m(\gamma(0)) \end{pmatrix} =\begin{pmatrix} \int_0^1 (f^1\circ \gamma)'(t) \dd t \\ \vdots \\ \int_0^1 (f^m\circ \gamma)'(t) \dd t \end{pmatrix} \\ &=\int_0^1 (\d (f\circ \gamma))_t(1) \dd t=\int_0^1 ((\d f)_{\gamma(t)}\circ (\d \gamma)_t)(1) \dd t \\ &=\int_0^1 (\d f)_{(1-t)x+ty}(y-x) \dd t, \end{align*} $$ was zu zeigen war. $\square$ Um den Schrankensatz zu beweisen, benötigen wir noch die Dreiecksungleichung für das "neue" Integral.
Lemma. Seien $a,b\in \mathbb R$ und $\gamma=(\gamma^1,\dots,\gamma^m)\colon [a,b]\to \mathbb R^m$ stetig. Dann gilt $$ \left\lVert \int_a^b \gamma(t)\dd t\right\rVert_2\leq \int_a^b \lVert\gamma(t)\rVert_2\dd t. $$
\showon Beweis. Sei $u:=\int_a^b \gamma(t)\dd t$. Für $u=0$ ist die Behauptung klar. Sei daher $u\neq 0$. Dann gilt $$ \lVert u\rVert_2^2=\langle u,u\rangle=\int_a^b \langle \gamma(t),u\rangle \dd t. $$ Nach der Cauchy-Schwarz-Ungleichung gilt $\langle \gamma(t),u\rangle\leq \lVert \gamma(t)\rVert_2\cdot \lVert u\rVert_2$. Somit gilt $$ \lVert u\rVert_2^2=\int_a^b \langle \gamma(t),u\rangle \dd t\leq \lVert u\rVert_2 \cdot\int_a^b \lVert \gamma(t)\rVert_2 \dd t. $$ $\square$ \showoff
Satz. (Schrankensatz) Sei $U\subseteq \mathbb R^n$ offen und $x,y\in U$ mit $[x,y]\subseteq U$. Ist $f\colon U\to \mathbb R^m$ stetig differenzierbar, dann gilt $$ \lVert f(y)-f(x)\rVert \leq \left(\sup_{z\in [x,y]}\lVert (\d f)_z\rVert_{\operatorname{op}}\right)\cdot \lVert y-x\rVert. $$
Beweis. Wir haben $$ \begin{align*} \lVert f(y)-f(x)\rVert &=\left\lVert \int_0^1 (\d f)_{(1-t)x+ty}(y-x) \dd t\right\rVert \leq \int_0^1 \left\lVert (\d f)_{(1-t)x+ty}(y-x)\right\rVert \dd t \\ &\leq \int_0^1 \left\lVert (\d f)_{(1-t)x+ty}\right\rVert_{\operatorname{op}}\cdot \lVert y-x\rVert \dd t \\ &\leq \int_0^1 \left(\sup_{z\in[x,y]}\lVert (\d f)_{z}\rVert_{\operatorname{op}}\right)\cdot \lVert y-x\rVert \dd t \\ &=\left(\sup_{z\in [x,y]}\lVert (\d f)_z\rVert_{\operatorname{op}}\right)\cdot \lVert y-x\rVert, \end{align*} $$ wobei das Supremum aufgrund der Stetigkeit des Differentials von $f$ und der Kompaktheit von $[x,y]$ existiert. $\square$ Der Schrankensatz spielt in vielen Beweisen eine wichtige Rolle. Wir werden ihn in Zukunft zum Beispiel beim Satz über implizite Funktionen bzw. beim Umkehrsatz wiedersehen. Auch beim Satz von Taylor kann er Verwendung finden. Zum Schluss folgt noch eine ebenfalls häufig als Schranksatz zitierte Aussage:
Korollar. Sei $U\subseteq \mathbb R^n$ offen, $K\subseteq U$ konvex und kompakt und $f\colon U\to \mathbb R^m$ stetig differenzierbar. Dann gilt $$ \lVert f(y)-f(x)\rVert \leq \left(\sup_{z\in K}\,\lVert (\d f)_z\rVert_{\operatorname{op}}\right) \cdot\lVert y-x\rVert. $$ für alle $x,y\in K$. Insbesondere ist $f$ lokal Lipschitz-stetig.

\(\endgroup\)
Get link to this article Get link to this article  Printable version Printer-friendly version -  Choose language     Kommentare zeigen Comments  
pdfFür diesen Artikel gibt es keine pdf-Datei


Arbeitsgruppe Alexandria Dieser Artikel ist im Verzeichnis der Arbeitsgruppe Alexandria eingetragen:
: Analysis :: Ableitung :: Differential :: Differenzierbarkeit :: Mehrdimensionale Analysis :: Kettenregel :
Mehrdimensionale Differentialrechnung - Teil I [von nzimme10]  
Dies ist der erste Teil einer Reihe von Artikeln über mehrdimensionale Differentialrechnung. Dieser erste Teil beschäftigt sich mit der Verallgemeinerung der Ableitung aus Analysis I auf Funktionen mehrerer Veränderlicher.
[Die Arbeitsgruppe Alexandria katalogisiert die Artikel auf dem Matheplaneten]
 


 
Kommentare zum Inhalt bitte im Inhalte-Thread, Kommentare zur Gestaltung
bitte im Form-Thread. Klicke auf die passende Registerkarte.

Noch keine Kommentare hier


Noch keine Kommentare hier



 
Aufrufzähler 454
 
Aufrufstatistik des Artikels
Insgesamt 7 externe Seitenaufrufe zwischen 2023.06 und 2023.09 [Anzeigen]
DomainAnzahlProz
https://google.de114.3%14.3 %
https://matheplanet.com114.3%14.3 %
https://google.com571.4%71.4 %

Häufige Aufrufer in früheren Monaten
Insgesamt 5 häufige Aufrufer [Anzeigen]
DatumAufrufer-URL
202306-08 (5x)https://google.com/


[Top of page]



 
All logos and trademarks in this site are property of their respective owner. The comments are property of their posters, all the rest © 2001-2023 by Matroids Matheplanet
This web site was originally made with PHP-Nuke, a former web portal system written in PHP that seems no longer to be maintained nor supported. PHP-Nuke is Free Software released under the GNU/GPL license.
Ich distanziere mich von rechtswidrigen oder anstößigen Inhalten, die sich trotz aufmerksamer Prüfung hinter hier verwendeten Links verbergen mögen.
Lesen Sie die Nutzungsbedingungen, die Distanzierung, die Datenschutzerklärung und das Impressum.
[Seitenanfang]