Matroids Matheplanet Forum Index
Moderiert von matroid
Mathematik » Notationen, Zeichen, Begriffe » Korrekte Notation, Mengenlehre
Autor
Universität/Hochschule Korrekte Notation, Mengenlehre
stoevi
Neu Letzter Besuch: vor mehr als 3 Monaten
Dabei seit: 28.11.2019
Mitteilungen: 3
  Themenstart: 2019-11-28

Hallo Leute, ich verfolge den Matheplaneten schon etwas länger und habe mich nach langer Zeit nun auch mal angemeldet, da ich etwas Hilfe zur korrekten mathematischen Abbildung von Mengen und Funktionen benötige. Ich habe meinen Sachverhalt mal versucht so weit es geht zu abstrahieren: Ich habe eine Gesamtmenge an Elementen A={a_1,a_2,…,a_n }, die durch einen Algorithmus in k Untermengen C_i⊆A (i={1,2,…,k}) unterteilt werden. Gleichzeitig habe ich eine korrekte Aufteilung der Gesamtmenge in l Untermengen D_j⊆A (j={1,2,…,l}. Jetzt möchte ich eine Zuordnungsfunktion definieren, die einer Untermenge C_i die Untermenge D_j zuordnet, die den Großteil der Elemente aus C_i enthält. Ein ganz simples Beispiel: C_1={1,2,3,4,5} D_1={1,6,7,8} D_2={2,3,4,5,9,10,11,12,13,14} Die Zuordnung von C_1 zu D_2 (oder i=1 zu j=2) würde ich gerne mathematisch abbilden, aber ich habe keine Ahnung, wie ich da am schlausten anfangen sollte. Es ist dabei egal, dass C_1 womöglich nicht den Großteil der Elemente von D_2 beinhaltet, es geht rein um die Perspektive von C_1 (die umgekehrte Version brauche ich im Grunde auch aber das ist ja simpel umgeschrieben). Im Endeffekt geht es darum, die Confusion Matrix des binären Problems aufzustellen und damit Precision und Recall zu berechnen. Ich wäre über Hilfe sehr erfreut! Gruß stoevi P.S.: Ich komme mit dem Formeleditor hier im Forum noch nicht ganz zurecht aber ich hoffe es ist auch so lesbar.


   Profil
PrinzessinEinhorn
Senior Letzter Besuch: vor mehr als 3 Monaten
Dabei seit: 23.01.2017
Mitteilungen: 2625
  Beitrag No.1, eingetragen 2019-11-28

Hallo, \quoteon etzt möchte ich eine Zuordnungsfunktion definieren, die einer Untermenge C_i die Untermenge D_j zuordnet, die den Großteil der Elemente aus C_i enthält. \quoteoff Was meinst du mit 'Großteil der Elemente aus $C_i$'? Ich habe eine intuitive Vorstellung was du damit meinst. Du untersuchst jeweils $D_j\setminus C_i$ für alle $j$ und guckst dann welche dieser Mengen am wenigsten Elemente hat. Da wir die Mengen differenz nehmen heißt das ja gerade, dass $D_j$ und $C_i$ in vielen Elementen übereinstimmen, wenn die Anzahl der Elemente in der Differenzmenge besonders klein ist. Das Problem ist, dass dies nicht eindeutig sein muss, außer dein Algorithmus konstruiert die Mengen auf eine bestimmte Weise. Es kann ja mehrere $D_j$ geben die in gleich vielen Elementen mit $C_i$ übereinstimmt. Dann hättest du ein Problem, denn eine Funktion kann $C_i$ nur auf ein eindeutiges $D_j$ abbilden. Aber wie gesagt muss dies ja nicht eindeutig sein. Ein ganz simples Beispiel: C_1={1,2,3,4,5} D_1={2,3,4,5,9} D_2={2,3,4,5,10} Dein angegebenes Beispiel suggeriert, dass die $D_j$ paarweise disjunkt sind. Du sagst aber auch nicht, was $A$ sein soll. Aber auch dann hast du eventuell das gleiche Problem. $A=\{1,2,3,4,5,6\}$ $C_1=\{1,2,3,4\}$ $D_1=\{1,2,5\}$ $D_2=\{3,4,6\}$ \quoteon Im Endeffekt geht es darum, die Confusion Matrix des binären Problems aufzustellen und damit Precision und Recall zu berechnen. \quoteoff Ich habe von so etwas leider keine Ahnung. Ich denke aber es ist gut, wenn du mehr Information zur Aufgabe geben kannst. Wie oben motiviert sollte dein Wunsch nämlich nicht in die Tat umsetzbar sein (eine solche Funktion muss nicht existieren). Daher ist es wahrscheinlich wichtig, dass wir wissen wie dein Algorithmus funktioniert.


   Profil
stoevi
Neu Letzter Besuch: vor mehr als 3 Monaten
Dabei seit: 28.11.2019
Mitteilungen: 3
  Beitrag No.2, vom Themenstarter, eingetragen 2019-11-29

Hi PrinzessinEinhorn, \quoteon Was meinst du mit 'Großteil der Elemente aus $C_i$'? Ich habe eine intuitive Vorstellung was du damit meinst. \quoteoff Ich meine die relative Mehrheit. \quoteon Das Problem ist, dass dies nicht eindeutig sein muss, außer dein Algorithmus konstruiert die Mengen auf eine bestimmte Weise. Es kann ja mehrere $D_j$ geben die in gleich vielen Elementen mit $C_i$ übereinstimmt. Dann hättest du ein Problem, denn eine Funktion kann $C_i$ nur auf ein eindeutiges $D_j$ abbilden. Aber wie gesagt muss dies ja nicht eindeutig sein. \quoteoff Ja das ist korrekt, es könnte theoretisch sein, dass zwei Mengen D gleich viele gemeinsame Elemente mit einer Menge C haben. Wie ich das im Algorithmus adressiere, weiß ich noch nicht, das kommt sehr selten vor und vermutlich würde ich dann eine der beiden Mengen random zuweisen. Das ist mathematisch gar nicht abbildbar? \quoteon Ein ganz simples Beispiel: C_1={1,2,3,4,5} D_1={2,3,4,5,9} D_2={2,3,4,5,10} Dein angegebenes Beispiel suggeriert, dass die $D_j$ paarweise disjunkt sind. Du sagst aber auch nicht, was $A$ sein soll. Aber auch dann hast du eventuell das gleiche Problem. $A=\{1,2,3,4,5,6\}$ $C_1=\{1,2,3,4\}$ $D_1=\{1,2,5\}$ $D_2=\{3,4,6\}$ \quoteoff Dein erstes Beispiel verstehe ich nicht bzw. das würde in meinem Kontext nicht vorkommen. Das zweite hingegen sehr wohl, jedes Element von A ist genau einmal Teil von einer Menge C_i und einer Menge D_i. Meine Erklärung unten macht das evtl nachvollziehbarer. \quoteon Ich habe von so etwas leider keine Ahnung. Ich denke aber es ist gut, wenn du mehr Information zur Aufgabe geben kannst. Wie oben motiviert sollte dein Wunsch nämlich nicht in die Tat umsetzbar sein (eine solche Funktion muss nicht existieren). Daher ist es wahrscheinlich wichtig, dass wir wissen wie dein Algorithmus funktioniert. \quoteoff Aaaalso, meine Aufgabenstellung ist die folgende: Es geht im Grunde darum, Authoren von Artikeln/wissenschaftlichen Papern zu disambiguieren mithilfe einer Machine Learning Lösung. Disambiguieren heißt, dass es mehrere Artikel mit bspw. dem Authorennamen "Bernd Müller" gibt und mein Algorithmus möglichst zuverlässig bestimmen soll, wie viele verschiedene "echte" Bernd Müller es gibt und welche Artikel von dem jeweils gleichen Bernd Müller stammen. Um zu prüfen, wie gut mein Algorithmus funktioniert, wende ich ihn auf einen Testsatz von Artikeln an (meine Gesamtmenge A) und er gibt mir eine Reihe von Untermengen C aus, die jeweils Artikel eines individuellen Authors abbilden. Jeder Artikel wird einem Author zugewiesen, aber nur einmal, daher ist die Vereinigungsmenge aller "Author-Mengen" genau die Gesamtmenge A. Meinen Testsatz habe ich nun aber bereits disambiguiert (manuell oder sonst wie, das spielt jetzt keine Rolle) und weiß daher genau, wie die Aufteilung der Gesamtmenge in Authormengen ausschauen sollte (meine Untermengen D). Für die Berechnung der Performance meines Algorithmus brauche ich also nun den "Grad der Überlappung" der einzelnen Authoren und um eine Authorenmenge C einer Authorenmenge D erstmal zuzuordnen, nutze ich das Majoritätsprinzip. Sprich, wenn Menge C_i zum Großteil (relativ) die gleichen Artikel enthält wie Menge D_i, gehe ich davon aus dass beide die gleiche Person abbilden und ich kann berechnen, wie viele Artikel mein Algorithmus dieser Person falsch zugewiesen hat (die Artikel, die Teil von Untermenge C_i aber nicht D_j sind) bzw. wie viele Artikel mein Algorithmus dieser Person fälschlicherweise nicht zugewiesen hat (Artikel von Untermenge D_j, die nicht Element von C_i sind). Ich hoffe das war so weit verständlich. Die ganzen Funktionen usw. in Code umzusetzen ist grad weniger mein Problem, ich würde nur die ganze Thematik gerne mathematisch sauber formulieren und daran scheiterts leider. Gruß Stoevi


   Profil
Kitaktus
Senior Letzter Besuch: in der letzten Woche
Dabei seit: 11.09.2008
Mitteilungen: 6919
Wohnort: Niedersachsen
  Beitrag No.3, eingetragen 2019-11-29

Wie wäre es denn mit: $$ f(i):=argmax_{j\in\{1,...,l\}}|D_j\cap C_i|$$. Die Funktion "argmax" wird hier beschrieben. Du müsstest argmax noch eindeutig machen, es kann ja mehrere $D_j$ geben, die gleichviele Elemente von $C_i$ enthalten. Das ginge, indem man bspw. von allen gleichguten $j$ jeweils das kleinste wählt. Eine Anmerkung: Du schreibst, dass Du die Zuordnung "mathematisch abbilden" willst. Ich verstehe das so, dass Du gerne eine "Formel" hättest. Ich vermute, dass Du diese Formel nur zur Beschreibung des Zusammenhangs verwenden willst. Es stellt sich dann die Frage: Warum willst Du eine Formel und nicht eine verbale Beschreibung verwenden? Ich finde die Beschreibung: "Wir ordnen jeder Menge $C_i$ diejenige Menge $D_j$ zu, für die $C_i\cap D_j$ maximal ist. Gibt es mehrere solche Mengen, so wählen wir die mit dem kleinsten Index $j$." besser als einen mathematischen Ausdruck, der eine nicht jedem bekannte Funktion enthält, die man außerdem auch noch präzisieren muss, bevor man sie verwenden kann.


   Profil
stoevi
Neu Letzter Besuch: vor mehr als 3 Monaten
Dabei seit: 28.11.2019
Mitteilungen: 3
  Beitrag No.4, vom Themenstarter, eingetragen 2019-11-29

\quoteon(2019-11-29 02:12 - Kitaktus in Beitrag No. 3) Wie wäre es denn mit: $$ f(i):=argmax_{j\in\{1,...,l\}}|D_j\cap C_i|$$. Die Funktion "argmax" wird hier beschrieben. \quoteoff Das schaut sehr gut aus, vielen Dank! \quoteon(2019-11-29 02:12 - Kitaktus in Beitrag No. 3) Du müsstest argmax noch eindeutig machen, es kann ja mehrere $D_j$ geben, die gleichviele Elemente von $C_i$ enthalten. Das ginge, indem man bspw. von allen gleichguten $j$ jeweils das kleinste wählt. \quoteoff Könnte man das auch mathematisch beschreiben? Mathematische Funktionen sind leider gar nicht meins :D \quoteon(2019-11-29 02:12 - Kitaktus in Beitrag No. 3) Eine Anmerkung: Du schreibst, dass Du die Zuordnung "mathematisch abbilden" willst. Ich verstehe das so, dass Du gerne eine "Formel" hättest. Ich vermute, dass Du diese Formel nur zur Beschreibung des Zusammenhangs verwenden willst. Es stellt sich dann die Frage: Warum willst Du eine Formel und nicht eine verbale Beschreibung verwenden? Ich finde die Beschreibung: "Wir ordnen jeder Menge $C_i$ diejenige Menge $D_j$ zu, für die $C_i\cap D_j$ maximal ist. Gibt es mehrere solche Mengen, so wählen wir die mit dem kleinsten Index $j$." besser als einen mathematischen Ausdruck, der eine nicht jedem bekannte Funktion enthält, die man außerdem auch noch präzisieren muss, bevor man sie verwenden kann. \quoteoff Im Text beschreibe ich meine Funktion natürlich auch und ich werde auch eine Abbildung erstellen, um das Ganze zu visualisieren. Eine mathematische Beschreibung rundet das Kapitel einfach noch etwas ab, deshalb würde ich das gerne machen. Gruß stoevi


   Profil
stoevi hat die Antworten auf ihre/seine Frage gesehen.
stoevi wird per Mail über neue Antworten informiert.

Wechsel in ein anderes Forum:
 Suchen    
 
All logos and trademarks in this site are property of their respective owner. The comments are property of their posters, all the rest © 2001-2022 by Matroids Matheplanet
This web site was originally made with PHP-Nuke, a former web portal system written in PHP that seems no longer to be maintained nor supported. PHP-Nuke is Free Software released under the GNU/GPL license.
Ich distanziere mich von rechtswidrigen oder anstößigen Inhalten, die sich trotz aufmerksamer Prüfung hinter hier verwendeten Links verbergen mögen.
Lesen Sie die Nutzungsbedingungen, die Distanzierung, die Datenschutzerklärung und das Impressum.
[Seitenanfang]