Entropie und Informationsgewinn
Entropie und Informationsgewinn sind Konzepte aus der Entscheidungsbaum-Analyse im Maschinellen Lernen. Entropie quantifiziert die Unsicherheit oder Unordnung in einem Datensatz, wobei Werte zwischen 0 und 1 liegen. Informationsgewinn misst die Reduktion dieser Unsicherheit durch die Aufteilung des Datensatzes anhand eines Attributs. Das Attribut mit dem höchsten Informationsgewinn eignet sich am besten für eine effektive Klassifikation.
Entropie
Abschnitt betitelt „Entropie“Entropie ist ein Maß für die Unsicherheit oder Unordnung in einem Datensatz. Je höher die Entropie, desto unordentlicher oder gemischter sind die Klassen im Datensatz. Der Wert liegt zwischen 0 und 1. Bei einer Entropie von 0 ist eine absolut eindeutige Klassifikation möglich. Bei einer Entropie von 1 besteht keine Tendenz zu einer Klassifikation.
Allgemeine Formel
Abschnitt betitelt „Allgemeine Formel“bezeichnet den Datensatz, die Menge aller Klassen in und den Anteil der Datenpunkte, die zur Klasse gehören, bezogen auf die Gesamtzahl der Datenpunkte in .
Variante
Abschnitt betitelt „Variante“Eine alternative Darstellung lautet:
Hierbei steht für die Wahrscheinlichkeit einer Klasse bezogen auf alle Datenpunkte.
Beispiel
Abschnitt betitelt „Beispiel“Gegeben sind 91 durchgeführte Werbemaßnahmen, davon 40 fehlgeschlagene und 51 erfolgreiche.
Die Entropie wird berechnet, indem für jede Klasse die Wahrscheinlichkeit betrachtet wird, dass ein zufällig ausgewählter Datenpunkt aus dem Datensatz zu dieser Klasse gehört. Der Ausdruck quantifiziert die Unsicherheit oder den Informationsgehalt, der mit der Klasse verbunden ist. Wenn hoch ist, ist der Informationsgehalt niedrig, da die Zuordnung zu dieser Klasse relativ sicher ist. Wenn niedrig ist, ist der Informationsgehalt hoch, da die Zuordnung weniger wahrscheinlich ist. Das Minuszeichen vor der Summe sorgt dafür, dass die Entropie einen positiven Wert annimmt, da der Logarithmus von Werten zwischen 0 und 1 negativ ist. Die Entropie ist ein Maß für die durchschnittliche Unsicherheit oder Unordnung im Datensatz. Wenn alle Datenpunkte in zu einer Klasse gehören, beträgt die Entropie 0, was keine Unsicherheit bedeutet. Wenn die Hälfte der Datenpunkte einer Klasse und die andere Hälfte einer anderen Klasse zugeordnet sind, beträgt die Entropie 1, was maximale Unsicherheit anzeigt. Für die Klassifikation sollte das Attribut mit der geringsten Entropie gewählt werden.
Informationsgewinn
Abschnitt betitelt „Informationsgewinn“Informationsgewinn bezeichnet den Unterschied der Entropie vor und nach der Teilung eines Datensatzes anhand eines bestimmten Attributs. Das Attribut mit dem höchsten Informationsgewinn erzeugt die beste Aufteilung.
Hierbei ist der Informationsgewinn für das Attribut bezogen auf den Datensatz , die Menge der möglichen Werte des Attributs , die Anzahl der Datenpunkte, die dem Wert des Attributs zugeordnet sind, die Gesamtanzahl der Datenpunkte im Datensatz und die Entropie des Teilsets .
Der Informationsgewinn misst, wie viel Unsicherheit durch die Teilung des Datensatzes anhand des Attributs reduziert wird. ist die Entropie des ursprünglichen Datensatzes vor der Teilung. Der Ausdruck repräsentiert die gewichtete Summe der Entropien der Teilmengen, die durch die Teilung nach den Werten des Attributs entstehen. ist die Menge der möglichen Werte des Attributs , die Anzahl der Datenpunkte mit dem Wert und die Gesamtanzahl. Der Term gibt den Anteil der Datenpunkte mit dem Wert an und gewichtet die Entropie der Teilmenge . Der Informationsgewinn ist die Differenz zwischen der Entropie des ursprünglichen Datensatzes und der gewichteten Summe der Entropien der Teilmengen. Ein hoher Wert von bedeutet, dass die Teilung anhand des Attributs zu einer signifikanten Reduktion der Unsicherheit führt, was zu einem guten Attribut für die Klassifikation macht. Ein niedriger oder negativer Wert deutet darauf hin, dass die Teilung wenig zur Klärung der Klassen beiträgt.
Der Informationsgewinn ist die Entropie des ursprünglichen Datensatzes minus die gewichtete Summe der Entropien der Teilmengen, die durch die Teilung entstehen. Ein höherer Wert von bedeutet, dass das Attribut eine bessere Trennung der Klassen ermöglicht.
Quellen
Abschnitt betitelt „Quellen“Was ist ein Entscheidungsbaum | IBM. (2024, September 17). Retrieved from https://www.ibm.com/de-de/topics/decision-trees
Tutorials, T. M. (2017, February 16). Machine Learning #39 - Entscheidungsbäume #3 - Entropie und Informationsgewinn. Youtube. Retrieved from https://www.youtube.com/watch?v=lg1pb0YaAjI