Mit der Version 15 von Almo haben wir aufgehört zu nummerieren, da wir sonst
in den nächsten 85 Jahren (in denen es noch Almo gibt) bei der Version 100
ankommen würden. Wir werden Almo fortwährend verbessern, "verschönern" und erweitern
Die Änderungen werden jeweils auf der Seite "Download" mitgeteilt.

 

Änderungen in Version ab Sept. 2017

Wie immer wurden kleine Änderungen vorgenommen, die der Benutzer nicht bemerkt.
Fehler, die dem Benutzer bekannt gemacht werden müssen, haben wir keine entdeckt.

Neu ist folgendes: Prog51m1 zur Wahlhochrechnung und Wählerstromanalyse wurde
überarbeitet. Die Programmeingabe für den Benutzer wurde vereinfacht, die Ergebnisausgabe
übersichtlicher gestaltet und die Grafik teilweise "verschönert". Das Handbuch wurde erheblich
überarbeitet. Nicht nur die Programmeingabe wird erklärt; auch die Methode, die
praktische Vorgehensweise und die Problem des Verfahrens werden ausführlich dargestellt.
Unser Handbuch ist damit eines der wenigen, das die Hochrechnung und Wählerstromanalyse
umfassend darstellt und öffentlich zugänglich ist.
Das Handbuch kann auch separat (ohne das gesamte Almo-Programm) als Dokument 33
herunter geladen werden.

 

Was ist neu in Almo15 ab 1. Sept. 2015

Neu eingeführt wurden die folgenden Verfahren:

    1. die metrische multidimensionale Skalierung (kurz: metrische MDS)
    2. das metrische multidimensionale Unfolding (kurz: metrisches MDU)

Metrische multidimensionale Skalierung (metrische MDS)

An einem Beispiel soll dieses Verfahren kurz vorgestellt werden.
Durch paarweisen Vergleich wurden die Ähnlichkeiten in der Wahrnehmung verschiedener Automarken ermittelt.
Die Kodierungen wurden zu Distanzen (Unähnlichkeiten) "umgedreht". Es entstand folgende Distanzmatrix

                                                     

             Opel VW   Suz  Toy  Merc BMW  Ferr Por  Lamb Roll

Opel         0                                                

VW           3.1  0                                           

Suzuki       5.0  4.4  0                                      

Toyota       3.8  3.3  3.7  0                                  

Mercedes     5.9  5.8  7.0  5.3  0                            

BMW          5.5  5.5  7.0  4.2  2.7  0                       

Ferrari      8.4  8.1  8.3  8.3  6.9  6.8  0                  

Porsche      8.4  8.1  8.4  8.3  6.4  6.4  3.0  0              

Lamborghini  8.5  8.2  8.8  8.7  6.6  6.4  2.1  3.4  0        

Rolls Royce  8.5  8.6  8.9  8.2  5.8  7.0  6.6  6.8  6.3  0   

 

 (Daten aus Internetpaper "Multidimensionale Skalierung", BUGH Wuppertal, 2001                 

 

Almo liefert folgendes Ergebnis:

 

Matrix der Faktorladungen

                      ┌───────────────────────────────┐

                        Faktor 1  Faktor 2  Faktor 3 │

 ┌────────────────────┼───────────────────────────────┤

 │Opel        V1          3.6170    0.3755   -0.0848 │

 │Volkwage    V2          3.5083    0.9681   -0.1096 │

 │Suzuki      V3          3.5673    2.1300    2.0885 │

 │Toyota      V4          3.7712   -0.2035   -0.1224 │

 │Mercedes    V5          0.1811   -2.7555   -1.2839 │

 │BMW         V6          0.6122   -1.8120   -2.5856 │

 │Ferrari     V7         -4.1109    2.0314    0.0821 │

 │Porsche     V8         -3.9372    1.5550   -0.7375 │

 │Lamborgh    V9         -4.4048    1.2016   -0.4196 │

 │RollsRoy   V10         -2.8042   -3.4905    3.1727 │

 └────────────────────┴───────────────────────────────┘

 

 

Für die 3-Faktoren-Lösung gibt Almo einen Stress von 0.11 und für die 2-Faktoren-Lösung von 0.20 aus.
Der Stress-Koeffizient drückt die Güte einer Lösung aus. Je kleiner der Koeffizient umso besser die Lösung.
Selbstverständlich ist dieses Gütemaß umso besser je mehr Faktoren extrahiert werden.
Nach gängiger Meinung bedeutet ein Stress von 0.20, dass eine ausreichend gute Lösung gefunden wurde.
Es genügt also, 2 Faktoren zu extrahieren.

 

 

Die 3-Faktoren Lösung grafisch dargestellt:

metrMDS3d

 

 

 

Wir können nun eine Definition der metrischen MDS geben:

 

             Ihre Aufgabe ist es, die Distanzen bzw. Ähnlichkeiten zwischen Objekten in einem
             ein- oder mehrdimensionalen Raum abzubilden.

 

 

 

Das metrische multidimensionale Unfolding (MDU)
An einem Beispiel soll dieses Verfahren kurz vorgestellt werden.
Betrachten wir ein Beispiel. Eine Stichprobe von Personen wird darüber befragt, wie sympathisch sie

 die 5 Parteien ParteiA bis ParteiE finden. Die Personen werden nach Geschlecht und 4 Bildungsstufen

 in 8 Gruppen zusammengefasst. Für jede Gruppe wird der Mittelwert ihrer Sympathie gegenüber den 5 Parteien ermittelt.

Die MDU verlangt, dass Distanzen und nicht Präferenzen bzw. Sympathien als Daten in ihren Kalkül eingegeben werden.
Die Sympathien gegenüber den Parteien wurden mit 1 bis 9 gemessen. Sie werden nun sehr einfach in Distanzen
umgewandelt, indem sie "umgedreht", d.h. von 9 subtrahiert werden

So entsteht folgende Distanzmatrix D

 

                              | Personen-

              Partei          |  Gruppe

      A    B    C    D    E   |    PG

      V1   V2   V3   V4   V5  |    V6

     ---  ---  ---  ---  ---  |  -----

     4.0  3.0  3.0  4.0  6.0  |    1

     3.0  9.0  9.0  2.0  4.0  |    2

     3.0  5.0  6.0  4.0  2.0  |    3

     2.0  4.0  4.0  3.0  3.0  |    4

     4.0  2.0  3.0  5.0  5.0  |    5

     4.0  1.0  2.0  5.0  5.0  |    6

     3.0  9.0  9.0  3.0  2.0  |    7

     4.0  6.0  7.0  4.0  2.0  |    8

 

 

Für obige Distanzmatrix liefert Almo folgende Ladungsmatrix

 

                 Faktor 1   Faktor 2  

         PartA    -1.4382    -0.9737

         PartB     4.5376     0.2255

         PartC     4.5017    -0.9314

         PartD    -2.0639    -1.5698

         PartE    -2.5055     1.2202

      Person-1     2.1970    -2.5389

      Person-2    -4.3112    -2.3061

      Person-3    -0.4993     2.4875

      Person-4     0.4525     0.1589

      Person-5     2.3104     0.6234

      Person-6     2.6130     0.5715

      Person-7    -4.5262     0.2137

      Person-8    -1.2678     2.8193

 

Ähnlich der Faktorenanalyse erhält man eine Ladungsmatrix,
die dann noch grafisch als 2-dimensionales Koordinatensystem dargestellt wird

 

metrMDU 

 

Die Distanz-Urteile der 8 Personengruppen gegenüber den 5 Parteien lassen sich also in 2 Dimensionen arithmetisch
und grafisch darstellen.  Das ist Sinn und Zweck der MDU.
Wir können z.B. erkennen, dass die Personengruppe 1 (etwa junge, hochgebildete Personen) eine große Distanz zur
Partei E haben. Am dichtesten liegen sie bei Partei C. Informationen dieser Art sind natürlich auch aus der Distanzmatrix ablesbar.
Durch die grafische Darstellung werden sie jedoch veranschaulicht. Außerdem leistet die MDU (vergleichbar der Faktorenanalyse)
eine dimensionale Datenreduktion. In der Regel, aber nicht immer, sind die gefundenen Dimensionen inhaltlich benennbar.
In unserem Beispiel könnte vielleicht die eine Dimension als die "Links-Rechts-Dimension" und die zweite als
geographische Nord-Süd-Dimension bezeichnet werden.

Die Leistung der MDU geht aber noch weiter. Aus der Grafik werden auch die Distanzen zwischen den Parteien ersichtlich
und auch zwischen den Personengruppen. So erkennt man z.B. dass Partei C und E am weitesten voneinander entfernt sind.
Bei den Personen sieht man, dass Person-1 und Person-8 am weitesten voneinander entfernt sind.
Das sind Informationen, die aus der Distanzmatrix nicht unmittelbar ersichtlich werden.

 

Was ist neu in Almo ab 1. Sept. 2013 ?
Wieder wurden viele kleine Verbesserungen vorgenommen, von denen der Benutzer
wenig bemerken wird.

Mit großem rechnerischem und programmiertechnischem Aufwand haben wir

                 das allgemeine ordinale Rasch-Modell
                     ("partial credit model")

für dichotome und ordinal-polytome Items in Almo eingefügt. In einer Analyse
dürfen Items mit unterschiedlich vielen und beliebig vielen Ausprägungen vorhanden
sein. Neben vielen Grafiken waren wir darauf bedacht, dem Benutzer "Itemfit-Maße"
anzubieten, die es ihm ermöglichen "nicht-Rasch-konforme" Items zu erkennen.

Der Benutzer findet das neue Programm mit
       Klick auf den Knopf "Verfahren"
       dann "Rasch-Modell" selektieren

Das Handbuch "Das allgemeine ordinale Rasch-Modell" ist im
Almo-Ordner "Handbuch" enthalten. Eine immer wieder aktualisierte
Version kann als separates Almo-Dokument herunter geladen werden.

Alle Unterprogramme sind im Quelltext in der Sprache C und R vorhanden
und dürfen von interessierten Programmierern frei verwendet werden.
Der Benutzer findet sie im Almo-Unterordner "Algorithmen_in_C" im Modul
up_algorith11.c und im Almo-Unterordner "Rasch_in_R"


- Was ist neu in der Version 15 von Almo ?
- Was ist neu in der Version 14 von Almo ?
- Was ist neu in der Version 13 von Almo ?
- Was ist neu in der Version 12 von Almo ?
- Was ist neu in der Version 11 von Almo ?
- Was ist neu in der Version 10 von Almo ?
- Was ist neu in der Version  9 von Almo ?
- Die Koeffizienten der Logitanalyse

Was ist neu in der Version 15 (1. Sept. 2012) von Almo ?

Die Speicherverwaltung des Almo-Editors und der Almo-Oberfläche wurde verändert.

Gelegentliche Abstürze von Almo werden dadurch seltener. In den meisten Fällen

wird ein Absturz dadurch verursacht, dass der Benutzer in die Eingabemasken von

Almo eine unzulässige Eingabe vornimmt - die nicht durch eine der vielen Almo-

Fehlermeldungen abgefangen wird.

 

Bei den "Algorithmen_in_C" wurden die C-Quelltexte eingefügt für:

 

   1. Prog_21: Konfirmatorische Faktorenanalyse mit Eingabe einer fertigen Faktorladungsmatrix
   2. Prog_22: Faktorwerte für die Untersuchungsobjekte berechnen und in eine neue Datei speichern
   3. Prog_23: Rasch-Skalierung

   4. Für alle Programme wurde die Möglichkeit eingebaut, Variablenwerte nach dem Einlesen

      und vor der Auswerung umzukodieren. In Prog_0.alm wurde diese Möglichkeit exemplarisch

      eingefügt. Siehe "Info5_Umkodier.txt" im Almo-Ordner "Algorithmen_in_C"

 

Besonders interessant dürfte das Rasch-Skalierungs-Verfahren für diejenigen

Benutzer sein, die mit den Pisa-Daten 2012 rechnen wollen. Die Leistungstests zu

Mathematik, Lesen etc. können dann auf ihre Brauchbarkeit für das jeweilige Land

überprüft werden. Die Daten zu Pisa 2012 werden wir im Almo-Format zur Verfügung stellen,

sobald sie vorliegen.

Was ist neu in der Version 14 von Almo ?

Wieder wurden viele kleine Verbesserungen vorgenommen, von denen der Benutzer

wenig bemerken wird.


Neu eingefügt wurde die Konfirmatorische Faktorenanalyse.

 

Bei der konfirmatorischen Faktorenanalyse wird (1) eine aus der Theorie begründete Faktorladungsmatrix

mit (2) einer aus den empirischen Datem gewonnenen Faktorladungsmatrix verglichen und versucht

(3) eine dritte Faktorladungsmatrix als "Kompromiss" zu gewinnen.

Wir bezeichnen die in (1) genannte theoretische Matrix auch als "Zielmatrix", die in (2)

genannte Matrix als "empirische Matrix" und die in (3) genannte Matrix als "konfirmatorische

Matrix".

 

Für die Gewinnung der "konfirmatorischen Faktorladungsmatrix" gibt es 2 Ansätze:

Die Kleinste-Quadrate-Lösung und die Maximun-Likelihood-Lösung.

In Almo ist die Kleinste-Quadrate-Lösung enthalten.

  

Eine bedeutsame Unterscheidung ist die zwischen (1) orthogonaler und (2) schiefwinkliger konfirmatorischer Faktorenanalyse.
Bei ersterer wird angenommen, dass eine orthogonale Lösung den empirischen Daten am besten entspricht
bzw. dass eine aus der Theorie begründete orthogonale Faktorladungsmatrix vorliegt.
Bei der zweiten wird angenommen, dass die Faktoren miteinander korrelieren bzw. dass eine aus
der Theorie begründete schiefwinklige Faktorladungsmatrix vorliegt.

 

Almo enthält zur konfirmatorischen Faktorenanalyse die beiden Programme Pro30m8 und Prog30m9.
Der Benutzer gelangt zu diesen Programmen durch Klick auf den Knopf „Verfahren“ und dann „Faktorenanalyse“.
Ausserdem sind noch 3 Beispielprogramme, die aus Prog30m8 gestartet werden können, vorhanden.

 

Das in Almo realisierte Verfahren kann auch für den Vergleich zweier empirischen Faktorladungsmatrizen

verwendet werden. Beispielsweise könnten die faktorisierten Leistungen von Männern und Frauen in

verschiedenen Tests aufeinder bezogen werden. In diesem Fall liefert das Verfahren
eine dritte Faktorladungsmatrix, die daraus entstand, dass die "Männer-Matrix" maximal an die Frauen-Matrix

"heranrotiert" wurde. Umgekehrt könnte auch die Frauen-Matrix an die Männer-Matrix heranrotiert werden.

Das Ergebnis muss nicht dasselbe sein.

 

Die konfirmatorische Faktorenanalyse wurde auch in die Statistischen Algorithmen in C aufgenommen.
Im C-Modul "a_up_algorith4.c" wurde die Prozedur "a_konfirmator_faktanalyse" und einige zusätzliche

Unterprogramme eingefügt. Wenn der Benutzer die exe-Datei "Prog_20.exe" startet, dann wird
die Eingabe-Datei Prog_20.alm eingelesen und eine konfirmatorische Faktorenanalyse gerechnet.
Das Ergebnis ist dann in Prog_20.erg enthalten.
Die genannten Dateien sind im Ordner ".\Almo14\Algorithmen_in_C\Algorith_Konsole" enthalten.


Was ist neu in der Version 13 von Almo ?

Wie üblich haben wir Korrekturen und viele kleine Verbesserungen vorgenommen.

 

Johann Bacher hat die kmeans-Clusteranalyse nochmals überarbeitet und die
daran angepasste neue Ausgabe seines Buchs "Clusteranalyse" (Oldenbourg-Verlag)
herausgebracht.

 

Neu hinzu gekommen ist das "Zeigen der Daten".

Mehrere Almo-Benutzer haben beklagt, dass in Almo nicht (wie z.B. in SPSS)
die Daten, auf die sich die jeweilige Analyse bezieht, sichtbar sind.

Der Grund dafür ist, dass Almo bei den meisten Verfahren einen Datensatz
nach dem anderen einliest und nict die gesamte Datenmatrix im Speicher hält.
Das hat den Vorteil, dass die Zahl der Datensätze, die ausgewertet werden können,
im Prinzip unbeschränkt ist - aber eben den Nachteil, dass die Datenmatrix
nicht ständig im Speicher präsent ist und damit auch angezeigt werden kann.

Allerdings zeigt die Erfahrung, dass es für die Auswertungsarbeit genügt,
wenn, wie in Almo, die Datei der Variablen-Namen und -Nummern vorhanden ist.

Diese kann ja durch einfachen Mausklck in ein separates Fenster geladen werden.

Trotzdem haben wir es jetzt ermöglicht, die Datenmatrix in einem extra

Fenster und in übersichtlicher Form ständig präsent zu halten. Das geschieht
nach Klick auf den Knopf "Zeige Daten" in der oberen Knopfleiste von Almo.

 

 

Was ist neu in der Version 12 von Almo ?

Wieder haben wir viele kleine Verbesserungen vorgenommen.

Insbesondere haben wir an der Oberfläche von Almo gearbeitet.

 

Die kmeans-Clusteranalyse wurde um die Möglichkeit erweitert mehrere

Lösungsversuche für eine vorgegebene Clusterzahl zu rechnen (wobei Almo

dann die beste davon hervorhebt)

 

Neu hinzu gekommen sind bei den "Statistischen Algorithmen in C"

1. die Logit- und Probitanalyse

2. die kanonische Diskriminanzanalyse

3. die k-means-Clusteranalyse

Was ist neu in der Version 11 von Almo ?

Wie immer wurden kleinere Verbesserungen und Verschönerungen gemacht.

Das sind die Neuheuten:

1. Imputation fehlender Werte mit Hilfe der Clusteranalyse

2. Statistischer Algorithmen in C

 

Zu 'Imputation fehlender Werte'

Zuerst wird eine k-means Clusteranalyse durchgeführt. Sie liefert die

Mittelwerte der Klassifikationsvariablen je Cluster und ordnet jeder

Untersuchungseinheit eine Clusterzugehörigkeit zu. Danach wird das

eigentliche Imputationsverfahren gerechnet. Eine Untersuchungseinheit,

die dem Cluster i angehört und in der Klassifikationsvariablen j keinen

Wert besitzt, erhält in dieser Variablen j den Mittelwert ihres Clusters.

Bei nominalen Klassifikationsvariablen wird der Erwartungswert bzw.

der wahrscheinlichste Wert je Cluster ermittelt und als Ersatzwert für

den fehlenden Wert eingesetzt.

Die Ersatzwerte können dann noch durch normalverteilte Zufallswerte (mit

dem Mittelwert und der Standardabweichung der betreffenden Klassifikations-

variablen) überlagert werden.

Danach werden die so veränderten Datensätze gespeichert.

 

Zu 'Statistische Algorithmen in C'

Die in Almo angebotenen statistischen Verfahren enthalten viele

statistische Algorithmen. Beispiele:

 

Mittelwert-Berechnung
Chi-Quadrat-Test
Korrelations-Berechnung

Allgemeines Lineares Modell

Faktorenanalyse
etc.


Diese Algorithmen haben wir etwas vereinfacht, von Ballast (wie z.B.

komplexen Optionen) befreit und stellen sie so dem interessierten

Programmierer für eigene Software-Projekte zur Verfügung.
Alle Algorithmen sind in der Programmiersprache "C" geschrieben.
Damit Sie mit den angebotenen Algorithmen experimentieren und sie

auch verändern können, haben wir die Algorithmen in das

Almo-System eingebunden. Damit sind sie aus Almo startbar und es

können Daten eingelesen werden und mit den Algorithmen gerechnet

werden. Trotzdem bleiben die Algorithmen allgemein einsetzbare

C-Funktionen.

Eine Liste aller Algorithmen finden Sie unter "Algorithmen in C"

 

-----------------------------------------------------------------------------------------

Was ist neu in der Version 10 von Almo ?

Neben den üblichen "kleinen Verbesserungen und Verschönerungen" wurde

1. ein umfangreicher Programmteil zur Behandlung von Ausreissern eingefügt
2. Der Grafikbereich wurde durch ein Pfaddiagramm erweitert.

 

Zu den Ausreissern

Ausreisser sind Werte, die ausserhalb "valider Grenzen" liegen.
Die "validen Grenzen" definiert der Forscher. Anders formuliert: Es gibt
keine "objektive", eindeutige Definition, was ein Ausreisser ist.
Der Forscher legt fest, was für ihn ein Ausreisser ist.
Werden Ausreisser vom Forscher aus der Analyse ausgeschlossen, dann tut er
dies, weil er unterstellt, dass diese Daten - obwohl empirisch gewonnen -
falsch sind oder er tut dies, weil sie ihm einen Variablen-Zusammenhang
seiner Meinung nach verfälschen.

In Almo werden 2 Typen von Ausreissern unterschieden:

Ausreisser vom Typ 1:
Ein Variablenwert liegt ausserhalb des "validen Wertebereichs"
der Variablen. Hier können nochmals 2 Untertypen unterschieden werden
a. Schreibfehler
b. Extremwerte

Ausreisser vom Typ 2:
Ein Variablenwert liegt ausserhalb der "validen Punktewolke"
eines mehrdimensionalen Variablen-Zusammenhangs.

Zu Typ 1a: Schreibfehler als Ausreisser
Ausreisser entstehen sehr oft dadurch, dass beim Schreiben der Daten
Fehler gemacht werden. Beispiel: Anstelle 9 wird versehentlich
der Wert 99 geschrieben. Diese Art der Ausreisser werden durch
das schon immer vorhandene Almo-Programm Prog03m entdeckt.

Zu Typ 1b: Extremwert als Ausreisser
Natürlich gibt es auch "echte" Ausreisser, die nicht durch Schreibfehler
entstanden sind. Beispiel: Für eine Stichprobe von 1000 Personen wird
das Einkommen erhoben. Dabei sind einige wenige Milliardäre in die
Stichprobe gelangt. Deren Einkommen liegt ausserhalb des
"validen Wertebereichs". Wird nun die Korrelation zwischen Einkommen
und beispielsweise Schulbildung ermittelt, so kann der
Korrelationskoeffizient durch die Milliardäre dramatisch verändert werden.
Hier ist es sinnvoll, die Milliardäre als Ausreisser zu identifizieren
und aus der Analyse auszuschliessen.
Für diesen Zweck wurde in viele Almo-Programme die Optionsbox

"Ausreisser vom Typ 1 identifizieren"

eingefügt. Diese Option kann auch verwendet werden, um Ausreisser vom Typ 1a,
also Schreibfehler, zu finden. Dem Benutzer werden folgende
"Behandlungsmöglichkeiten" von Ausreissern angeboten:
 

1 Ausreisser in Ergebnisliste nur melden
2 melden und auf Kein-Wert (missing value) setzen
3 melden und auf validen Grenzwert setzen
4 melden und auf bereinigte Ober- bzw. Untergrenze setzen
5 melden und ganzen Datensatz ausschliessen

 

Almo bietet auch an, eine neue "Ausreisser-bereinigte" Datei zu erstellen.
Diese kann dann für weitere Analysen verwendet werden.

Zu Typ 2: Ausreisser liegt ausserhalb der "validen Punktewolke"
Betrachten wir ein Beispiel:


Der Zusammenhang zwischen der Variablen x und y wird durch ein
Streudiagramm grafisch dargestellt. Die kleinen roten Punkte sind
Messpunkte. Die durchgezogene Linie ist die Regressionsgerade.

Der Messpunkt B ist ein Ausreisser vom Typ I. Sein x-Wert liegt
weit ausserhalb des validen Wertebereichs von x.

Der Messpunkt A ist ein Ausreisser vom Typ II. Sein x-Wert und sein
y-Wert liegt zwar innerhalb des validen Wertebereichs von x und y.
In Bezug auf den Zusammenhang von x und y ist er jedoch ein
Ausreisser. Er liegt ausserhalb der "validen Punktewolke xy".

Um Ausreisser vom Typ 2 zu identifizieren und zu "behandeln" wurde

ein spezielles Almo-Programm entwickelt. Das Programm ermöglicht es,
auch Ausreisser in einem multi-dimensionalen (und nicht nur 2-dimensionalen)
System zu identifizieren.


Zum Pfaddiagramm
Betrachten wir ein Beispiel: Für 6 Variable wird mit (dem schon immer
in Almo vorhandenen) Prog25m1 eine Pfadanalyse gerechnet.
Dabei wird folgende kausale Reihenfolge angenommen

Herkunft-->Bildung-->Leistung-->Einkommen-->Vermögen-->Konsum

Die Herkunft bestimmt die Bildung, diese die Leistung usw.
Mit Prog25m1 werden die standardisierten Regressionskoeffizienten
für ein volles rekursives Kausalmodell ermittelt. D.h. es wird zunächst
unterstellt, dass in obiger Reihenfolge jede Variable alle
nachfolgenden Variablen determiniert
Dieses Modell wird nun in Almo 10 grafisch als Pfaddiagramm dargestellt.

Das geschieht automatisch. Der Benutzer braucht nicht selbst zu zeichnen.
Das Pfaddiagramm wird ihm im Ergebnisfenster präsentiert.


Das Pfaddiagramm umfasst 6 Variable. Um die Pfeile optisch besser unterscheiden
zu können werden Farben verwendet.
Auf den Pfeilen stehen die (standardisierten) Regressionskoeffizienten.
Signifikante Pfade sind durch 1 oder 2 oder 3 Sterne markiert. Die entsprechenden
Pfeie sind fett gezeichnet (was in obigem verkleinertem Diagramm nicht sichtbar wird).
Standardmäßig werden an den Regressionskoeffizient angehängt:

1 Stern wenn seine Sigifikanz (1-p)*100 >= 95 % bzw. p <= 0.05
2 Stern wenn seine Sigifikanz (1-p)*100 >= 99 % bzw. p <= 0.01
3 Stern wenn seine Sigifikanz (1-p)*100 >= 99,9 % bzw. p <= 0.001

Im Almo-Grafik-Editor können die Signifikanzen je Stern anders definiert werden.
Dort besteht auch die Möglichkeit, nicht-signifikante Pfade aus dem Diagramm zu löschen
und nur Pfade zu zeigen, die mindestens 1 Stern besitzen, also mit mindestens
95 % signifikant sind. Es entsteht dann folgendes Pfaddiagramm.

 

------------------------------------------------------------------------------------------------

Was ist neu in der Version 9 von Almo ?

Die Almo-Wahlhochrechnung mit Wählerstromanalyse ist nunmehr im Standard-Almo

enthalten.
 

Wie bei jedem Almo-Update wurden wieder viele kleine, einzelne Verbesserungen
und "Verschönerungen" bei den Eingabe-Masken, den Berechnungen, den Ergebnislisten 
und den Grafiken
vorgenommen. Bei den Grafiken wurde es z.B. ermöglicht, diese
im 3D-Stil zu beschriften. Weiter unten zeigen wir Ihnen ein Beispiel.

Joachim Gerich hatte schon für die Almo-Version 8.5 einen "Importmanager"

entwickelt, der es auf eine sehr einfache Weise ermöglichte, Daten aus SPSS
nach Almo und umgekehrt zu übertragen. Jetzt hat er für Almo 9 ein sehr komfortables
Dateneingabe-Modul entwickelt.

 

Die "große" Verbesserung wurde im Grafikbereich bereits in der Version 8.0 vorgenommen: 

Almo gibt in seinen Ergebnislisten, zusätzlich zu den Tabellen, Matrizen etc.

eine Vielzahl von Grafiken aus. Diese Grafiken wurden seither in separaten 

Fenstern gezeigt. Jetzt stehen diese Grafiken  mitten in der Ergebnisliste 

bei den Tabellen und Matrizen, die sie optisch  veranschaulichen sollen.

 

Betrachten wir ein Beispiel.

Die Leistung von 61 Schülern wird ausgezählt. Almo liefert folgendes Ergebnis:

 

 

Variable 5 Leistung       

 

Wert                  Fälle      %    % kumuliert

─────────────────────────────────────────────────

   1 sehr gut            15    24.59      24.59

   2 gut                 28    45.90      70.49

   3 befriedigend        10    16.39      86.89

   4 ausreichend          7    11.48      98.36

   5 nicht genügend       1     1.64     100.00

─────────────────────────────────────────────────

Summe                    61     100%  
 

 

Zuerst wird in einer Tabelle die Häufigkeitsverteilung dargestellt.

Dann wird die Häufigkeitsverteilung als Balkendiagramm gezeichnet.

Über der Grafik befindet sich ein Knopf mit der Bezeichnung "Grafik".

Wenn der Benutzer auf diesen Knopf klickt, dann wird die Grafik in den

Almo-Grafik-Editor geladen. Dort kann sie in vielfältiger Weise

bearbeitet und verändert werden. Z.B. kann der Benutzer die Hintergrund-Wände

durchsichtig weiß machen. Er kann die Balken dicker machen. Er kann die

Beschriftung ändern. Er kann sogar das Balkendiagramm mit einem Mausklick

in ein Liniendiagramm umgestalten. Die Zahl der Veränderungsmöglichkeiten 

ist nahezu unerschöpflich.

 

Nach diesen Veränderungen im Grafik-Editor kann durch einfachen Mausklick

die veränderte Grafik in die Ergebnisliste eingesetzt werden, wo sie die

seitherige Grafik ersetzt.

 

Selbstverstänlich kann die Ergebnisliste mit den eingelagerten Grafiken

problemlos in eine Textverarbeitung, z.B. Word, übergeben werden. Auch

das geschieht wieder mit einem Mausklick.

 

3D-Beschriftung
Ab Almo 9 können Grafiken nunmehr auch (optional) im 3D-Stil beschriftet werden.
Obige Grafik sieht in 3D-Beschriftung so aus:

 

 

Beachte: Die Stufen in den vertikalen Linien der obigen Grafiken verschwinden beim Ausdrucken.
Der Drucker hat eine sehr viel feinere Auflösung als der Bildschirm.
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

Koeffizienten der Logitanalyse

------------------------------

Eine häufig gestellte Frage lautet:

  

Wie sind die im Rahmen der Logit-Analyse errechneten Regressionskoeffizienten 
und Risiko-Koeffizienten zu interpretieren ?

 

Vorweg ist folgendes zu sagen:

Anstelle des Begriffs "Risiko-Koeffizient", den wir hier verwenden, wird in der Literatur
auch der Begriff "Effekt-Koeffizient" gebraucht (so bei D. Urban: Logit-Analyse,
Gustav Fischer, Stuttgart, 1993).

 

Betrachten wir ein Beispiel: 
Kunden kaufen auf Kredit. Werden sie ihren Kredit zurückzahlen ?

Die Variablen für unser Beispiel sollen folgende sein:

 

Die Zielvariable ist     Kredit-Rückzahlung: nein,

                                             ja

 

Die unabhängigen nominalen Variablen sind

                                    Wohnort: Stadt

                                             Land

 

                                 Hausbesitz: kein Haus

                                             hat Haus

 

Die unabhängigen quantitativen Variablen sind

                                             Einkommen

                                             Rückzahlungsrate

                                             Kredit-Laufzeit

Almo liefert folgende Ausgabe (verkürzt).

 

 

Ergebnisse fuer 2. Auspraegung "ja" der abhaengigen Variablen V10 Rückzahl  

(als Referenz wird die 1. Auspraegung "nein" verwendet)

 

    unabhängige Variable    Regress.     Risiko    relatives  Signifikanz   partielle

                            koeff.ß      epx(ß)    Risiko      (1-p)*100    Korrelation

---------------------------------------------------------------------------------------

    A1    Wohnort:   Stadt  -0.43493    0.64731    -35.26902      100.00    -0.13168

    A2    Wohnort:    Land   0.43493    1.54486     54.48553      100.00     0.13168

 

    B1   Hausbesi:kein Hau  -0.74569    0.47440    -52.55955      100.00    -0.15825

    B2   Hausbesi:hat Haus   0.74569    2.10791    110.79059      100.00     0.15825

 

    V4   Einkommen           0.68943    1.99257     99.25744      100.00     0.25486

    V7   Rueckrate          -0.00077    0.99923     -0.07689      100.00    -0.25619

    V8   Laufzeit            0.04562    1.04667      4.66727       99.22     0.06526

---------------------------------------------------------------------------------------

 

Erläuterung zum Regressionskoeffizient

Betrachten wir die beiden Regressionskoeffizienten für den Wohnort

 

             A1  Wohnort:   Stadt -0.43493

             A2  Wohnort:    Land  0.43493

 

Das Logit-Modell lautet

 

 

  (0)  p1 = 1 / ( 1 + exp( -(c + a(i) + b(j) + ß1*E + ß2*R + ß3*L )))

 

 


Diese Gleichung kann so umgewandelt werden, daß auf der rechten Seite ein linearer Ausdruck steht

 

  (1)  ln(p1/p2) = c + a(i) + b(j) + ß1*E + ß2*R + ß3*L

 

 

p1=Wahrscheinlichkeit für Kreditkauf: ja

p2=Wahrscheinlichkeit für Kreditkauf: nein (p2=1-p1)

   Natürlich gilt: p2 = 1-p1

e =e-Zahl 2.718

c =Konstante

 

a(i) bezeichnet die Regressionskoeffizienten für die 2

     Dummy-Variable des Wohnorts

b(j) bezeichnet die Regressionskoeffizienten für die 2

     Dummy-Variable des Hausbesitz

 

es ist also:

 

a1=Regressionskoeffizient für "Stadt"

a2=Regressionskoeffizient für "Land"

 

E =Einkommen

ß1=Regressionskoeffizient für Einkommen

 

R =Rueckrate

ß2=Regressionskoeffizient für Rueckrate

 

L =Laufzeit

ß3=Regressionskoeffizient für Laufzeit

 

Regressionskoeffizienten der nominalen Variablen

 

Der Regressionskoeffizienten a1=-0.43493 für "Stadt" und a2=0.43493 für "Land" haben folgende Bedeutung:

 

1. Das negative Vorzeichen von a1 drückt aus, daß Städter im Vergleich zur "Durchschnittsperson" das logarithmierte Wahrscheinlichkeitsverhältnis ln(p1/p2) aus Gleichung 1 verringern. Vereinfacht: Städter haben eine geringere Wahrscheinlichkeit ihren Kredit zurückzuzahlen. Umgekehrt drückt das positive Vorzeichen von a2 aus, daß Leute vom Land eine erhöhte Wahrscheinlichkeit haben ihren Kredit zurück zu zahlen.

 

2. Je (absolut) größer der Regressionskoeffizient ist, umso stärker ist diese Tendenz.

 

Regressionskoeffizienten der quantitativen Variablen

 

Der Regressionskoeffizient ß1=0.68943 für "Einkommen" hat folgende Bedeutung: Wenn sich das Einkommen um 1 Einheit erhöht, dann erhöht sich das logarithmierte Wahrscheinlichkeitsverhältnis ln(p1/p2). Vereinfacht: Wenn sich das Einkommen um 1 Einheit erhöht, dann nimmt die Wahrscheinlichkeit zu, den Kredit zurückzuzahlen. Ein negatives Vorzeichen würde bedeuten, dass sich die Wahrscheinlichkeit verringert. Je (absolut) größer der Regressionskoeffizient ist, umso stärker ist diese Tendenz.

 

 

Der Risiko-Koeffizient exp (ß)

 

Unser Beispiel ist relativ komplex. Wir haben 2 ursächliche nominale Variable und 3 ursächliche quantitative Variable.

 

Um unsere Erläuterung übersichtlich gestalten zu können, wollen wir ein anderes, einfacheres Beispiel betrachten, bei dem nur 1 ursächliche nominale und 1 ursächliche quantitative Variable vorhanden ist.

 

Die Variablen für unser vereinfachtes Beispiel sollen folgende sein:

 

Die Zielvariable ist     Kredit-Rückzahlung: nein,

                                             ja

 

Die unabhängige nominale Variable ist Beruf: Arbeiter,

                                             Angestellter,

                                             Selbständiger

 

Die unabhängige quantitative Variable ist:   Einkommen

Sie wird in Einkommensklassen mit den Werten 1,2,3, ....,9 gemessen.

 

Almo liefert folgendes Ergebnis:

 

Ergebnisse für 2. Ausprägung "ja" der abhängigen Variablen "Rückzahlung"     

(die Ausprägung "nein" wird als Referenzkategorie verwendet)

 

 unabhängige Variable         Regress.    "Risiko"    relatives

                              Koeffiz.    exp(Regr.-  Risiko

                                          koeffiz.)   in %

---------------------------------------------------------------

c     Konstante               1.88227         -            -

 

a1    Beruf:Arbeiter          1.37706      3.96324    296.32376

a2    Beruf:Angestellte      -0.92524      0.39644    -60.35623

a3    Beruf:Selbständige     -0.45182      0.63647    -36.35343

 

X     Einkommen              -0.37586      0.68670    -31.33039

---------------------------------------------------------------

 

Die Logit-Modell-Gleichung ist folgende:

 

 

  (0)  p1 = 1 / ( 1 + exp( -(c + a(i) + ß*x ))) 

 


Man beachte:p1 ist die Wahrscheinlichkeit für die 2. Ausprägung "ja" der Zielvariablen "Rückzahlung". Mit p2 werden wir die Wahrscheinlichkeit für die Referenzkategorie "nein" bezeichnen

 

Diese Gleichung kann so umgewandelt werden, dass auf der rechten Seite ein linearer Ausdruck steht.

 

  (1)  ln(p1/p2) = c + a(i) + ßX

 

 

p1=Wahrscheinlichkeit für Rückzahlung: ja

p2=Wahrscheinlichkeit für Rückzahlung: nein

   Natürlich gilt: p2 = 1-p1

c =Konstante

 

a(i) bezeichnet die Regressionskoeffizient für die 3

    Dummy-Variable des Berufs (die den 3 Ausprägungen entsprechen)

 

es ist also:

 

a1=Regressionskoeffizient für "Arbeiter"

a2=Regressionskoeffizient für "Angestellter"

a3=Regressionskoeffizient für "Selbständiger"

 

X =Einkommen

ß =Regressionskoeffizient für Einkommen

 

Für einen Arbeiter in der Einkommensklasse X=4 lautet also die Gleichung

 

  (1a)  ln(p1/p2) =   c  +   a1 +   ßX

                  = 1.88 + 1.38 - 0.38*4

 

Gleichung 1 bzw. 1a kann so transformiert werden, dass der auf der linken Gleichungsseite stehende Logarithmus verschwindet.

 

  (2)  p1/p2 =  exp(c) * exp(a(i)) * exp(ß*X)

 

exp (...) = Exponentialfunktion von ...

 

Für unseren Arbeiter mit Einkommen X=4

 

  (2a) p1/p2 = exp(c)    * exp(a1)   * exp(ß*X)

             = exp(1.88) * exp(1.38) * exp(-0.38*4)

             =   6.62    *   3.96    *  0.22

             =   5.7886

 

Zuerst ist festzuhalten, dass sich die Interpretation auf die 2. Ausprägung der Zielvariablen also auf "Rückzahlung: Ja" bezieht.

 

p1 ist also die Wahrscheinlichkeit für Rückzahlung: ja

p2 ist also die Wahrscheinlichkeit für Rückzahlung: nein

 

Das Wahrscheinlichkeits-Verhältnis p1/p2 wird in der angelsächsischen Literatur "odds" genannt.

 

Wenn man p1 als Gewinn-Wahrscheinlichkeit und p2 als Verlust-Wahrscheinlichkeit interpretiert, dann könnte man p1/p2 als "Gewinn-zu-Verlust-Verhältnis" bezeichnen.

 

Ist die Zielvariable, wie in unserem Beispiel, dichotom, dann gilt

 

          p2 = 1-p1

 

Ist p1=0.5 dann ist p2 auch =0.5. Dann ist p1/p2=1. Das "Gewinn-zu-Verlust-Verhältnis" ist also ausgeglichen.

 

Ist p1=0.6666.. dann ist p2=0.33333... Dann ist p1/p2 =2. Die Gewinn-Chance ist 2 mal besser als die Verlust-Chance

 

In unserem Beispiel ist p1/p2=5.7886. Für unseren Arbeiter mit einem Einkommen von 4 gilt also, dass seine Wahrscheinlichkeit den Kredit zurückzuzahlen 5.7886 mal größer ist als ihn nicht zurückzuzahlen.

 

Wie groß ist dann p1 ?

Hier gilt die allgemeine Formel:

 

                    p1 = f / (1+f)

                       = 5.7886 / (1+5.7886)

                       = 0.853

wobei f=p1/p2

 

Die Wahrscheinlichkeit unseres Arbeiters mit Einkommen 4 den Kredit zurückzuzahlen ist also p1=0.853.

 

Betrachten wir einige Werte von p1

 

           dann ist    "Gewinn-zu-Verlust-Verhältnis"

     p1    p2= 1-p1           p1/p2

    ----   --------          ------

    0.1      0.9              0.111

    0.2      0.8              0.250

    0.3      0.7              0.429

    0.4      0.6              0.667

    0.5      0.5              1

    0.6      0.4              1.500

    0.7      0.3              2.333

    0.8      0.2              4

    0.9      0.1              9

 

Betrachten wir nun wieder Gleichung 2 bzw. 2a. Alle Arbeiter haben - im Vergleich zum Durchschnitt aller Untersuchungspersonen - eine um den Faktor exp(a1) =3.96 erhöhtes Wahrscheinlichkeits-Verhältnis p1/p2, d.h. ihre Wahrscheinlichkeit den Kredit zurückzuzahlen ist erhöht.

 

Dieser Faktor wird in der Literatur gelegentlich "Risiko" genannt. Auch der Begriff "Effekt-Koeffizient" wird gelegentlich gebraucht (so bei D. Urban: Logit-Analyse, Gustav Fischer, Stuttgart, 1993).

 

Wäre exp(a1)=1, dann würden sich die Arbeiter so verhalten wie der Durchschnitt.

 

Wir definieren nun als

 

      relatives Risiko" = (exp(a(i)) - 1) * 100

    

Für die Arbeiter finden wir dann

 

      relatives Risiko = (exp(a1) - 1) * 100

                       = (3.96    - 1) * 100

                       = 296

 

Wir können jetzt formulieren: Arbeiter haben ein um 296 % höheres Risiko einen Kredit zurückzuzahlen als die durchschnittliche Untersuchungsperson.

 

Zu beachten ist, dass die Bezugskategorie der Durchschnitt aller Untersuchungs-personen ist. Dies ist in Almo der Fall, wenn die 0,1,-1 - Kodierung der Dummies der unabhängigen nominalen Variablen verwendet wird. Dies ist die Voreinstellung in Almo.

 

Wird die 0,1 - Kodierung verwendet, dann wird (standardmäßig) die letzte Dummy, in unserem Beispiel die Selbständigen, auf 0 gesetzt. Sie erscheint dann auch gar nicht in der Ergebnis-Ausgabe.

 

Almo liefert folgendes Ergebnis (verkürzt):

 

Ergebnisse für 2. Auspräg. "ja" der abhängigen Variablen "Rückzahlung"     

 

 unabhängige Variable     Regress.    "Risiko"    relatives

                          Koeffiz.    exp(Regr.-  Risiko

                                      koeffiz.)

-----------------------------------------------------------

c     Konstante           1.43044         -            -

 

a1    Beruf:Arbeiter      1.82889      6.22695    522.69462

a2    Beruf:Angestellte  -0.47341      0.62287    -37.71264

 

X     Einkommen          -0.37586      0.68670    -31.33039

-----------------------------------------------------------

  

Die Selbständigen sind jetzt die Bezugskategorie. Die Arbeiter haben im Vergleich zu den Selbständigen eine um 522 % erhöhte Wahrscheinlichkeit den Kredit zurückzuzahlen und die Angestellten eine um 37.7 % reduzierte Wahrscheinlichkeit.

 

In Almo ist es bei der 0,1 - Kodierung möglich, entweder die erste oder die letzte Dummy zu eliminieren. 

 

Allgemein gilt:

 

    a. Bei der 0,1 - Kodierung ist die Bezugskategorie die

       eliminierte Dummy.

    b. Bei der 0,1,-1 - Kodierung ist die Bezugskategorie der

       Durchschnitt aller Untersuchungspersonen.

 

 

Risiko bei quantitativen Variablen

 

Betrachten wir nochmals obige Gleichung (2)

 

  (2)  p1/p2 =  exp(c) * exp(a(i)) * exp(ß*X)

 

Das Einkommen unseres Arbeiters ist X=4.

Der Ausdruck exp(ß*X) ist also exp(-0.37586 * 4) = 0.22236

 

Wenn sich das Einkommen dieser Person um 1 Einheit erhöht, dann

ist der Ausdruck exp(ß*X) = exp(-0.37586 * 5) = 0.15270

 

Wenn wir für X=5 obige Gleichung (2) für unsere Person ausrechnen, dann erhalten wir

 

      p1/p2 = 3.9750

 

Für X=4 haben wir oben errechnet

 

      p1/p2 = 5.7886

 

So hat sich also p1/p2 um den multiplikativen Faktor

 

      3.9750 / 5.7886 = 0.68670

 

verringert. Und das ist genau das in obiger Tabelle angegebene  Risiko exp(ß).

 

Risiko-Werte unter 1 führen zu einer Verringerung von p1/p2. D.h. p1 wird kleiner und p2 wird größer.

 

Risiko-Werte über 1 führen zu einer Erhöhung von p1/p2. D.h. p1 wird größer und p2 wird kleiner.

 

Wir können nun den Begriff "Risiko" (=exp(ß)) bei ursächlichen quantitativen Variablen allgemein definieren.

 

Nimmt die ursächliche quantitative Variable X um 1 Einheit zu, dann nimmt das Wahrscheinlichkeits-Verhältnis p1/p2 um den multiplikativen Faktor exp(ß) zu.

 

Wir können diese Zunahme bzw. Abnahme auch in Prozentwerten ausdrücken. Sie beträgt dann 100(exp(ß)-1). Das ist das relative Risiko.

 

Betrachten wir für Arbeiter die Werte, die sich gemäß Gleichung 2 für Einkommenswerte X von 0 bis 6 ergeben.

 

        X       p1/p2      Multiplikator

       ---     -------     -------------

        0      26.0326

        1      17.8765        0.6867

        2      12.2758        0.6867

        3       8.4298        0.6867

        4       5.7886        0.6867

        5       3.9750        0.6867

        6       2.7297        0.6867

 

Das Wahrscheinlichkeits-Verhältnis p1/p2 einer nachfolgenden Einkommensstufe entsteht

durch Multiplikation mit exp(ß)=0.6867 des Wahrscheinlichkeits-Verhältnis p1/p2 der

vorhergehenden Einkommensstufe.

 

Literatur:

Almo-Handbuch zu P22 Logit- und Probit-Analyse

Almo-Handbuch zu Data Mining

Arminger, Küsters: Statistischr Verfahren zur Analyse qualitativer Variablen,

              Bergisch Gladbach, 1986

G.S. Maddala: Limited-dependent and qualitative variables in econometrics,

              Cambridge, 1990  

Dieter Urban: Logit-Analyse, Gustav Fischer, Stuttgart, 1993