4.10.2021
1. Das Bootstrap-Verfahren kann nun auch auf die Logit- und Probitanalyse angewendet werden
    Das gilt für folgende Koeffizienten
    a.  Die Regressionskoeffizienten der unabhängigen quantitativen Variablen
    b.  Die Regressionskoeffizienten der Dummies der unabhängigen nominalen Variablen
    c.  Die paarweisen Vergleiche (Kontraste) der Dummies der jeweiligen unabhängigen
         nominalen Variablen
    d.  Die Risikokoeffizienten exp(ß) aller unabhängigen Variablen alternativ zu den Regressions-
         koeffizienten. Nicht bei der Probitanalyse möglich.

     Für diese Koeffizienten werden der Standardfehler, die Signifikanz p und das Konfidenzintervall
     durch Bootstrap ermittelt.

2.  Die spezielle Programm-Maske "Prog22m5" für eine besonders einfache Dateneingabe
    wurde entwickelt

3.  Es wurde das Handbuch "Bootstrap bei Logit-und Probitanalyse" verfasst.
     Das Verfahren wird darin ausführlich beschrieben, die Eingabe in die spezielle
     Programm-Maske Prog22m5 erklärt und die Bootstrap-Ergebnisse erläutert.

Folgende spezielle Programm-Masken für das Bootstrap-Verfahren sind nunmehr verfügbar
Prog05m6: Basis-Statistiken mit Bootstrap
                 
Mittelwert, Standardabweichung                                                                              
                 
Median, Quartile, Konfidenzintervall etc.

Prog05m7: Häufigkeitsverteilung, Anteilswerte mit Bootstrap

Prog19em: Korrelationsmatrix für quantitative, ordinale und nominale Variable                                                  

                   auch Matrix von beliebig wählbaren Partialkorrelationen

                   mit Bootstrap

Prog20my: Allgemeines Lineares Modell mit Bootstrap                                                                              

Prog22m5: Logit- und Probit-Analyse mit Bootstrap

In diesen Programmen wird durch Bootstrap der Standardfehler, die Signifikanz p
und das Konfidenzintervall für den jeweiligen Koeffizienten ermittelt


13.6.2021 Bootstrap 
In Almo kann gegenwärtig das Bootstrap-Verfahren eingesetzt werden für

              1. die Basisstatistiken mit Programm-Maske Prog05m6

              2. die Korrelationsmatrix (inkl. Partialmatrix) mit Programm-Maske Prog19em

              3. das Allgemeine Lineare Modell (ALM) mit Programm-Maske Prog20my

 

Für das Bootstrap-Verfahren, insbesondere für das Bootstrap beim ALM wurde ein ausführliches
Handbuch verfasst.

           Almo-Dokument 13b "Bootstrap beim Allgemeinen Linearen Modell" (hier).

 

Es ist beabsichtigt weitere in Almo vorhandene statistische Methoden durch Bootstrap zu erweitern.

Ein erster Blick auf das Bootstrap-Verfahren.

Aus einer vorliegenden Stichprobe (wir nennen sie "originale" Stichprobe) der Größe n werden

zufällig n Datensätze mit Zurücklegen ausgewählt. Dadurch entsteht die Bootstrap-Stichprobe Nr. 1.

Originalstichprobe und Bootstrapstichprobe sind also gleich groß. Das Zurücklegen allerdings

bewirkt, dass manche Datensätze mehrfach ausgewählt werden und dass manche Datensätze

der originalen Stichprobe nicht in die Bootstrap-Stichprobe geraten. Auf diese Weise werden viele,

etwa 1000 Bootstrap-Stichproben erzeugt.

 

Betrachten wir ein Beipiel, bei dem 1000 Stichproben aus der Orirginal-Stichprobe gezogen

werden. Für die originale Stichprobe und für alle 1000 Bootstrap-Stichproben

rechnet Almo ein ALM. Die Ergebnisse des ALM für die Original-Stichprobe werden

zuerst ausgegeben. Die Ergebnisse aus den 1000 Bootstrapstichproben werden zusammen-

gefasst, im einfachsten Fall nur gemittelt und dann separat ausgegeben. Besonders bedeutsam

ist, dass aus dem Bootstrapping empirische Verteilungen für die verschiedenen Koeffizienten

des ALM gewonnen werden. Dadurch ist es möglich, Standardfehler, Signifikanzen (p-Werte) und

Konfidenzintervalle, für die keine Verteilungsannahmen erforderlich sind, für die verschiedenen

Koeffizienten des ALM zu ermitteln.

Das ist der primäre Zweck des Bootstrap-Verfahrens. Es erzeugt "verteilungsfreie" Schätzer.

 

Betrachten wir als Beispiel den Regressionskoeffizienten b1 für eine Kovariate x1. Aus den

1000 Bootstrapstichproben erhalten wir 1000 Werte für b1. Wir berechnen deren Mittelwert

und ihre Standardabweichung. Die Standardabweichung ist dann der "Standardfehler" von b1.

 

 Die obere und untere Grenze des Konfidenzintervalls für beispielsweise ein Konfidenzniveau

 von 95% erhalten wir sehr einfach in folgender Weise: Die 1000 b1-Werte werden der Größe

 nach (aufsteigend) sortiert. Vom maximalen b1-Wert werden absteigend 2,5% von 1000 also

25 Werte heruntergezählt. Der dort in Position 975 stehende b1-Wert ist die obere Intervallgrenze.

 Entsprechend wird vom minimalen Wert ausgehend 25 Werte hinaufgezählt. So wird in Position 26

der untere Grenzwert gefunden. Zwischen den beiden Grenzwerten befinden sich dann 95% aller Werte

und außerhalb der Grenzwerte 5% aller Werte. Diese sehr einfache Berechnungsweise wird als

 "Perzentil-Verfahren" bezeichnet. Almo verwendet dieses Verfahren und optional das etwas

komplexere Perzentil-t -Verfahren.

 

Ob ein Koeffizient zweiseitig signifikant ist, wird zunächst daran erkannt, ob das für ihn

festgestellte Konfidenzintervall bei dem vom Forscher geforderten Konfidenzniveau (z.B. von  95%)

den Wert 0 einschließt. Ist das nicht der Fall, dann ist der Koeffizient signifikant. Soll umgekehrt die

Signifikanz als exakter p-Wert ermittelt werden, dann geht es darum, dasjenige Konfidenzniveau

zu finden, das ein Konfidenzintervall erzeugt, das gerade noch den Wert 0 unter- oder oberhalb seiner

Grenzen positioniert. 1.0 minus diesem Konfidenzniveau/100 ist dann die Signifikanz p.

Beim Perzentil-t -Verfahren ist die Berechnung des p-Wertes etwas komplexer.

 

Als bester Schätzer für b1 wird der Wert aus der Original-Stichprobe und nicht der

Mittelwert aus den Bootstrapstichproben für den Forschungsbericht verwendet.

Als seinen Standardfehler wird die aus dem Bootstrap gewonnene Standardabweichung

eingesetzt, als seine Signifikanz p und sein Konfidenzintervall werden die aus

dem Perzentil-Verfahren errechneten Werte eingesetzt. Alle diese Koeffizienten sind

"verteilungsfrei". Auf diese Weise lassen sich viele Koeffizienten aus den verschiedenen

statistischen Verfahren behandeln. Bootstrap liefert für diese Koeffizienten den Standardfehler,

die Signifikanz (p-Wert) und das Konfidenzintervall, wobei diese drei "verteilungsfrei" sind.

 

Bootstrap bei Basisstatistiken

Almo führt für diese Koeffizienten ein Bootstrap-Verfahren durch
   1. f
ür ordinale Variable
      1.1. 1. und 3. Quartil
      1.2. Median
   2. f
ür quantitative Variable
      2.1. arithmetsches Mittel
Für diese Koeffizienten werden durch Bootstrap errechnet
     
a. der Mittelwert aus allen Bootstrap-Stichproben
   b. der Standardfehler als Standardabweichung aus allen Bootstrap-Stichproben
   c. das Konfidenzintervall durch das Perzentil-Verfahren

 

Bootstrap bei Allgemeinem Linearen Modell (ALM)

Almo führt für diese Koeffizienten ein Bootstrap-Verfahren durch

   1. für die Kovariaten:

      1.1. die Regressionskoeffizienten

      1.2. die Eta-Korrelationen

   2. für die nominalen Variablen:

      2.1. die Effekte der Haupt-und Interaktions-Dummies

      2.2. die Eta-Korrelationen der Haupt-und Interaktions-Dummies

      2.3. die partielle multiple Eta-Korrelation aus den Dummies je
           nominale Variable

      2.4. die paarweisen Mittelwertsvergleiche innerhalb der nominalen
           Variablen

   3. für die Konstante:

      3.1. den Regressionskoeffizienten

   4. für alle unabhängigen Variablen zusammen:

      4.1. die multiple Korrelation

 
Für alle diese Koeffizienten werden durch Bootstrap errechnet
     
a. der Mittelwert aus allen Bootstrap-Stichproben
   b. der Standardfehler als Standardabweichung aus allen Bootstrap-Stichproben
   c. die Signifikanz (p-Wert) durch das einfache Perzentilverfahren oder
      das Perzentil-t –Verfahren  
  
d. das Konfidenzintervall durch das einfache Perzentilverfahren oder das
      Perzentil-t -Verfahren

            Das Konfidenzniveau für das zu ermittelnde Intervall ist beliebig wählbar. Üblich ist
            95.00. Damit wird überprüft, ob der jeweilige Koeffizient mindestens auf dem Niveau
            p=0.05 signifikant ist.
 

Im multivariaten Fall wenn zwei oder mehrere abhängige Variable vorhanden sind,
werden folgende Koeffizienten als Mittelwert aus allen Bootstrapstichproben berechnet
     
1. für die Kovariaten:
     
1.1. Wilks lambda bzw. Pillais Spur
      1.2. die Korrelation nach Pillai
   2. f
ür die nominalen Variablen:
      2.1. Wilks lambda bzw. Pillais Spur je Haupt-und Interaktions-Dummies
     
2.2. die Korrelation nach Pillai je Haupt-und Interaktions-Dummy
     
2.3. die partielle multiple Pillai-Korrelation aus den Dummies je
           nominale Variable
   3. für alle unabhängigen Variablen zusammen:
      3.1. Pillais Spur
      4.1. die multiple Korrelation nach Pillai
Für diese Koeffizienten aus der multivariaten Analyse werden die oben unter a, b, c und d
durch Bootstrap errechnete Maßzahlen errechnet, das sind Bootstrap-Mittelwert, Standard-
fehler, p-Wert, Konfidenzintervall.

 
Bootstrap bei Korrelationsmatrix
Almo führt für den Korrelationskoeffizienten ein Bootstrap-Verfahren durch. 
Abhängig vom Messniveau der Variablen können das folgende Korrelationskoeffizienten sein

 

                                         nominal-        nominal-  

                   quant.   ordinal      dichotom        polytom   

                  +--------------------------------------------------+

     quantitativ  ¦   r* ¦Groß-Gamma ¦punktbiserial r ¦     Eta      ¦

                  +------+-----------+----------------+--------------¦

         ordinal  ¦      ¦  tau-b    ¦biserial. tau-b ¦  Groß-Gamma  ¦

                  +------+-----------+----------------+--------------¦

nominal-dichotom  ¦      ¦           ¦      Phi       ¦     Phi'     ¦

                  +------+-----------+----------------+--------------¦

 nominal-polytom  ¦      ¦           ¦                ¦   Cramers V  ¦

                  +--------------------------------------------------+

 r* = Produkt-Moment-Korrelation

 

Zum Gross-Gamma-Kalkül und -Koeffizienten siehe Almo-Dokument Nr. 5 "Korrelation",
besonders Abschnitt P19.0.3. (hier)
Sind nominal-polytome Variable vorhanden, dann werden diese zuerst in Dummies aufgelöst.
Durch eine kanonische Korrelation werden sie dann wieder zusammengefasst
und in einer 2. Korrelationsmatrix ausgegeben.

Alle Korrelationskoeffizienten r(ik) sind "proportional reduction of error"-Koeffizienten.
Werden sie quadriert, dann drücken sie den Anteil aus, um den sich die Fehlerstreuung in
der Variablen k reduziert, wenn i als erklärende Variable eingeführt wird.
In der Programm-Maske Prog19em für das Bootstrapping kann durch eine Option
aus der Korrelationsmatrix eine partielle Korrelationsmatrix abgeleitet werden.
Für sie gelten die folgenden Angabe in der selben Weise.

Für den (jeweiligen) Korrelationskoeffizienten werden durch Bootstrap errechnet 

      a. der Mittelwert aus allen Bootstrap-Stichproben
   b. der Standardfehler

      als Standardabweichung aus allen Bootstrap-Stichproben
   c. die Signifikanz (p-Wert) durch das einfache Perzentilverfahren oder
      das Perzentil-t –Verfahren

   d. das Konfidenzintervall durch das einfache Perzentilverfahren oder das
      Perzentil-t -Verfahren

Das Konfidenzniveau für das zu ermittelnde Intervall ist beliebig wählbar.

 

 

13.7.2020    Die Programme zur Daten-Imputation und das Handbuch dazu wurden grundlegend
                     überarbeitet
                     a. Das neue Handbuch trägt jetzt den Titel Daten-Imputation und "plausible values"
                     b. Es wurden neue Programme hinzugefügt bzw. bestehende Programme erweitert,
                         die für fehlende Werte Ersatzwerte generieren und dabei (1) das ALM, (2) das ALM mit
                         vorausgehender Hauptkomponenten-Zerlegung, (3) die Logitanalyse und (4) die Cluster-
                         analyse einsetzen.
                     c. Hinzugefügt wurden Programm zur Erzeugung von multipel imputierten Variablen und
                         plausible values. Im Handbuch wurde ein entsprechendes Kapitel hinzugefügt.

                     Almo enthält jetzt folgende 8 Programm-Masken zur Daten-Imputation

                        ALM-          HALM-          Logit-         Cluster-

                        Imputation    Imputation*    Imputation     Imputation

┌────────────────────┬─────────────┬──────────────┬──────────────┬──────────────┐

│Ein-Wert-Imputation │ Prog45mm_fw │ Prog45Hk_fw    Prog45mz   │ ProgImp_Clust

                                                                          

│multiple Imputation │ Prog45mm_Imp│ Prog45Hk_Imp                            

                                                                          

│plausible values    Prog45mm_PV │ Prog45Hk_PV                             

│Imputation                                                                

└────────────────────┴─────────────┴──────────────┴──────────────┴──────────────┘
* HALM-Imputation = Imputation durch ALM mit vorausgehender Hauptkomponenten-Zerlegung


                     Programm Prog20mo zum ALM wurde so erweitert, dass es Daten, die multipel
                     imputierte Variable oder "plausible values" enthalten, auswerten kann.

 

Die fortlaufende Durchnummerierung der Almo-Versionen haben wir 2012 mit der Nummer 15 beendet.
Almo existiert seit vielen Jahren und wird auch noch viele weitere Jahre gepflegt und erweitert werden
- wobei wir jeweils umfangreichere Änderungen dokumentieren werden.

  

 6.2.2019  Für das Allgemeine Lineare Modell wurden Programm und Handbuch Teil I (Dokument
                    Nr. 13) überarbeitet.
                     Programm:
                     a. Für die Schätzverfahren der fitting constants I und II (SS-Typ II) und das sequentielle
                         Verfahren (SS-Typ I) wurden Sonderprogramme entwickelt.
                         Die Programme werden im überarbeiteten Handbuch (Dokument Nr. 13) interpretiert.
                     b. Randmittel werden für Interaktionen auch höherer Ordnung errechnet und ausgegeben
                     c. Programme, die versuchen das Problem der "leeren Zellen" zu lösen, wurden eingefügt.

                     Handbuch:
                     c. Die vier in Almo enthaltenen Schätzverfahren der weighted squares of means (SS-Typ III)
                         der fitting constants I und II (SS-Typ II) und das sequentielle Verfahren (SS-Typ I)
                         werden intensiver behandelt als seither.
                     d. Im Handbuch werden die Randmittel ausführlich erläutert
                     e. Das Problem der "leeren Zellen" wird gründlich diskutiert. Verschiedenen Lösungs-
                         möglichkeiten werden dargestellt und Programme dafür angeboten

 

-------------------------------------------------------------------------------------------------------------
Mit der Version 15 von Almo haben wir aufgehört zu nummerieren, da wir sonst

in den nächsten 85 Jahren (in denen es noch Almo gibt) bei der Version 100
ankommen würden. Wir werden Almo fortwährend verbessern, "verschönern"
und erweitern. Die Änderungen werden jeweils auf der Seite "Download" und
"News" mitgeteilt.
-------------------------------------------------------------------------------------------------------------

 

Änderungen in Version ab Sept. 2017

Wie immer wurden kleine Änderungen vorgenommen, die der Benutzer nicht bemerkt.
Fehler, die dem Benutzer bekannt gemacht werden müssen, haben wir keine entdeckt.

Neu ist folgendes: Prog51m1 zur Wahlhochrechnung und Wählerstromanalyse wurde
überarbeitet. Die Programmeingabe für den Benutzer wurde vereinfacht, die Ergebnisausgabe
übersichtlicher gestaltet und die Grafik teilweise "verschönert". Das Handbuch wurde erheblich
überarbeitet. Nicht nur die Programmeingabe wird erklärt; auch die Methode, die
praktische Vorgehensweise und die Problem des Verfahrens werden ausführlich dargestellt.
Unser Handbuch ist damit eines der wenigen, das die Hochrechnung und Wählerstromanalyse
umfassend darstellt und öffentlich zugänglich ist.
Das Handbuch kann auch separat (ohne das gesamte Almo-Programm) als Dokument 33
herunter geladen werden.

 

Was ist neu in Almo15 ab 1. Sept. 2015

Neu eingeführt wurden die folgenden Verfahren:

    1. die metrische multidimensionale Skalierung (kurz: metrische MDS)
    2. das metrische multidimensionale Unfolding (kurz: metrisches MDU)

Metrische multidimensionale Skalierung (metrische MDS)

An einem Beispiel soll dieses Verfahren kurz vorgestellt werden.
Durch paarweisen Vergleich wurden die Ähnlichkeiten in der Wahrnehmung verschiedener Automarken ermittelt.
Die Kodierungen wurden zu Distanzen (Unähnlichkeiten) "umgedreht". Es entstand folgende Distanzmatrix

                                                     

             Opel VW   Suz  Toy  Merc BMW  Ferr Por  Lamb Roll

Opel         0                                                

VW           3.1  0                                           

Suzuki       5.0  4.4  0                                      

Toyota       3.8  3.3  3.7  0                                  

Mercedes     5.9  5.8  7.0  5.3  0                            

BMW          5.5  5.5  7.0  4.2  2.7  0                       

Ferrari      8.4  8.1  8.3  8.3  6.9  6.8  0                  

Porsche      8.4  8.1  8.4  8.3  6.4  6.4  3.0  0              

Lamborghini  8.5  8.2  8.8  8.7  6.6  6.4  2.1  3.4  0        

Rolls Royce  8.5  8.6  8.9  8.2  5.8  7.0  6.6  6.8  6.3  0   

 

 (Daten aus Internetpaper "Multidimensionale Skalierung", BUGH Wuppertal, 2001                 

 

Almo liefert folgendes Ergebnis:

 

Matrix der Faktorladungen

                      ┌───────────────────────────────┐

                        Faktor 1  Faktor 2  Faktor 3 │

 ┌────────────────────┼───────────────────────────────┤

 │Opel        V1          3.6170    0.3755   -0.0848 │

 │Volkwage    V2          3.5083    0.9681   -0.1096 │

 │Suzuki      V3          3.5673    2.1300    2.0885 │

 │Toyota      V4          3.7712   -0.2035   -0.1224 │

 │Mercedes    V5          0.1811   -2.7555   -1.2839 │

 │BMW         V6          0.6122   -1.8120   -2.5856 │

 │Ferrari     V7         -4.1109    2.0314    0.0821 │

 │Porsche     V8         -3.9372    1.5550   -0.7375 │

 │Lamborgh    V9         -4.4048    1.2016   -0.4196 │

 │RollsRoy   V10         -2.8042   -3.4905    3.1727 │

 └────────────────────┴───────────────────────────────┘

 

 

Für die 3-Faktoren-Lösung gibt Almo einen Stress von 0.11 und für die 2-Faktoren-Lösung von 0.20 aus.
Der Stress-Koeffizient drückt die Güte einer Lösung aus. Je kleiner der Koeffizient umso besser die Lösung.
Selbstverständlich ist dieses Gütemaß umso besser je mehr Faktoren extrahiert werden.
Nach gängiger Meinung bedeutet ein Stress von 0.20, dass eine ausreichend gute Lösung gefunden wurde.
Es genügt also, 2 Faktoren zu extrahieren.

 

 

Die 3-Faktoren Lösung grafisch dargestellt:

metrMDS3d

 

 

 

Wir können nun eine Definition der metrischen MDS geben:

 

             Ihre Aufgabe ist es, die Distanzen bzw. Ähnlichkeiten zwischen Objekten in einem
             ein- oder mehrdimensionalen Raum abzubilden.

 

 

 

Das metrische multidimensionale Unfolding (MDU)
An einem Beispiel soll dieses Verfahren kurz vorgestellt werden.
Betrachten wir ein Beispiel. Eine Stichprobe von Personen wird darüber befragt, wie sympathisch sie

 die 5 Parteien ParteiA bis ParteiE finden. Die Personen werden nach Geschlecht und 4 Bildungsstufen

 in 8 Gruppen zusammengefasst. Für jede Gruppe wird der Mittelwert ihrer Sympathie gegenüber den 5 Parteien ermittelt.

Die MDU verlangt, dass Distanzen und nicht Präferenzen bzw. Sympathien als Daten in ihren Kalkül eingegeben werden.
Die Sympathien gegenüber den Parteien wurden mit 1 bis 9 gemessen. Sie werden nun sehr einfach in Distanzen
umgewandelt, indem sie "umgedreht", d.h. von 9 subtrahiert werden

So entsteht folgende Distanzmatrix D

 

                              | Personen-

              Partei          |  Gruppe

      A    B    C    D    E   |    PG

      V1   V2   V3   V4   V5  |    V6

     ---  ---  ---  ---  ---  |  -----

     4.0  3.0  3.0  4.0  6.0  |    1

     3.0  9.0  9.0  2.0  4.0  |    2

     3.0  5.0  6.0  4.0  2.0  |    3

     2.0  4.0  4.0  3.0  3.0  |    4

     4.0  2.0  3.0  5.0  5.0  |    5

     4.0  1.0  2.0  5.0  5.0  |    6

     3.0  9.0  9.0  3.0  2.0  |    7

     4.0  6.0  7.0  4.0  2.0  |    8

 

 

Für obige Distanzmatrix liefert Almo folgende Ladungsmatrix

 

                 Faktor 1   Faktor 2  

         PartA    -1.4382    -0.9737

         PartB     4.5376     0.2255

         PartC     4.5017    -0.9314

         PartD    -2.0639    -1.5698

         PartE    -2.5055     1.2202

      Person-1     2.1970    -2.5389

      Person-2    -4.3112    -2.3061

      Person-3    -0.4993     2.4875

      Person-4     0.4525     0.1589

      Person-5     2.3104     0.6234

      Person-6     2.6130     0.5715

      Person-7    -4.5262     0.2137

      Person-8    -1.2678     2.8193

 

Ähnlich der Faktorenanalyse erhält man eine Ladungsmatrix,
die dann noch grafisch als 2-dimensionales Koordinatensystem dargestellt wird

 

metrMDU 

 

Die Distanz-Urteile der 8 Personengruppen gegenüber den 5 Parteien lassen sich also in 2 Dimensionen arithmetisch
und grafisch darstellen.  Das ist Sinn und Zweck der MDU.
Wir können z.B. erkennen, dass die Personengruppe 1 (etwa junge, hochgebildete Personen) eine große Distanz zur
Partei E haben. Am dichtesten liegen sie bei Partei C. Informationen dieser Art sind natürlich auch aus der Distanzmatrix ablesbar.
Durch die grafische Darstellung werden sie jedoch veranschaulicht. Außerdem leistet die MDU (vergleichbar der Faktorenanalyse)
eine dimensionale Datenreduktion. In der Regel, aber nicht immer, sind die gefundenen Dimensionen inhaltlich benennbar.
In unserem Beispiel könnte vielleicht die eine Dimension als die "Links-Rechts-Dimension" und die zweite als
geographische Nord-Süd-Dimension bezeichnet werden.

Die Leistung der MDU geht aber noch weiter. Aus der Grafik werden auch die Distanzen zwischen den Parteien ersichtlich
und auch zwischen den Personengruppen. So erkennt man z.B. dass Partei C und E am weitesten voneinander entfernt sind.
Bei den Personen sieht man, dass Person-1 und Person-8 am weitesten voneinander entfernt sind.
Das sind Informationen, die aus der Distanzmatrix nicht unmittelbar ersichtlich werden.

 

Was ist neu in Almo ab 1. Sept. 2013 ?
Wieder wurden viele kleine Verbesserungen vorgenommen, von denen der Benutzer
wenig bemerken wird.

Mit großem rechnerischem und programmiertechnischem Aufwand haben wir

                 das allgemeine ordinale Rasch-Modell
                     ("partial credit model")

für dichotome und ordinal-polytome Items in Almo eingefügt. In einer Analyse
dürfen Items mit unterschiedlich vielen und beliebig vielen Ausprägungen vorhanden
sein. Neben vielen Grafiken waren wir darauf bedacht, dem Benutzer "Itemfit-Maße"
anzubieten, die es ihm ermöglichen "nicht-Rasch-konforme" Items zu erkennen.

Der Benutzer findet das neue Programm mit
       Klick auf den Knopf "Verfahren"
       dann "Rasch-Modell" selektieren

Das Handbuch "Das allgemeine ordinale Rasch-Modell" ist im
Almo-Ordner "Handbuch" enthalten. Eine immer wieder aktualisierte
Version kann als separates Almo-Dokument herunter geladen werden.

Alle Unterprogramme sind im Quelltext in der Sprache C und R vorhanden
und dürfen von interessierten Programmierern frei verwendet werden.
Der Benutzer findet sie im Almo-Unterordner "Algorithmen_in_C" im Modul
up_algorith11.c und im Almo-Unterordner "Rasch_in_R"


- Was ist neu in der Version 15 von Almo ?
- Was ist neu in der Version 14 von Almo ?
- Was ist neu in der Version 13 von Almo ?
- Was ist neu in der Version 12 von Almo ?
- Was ist neu in der Version 11 von Almo ?
- Was ist neu in der Version 10 von Almo ?
- Was ist neu in der Version  9 von Almo ?
- Die Koeffizienten der Logitanalyse

Was ist neu in der Version 15 (1. Sept. 2012) von Almo ?

Die Speicherverwaltung des Almo-Editors und der Almo-Oberfläche wurde verändert.

Gelegentliche Abstürze von Almo werden dadurch seltener. In den meisten Fällen

wird ein Absturz dadurch verursacht, dass der Benutzer in die Eingabemasken von

Almo eine unzulässige Eingabe vornimmt - die nicht durch eine der vielen Almo-

Fehlermeldungen abgefangen wird.

 

Bei den "Algorithmen_in_C" wurden die C-Quelltexte eingefügt für:

 

   1. Prog_21: Konfirmatorische Faktorenanalyse mit Eingabe einer fertigen Faktorladungsmatrix
   2. Prog_22: Faktorwerte für die Untersuchungsobjekte berechnen und in eine neue Datei speichern
   3. Prog_23: Rasch-Skalierung

   4. Für alle Programme wurde die Möglichkeit eingebaut, Variablenwerte nach dem Einlesen

      und vor der Auswerung umzukodieren. In Prog_0.alm wurde diese Möglichkeit exemplarisch

      eingefügt. Siehe "Info5_Umkodier.txt" im Almo-Ordner "Algorithmen_in_C"

 

Besonders interessant dürfte das Rasch-Skalierungs-Verfahren für diejenigen

Benutzer sein, die mit den Pisa-Daten 2012 rechnen wollen. Die Leistungstests zu

Mathematik, Lesen etc. können dann auf ihre Brauchbarkeit für das jeweilige Land

überprüft werden. Die Daten zu Pisa 2012 werden wir im Almo-Format zur Verfügung stellen,

sobald sie vorliegen.

Was ist neu in der Version 14 von Almo ?

Wieder wurden viele kleine Verbesserungen vorgenommen, von denen der Benutzer

wenig bemerken wird.


Neu eingefügt wurde die Konfirmatorische Faktorenanalyse.

 

Bei der konfirmatorischen Faktorenanalyse wird (1) eine aus der Theorie begründete Faktorladungsmatrix

mit (2) einer aus den empirischen Datem gewonnenen Faktorladungsmatrix verglichen und versucht

(3) eine dritte Faktorladungsmatrix als "Kompromiss" zu gewinnen.

Wir bezeichnen die in (1) genannte theoretische Matrix auch als "Zielmatrix", die in (2)

genannte Matrix als "empirische Matrix" und die in (3) genannte Matrix als "konfirmatorische

Matrix".

 

Für die Gewinnung der "konfirmatorischen Faktorladungsmatrix" gibt es 2 Ansätze:

Die Kleinste-Quadrate-Lösung und die Maximun-Likelihood-Lösung.

In Almo ist die Kleinste-Quadrate-Lösung enthalten.

  

Eine bedeutsame Unterscheidung ist die zwischen (1) orthogonaler und (2) schiefwinkliger konfirmatorischer Faktorenanalyse.
Bei ersterer wird angenommen, dass eine orthogonale Lösung den empirischen Daten am besten entspricht
bzw. dass eine aus der Theorie begründete orthogonale Faktorladungsmatrix vorliegt.
Bei der zweiten wird angenommen, dass die Faktoren miteinander korrelieren bzw. dass eine aus
der Theorie begründete schiefwinklige Faktorladungsmatrix vorliegt.

 

Almo enthält zur konfirmatorischen Faktorenanalyse die beiden Programme Pro30m8 und Prog30m9.
Der Benutzer gelangt zu diesen Programmen durch Klick auf den Knopf „Verfahren“ und dann „Faktorenanalyse“.
Ausserdem sind noch 3 Beispielprogramme, die aus Prog30m8 gestartet werden können, vorhanden.

 

Das in Almo realisierte Verfahren kann auch für den Vergleich zweier empirischen Faktorladungsmatrizen

verwendet werden. Beispielsweise könnten die faktorisierten Leistungen von Männern und Frauen in

verschiedenen Tests aufeinder bezogen werden. In diesem Fall liefert das Verfahren
eine dritte Faktorladungsmatrix, die daraus entstand, dass die "Männer-Matrix" maximal an die Frauen-Matrix

"heranrotiert" wurde. Umgekehrt könnte auch die Frauen-Matrix an die Männer-Matrix heranrotiert werden.

Das Ergebnis muss nicht dasselbe sein.

 

Die konfirmatorische Faktorenanalyse wurde auch in die Statistischen Algorithmen in C aufgenommen.
Im C-Modul "a_up_algorith4.c" wurde die Prozedur "a_konfirmator_faktanalyse" und einige zusätzliche

Unterprogramme eingefügt. Wenn der Benutzer die exe-Datei "Prog_20.exe" startet, dann wird
die Eingabe-Datei Prog_20.alm eingelesen und eine konfirmatorische Faktorenanalyse gerechnet.
Das Ergebnis ist dann in Prog_20.erg enthalten.
Die genannten Dateien sind im Ordner ".\Almo14\Algorithmen_in_C\Algorith_Konsole" enthalten.


Was ist neu in der Version 13 von Almo ?

Wie üblich haben wir Korrekturen und viele kleine Verbesserungen vorgenommen.

 

Johann Bacher hat die kmeans-Clusteranalyse nochmals überarbeitet und die
daran angepasste neue Ausgabe seines Buchs "Clusteranalyse" (Oldenbourg-Verlag)
herausgebracht.

 

Neu hinzu gekommen ist das "Zeigen der Daten".

Mehrere Almo-Benutzer haben beklagt, dass in Almo nicht (wie z.B. in SPSS)
die Daten, auf die sich die jeweilige Analyse bezieht, sichtbar sind.

Der Grund dafür ist, dass Almo bei den meisten Verfahren einen Datensatz
nach dem anderen einliest und nict die gesamte Datenmatrix im Speicher hält.
Das hat den Vorteil, dass die Zahl der Datensätze, die ausgewertet werden können,
im Prinzip unbeschränkt ist - aber eben den Nachteil, dass die Datenmatrix
nicht ständig im Speicher präsent ist und damit auch angezeigt werden kann.

Allerdings zeigt die Erfahrung, dass es für die Auswertungsarbeit genügt,
wenn, wie in Almo, die Datei der Variablen-Namen und -Nummern vorhanden ist.

Diese kann ja durch einfachen Mausklck in ein separates Fenster geladen werden.

Trotzdem haben wir es jetzt ermöglicht, die Datenmatrix in einem extra

Fenster und in übersichtlicher Form ständig präsent zu halten. Das geschieht
nach Klick auf den Knopf "Zeige Daten" in der oberen Knopfleiste von Almo.

 

 

Was ist neu in der Version 12 von Almo ?

Wieder haben wir viele kleine Verbesserungen vorgenommen.

Insbesondere haben wir an der Oberfläche von Almo gearbeitet.

 

Die kmeans-Clusteranalyse wurde um die Möglichkeit erweitert mehrere

Lösungsversuche für eine vorgegebene Clusterzahl zu rechnen (wobei Almo

dann die beste davon hervorhebt)

 

Neu hinzu gekommen sind bei den "Statistischen Algorithmen in C"

1. die Logit- und Probitanalyse

2. die kanonische Diskriminanzanalyse

3. die k-means-Clusteranalyse

Was ist neu in der Version 11 von Almo ?

Wie immer wurden kleinere Verbesserungen und Verschönerungen gemacht.

Das sind die Neuheuten:

1. Imputation fehlender Werte mit Hilfe der Clusteranalyse

2. Statistischer Algorithmen in C

 

Zu 'Imputation fehlender Werte'

Zuerst wird eine k-means Clusteranalyse durchgeführt. Sie liefert die

Mittelwerte der Klassifikationsvariablen je Cluster und ordnet jeder

Untersuchungseinheit eine Clusterzugehörigkeit zu. Danach wird das

eigentliche Imputationsverfahren gerechnet. Eine Untersuchungseinheit,

die dem Cluster i angehört und in der Klassifikationsvariablen j keinen

Wert besitzt, erhält in dieser Variablen j den Mittelwert ihres Clusters.

Bei nominalen Klassifikationsvariablen wird der Erwartungswert bzw.

der wahrscheinlichste Wert je Cluster ermittelt und als Ersatzwert für

den fehlenden Wert eingesetzt.

Die Ersatzwerte können dann noch durch normalverteilte Zufallswerte (mit

dem Mittelwert und der Standardabweichung der betreffenden Klassifikations-

variablen) überlagert werden.

Danach werden die so veränderten Datensätze gespeichert.

 

Zu 'Statistische Algorithmen in C'

Die in Almo angebotenen statistischen Verfahren enthalten viele

statistische Algorithmen. Beispiele:

 

Mittelwert-Berechnung
Chi-Quadrat-Test
Korrelations-Berechnung

Allgemeines Lineares Modell

Faktorenanalyse
etc.


Diese Algorithmen haben wir etwas vereinfacht, von Ballast (wie z.B.

komplexen Optionen) befreit und stellen sie so dem interessierten

Programmierer für eigene Software-Projekte zur Verfügung.
Alle Algorithmen sind in der Programmiersprache "C" geschrieben.
Damit Sie mit den angebotenen Algorithmen experimentieren und sie

auch verändern können, haben wir die Algorithmen in das

Almo-System eingebunden. Damit sind sie aus Almo startbar und es

können Daten eingelesen werden und mit den Algorithmen gerechnet

werden. Trotzdem bleiben die Algorithmen allgemein einsetzbare

C-Funktionen.

Eine Liste aller Algorithmen finden Sie unter "Algorithmen in C"

 

-----------------------------------------------------------------------------------------

Was ist neu in der Version 10 von Almo ?

Neben den üblichen "kleinen Verbesserungen und Verschönerungen" wurde

1. ein umfangreicher Programmteil zur Behandlung von Ausreissern eingefügt
2. Der Grafikbereich wurde durch ein Pfaddiagramm erweitert.

 

Zu den Ausreissern

Ausreisser sind Werte, die ausserhalb "valider Grenzen" liegen.
Die "validen Grenzen" definiert der Forscher. Anders formuliert: Es gibt
keine "objektive", eindeutige Definition, was ein Ausreisser ist.
Der Forscher legt fest, was für ihn ein Ausreisser ist.
Werden Ausreisser vom Forscher aus der Analyse ausgeschlossen, dann tut er
dies, weil er unterstellt, dass diese Daten - obwohl empirisch gewonnen -
falsch sind oder er tut dies, weil sie ihm einen Variablen-Zusammenhang
seiner Meinung nach verfälschen.

In Almo werden 2 Typen von Ausreissern unterschieden:

Ausreisser vom Typ 1:
Ein Variablenwert liegt ausserhalb des "validen Wertebereichs"
der Variablen. Hier können nochmals 2 Untertypen unterschieden werden
a. Schreibfehler
b. Extremwerte

Ausreisser vom Typ 2:
Ein Variablenwert liegt ausserhalb der "validen Punktewolke"
eines mehrdimensionalen Variablen-Zusammenhangs.

Zu Typ 1a: Schreibfehler als Ausreisser
Ausreisser entstehen sehr oft dadurch, dass beim Schreiben der Daten
Fehler gemacht werden. Beispiel: Anstelle 9 wird versehentlich
der Wert 99 geschrieben. Diese Art der Ausreisser werden durch
das schon immer vorhandene Almo-Programm Prog03m entdeckt.

Zu Typ 1b: Extremwert als Ausreisser
Natürlich gibt es auch "echte" Ausreisser, die nicht durch Schreibfehler
entstanden sind. Beispiel: Für eine Stichprobe von 1000 Personen wird
das Einkommen erhoben. Dabei sind einige wenige Milliardäre in die
Stichprobe gelangt. Deren Einkommen liegt ausserhalb des
"validen Wertebereichs". Wird nun die Korrelation zwischen Einkommen
und beispielsweise Schulbildung ermittelt, so kann der
Korrelationskoeffizient durch die Milliardäre dramatisch verändert werden.
Hier ist es sinnvoll, die Milliardäre als Ausreisser zu identifizieren
und aus der Analyse auszuschliessen.
Für diesen Zweck wurde in viele Almo-Programme die Optionsbox

"Ausreisser vom Typ 1 identifizieren"

eingefügt. Diese Option kann auch verwendet werden, um Ausreisser vom Typ 1a,
also Schreibfehler, zu finden. Dem Benutzer werden folgende
"Behandlungsmöglichkeiten" von Ausreissern angeboten:
 

1 Ausreisser in Ergebnisliste nur melden
2 melden und auf Kein-Wert (missing value) setzen
3 melden und auf validen Grenzwert setzen
4 melden und auf bereinigte Ober- bzw. Untergrenze setzen
5 melden und ganzen Datensatz ausschliessen

 

Almo bietet auch an, eine neue "Ausreisser-bereinigte" Datei zu erstellen.
Diese kann dann für weitere Analysen verwendet werden.

Zu Typ 2: Ausreisser liegt ausserhalb der "validen Punktewolke"
Betrachten wir ein Beispiel:


Der Zusammenhang zwischen der Variablen x und y wird durch ein
Streudiagramm grafisch dargestellt. Die kleinen roten Punkte sind
Messpunkte. Die durchgezogene Linie ist die Regressionsgerade.

Der Messpunkt B ist ein Ausreisser vom Typ I. Sein x-Wert liegt
weit ausserhalb des validen Wertebereichs von x.

Der Messpunkt A ist ein Ausreisser vom Typ II. Sein x-Wert und sein
y-Wert liegt zwar innerhalb des validen Wertebereichs von x und y.
In Bezug auf den Zusammenhang von x und y ist er jedoch ein
Ausreisser. Er liegt ausserhalb der "validen Punktewolke xy".

Um Ausreisser vom Typ 2 zu identifizieren und zu "behandeln" wurde

ein spezielles Almo-Programm entwickelt. Das Programm ermöglicht es,
auch Ausreisser in einem multi-dimensionalen (und nicht nur 2-dimensionalen)
System zu identifizieren.


Zum Pfaddiagramm
Betrachten wir ein Beispiel: Für 6 Variable wird mit (dem schon immer
in Almo vorhandenen) Prog25m1 eine Pfadanalyse gerechnet.
Dabei wird folgende kausale Reihenfolge angenommen

Herkunft-->Bildung-->Leistung-->Einkommen-->Vermögen-->Konsum

Die Herkunft bestimmt die Bildung, diese die Leistung usw.
Mit Prog25m1 werden die standardisierten Regressionskoeffizienten
für ein volles rekursives Kausalmodell ermittelt. D.h. es wird zunächst
unterstellt, dass in obiger Reihenfolge jede Variable alle
nachfolgenden Variablen determiniert
Dieses Modell wird nun in Almo 10 grafisch als Pfaddiagramm dargestellt.

Das geschieht automatisch. Der Benutzer braucht nicht selbst zu zeichnen.
Das Pfaddiagramm wird ihm im Ergebnisfenster präsentiert.


Das Pfaddiagramm umfasst 6 Variable. Um die Pfeile optisch besser unterscheiden
zu können werden Farben verwendet.
Auf den Pfeilen stehen die (standardisierten) Regressionskoeffizienten.
Signifikante Pfade sind durch 1 oder 2 oder 3 Sterne markiert. Die entsprechenden
Pfeie sind fett gezeichnet (was in obigem verkleinertem Diagramm nicht sichtbar wird).
Standardmäßig werden an den Regressionskoeffizient angehängt:

1 Stern wenn seine Sigifikanz (1-p)*100 >= 95 % bzw. p <= 0.05
2 Stern wenn seine Sigifikanz (1-p)*100 >= 99 % bzw. p <= 0.01
3 Stern wenn seine Sigifikanz (1-p)*100 >= 99,9 % bzw. p <= 0.001

Im Almo-Grafik-Editor können die Signifikanzen je Stern anders definiert werden.
Dort besteht auch die Möglichkeit, nicht-signifikante Pfade aus dem Diagramm zu löschen
und nur Pfade zu zeigen, die mindestens 1 Stern besitzen, also mit mindestens
95 % signifikant sind. Es entsteht dann folgendes Pfaddiagramm.

 

------------------------------------------------------------------------------------------------

Was ist neu in der Version 9 von Almo ?

Die Almo-Wahlhochrechnung mit Wählerstromanalyse ist nunmehr im Standard-Almo

enthalten.
 

Wie bei jedem Almo-Update wurden wieder viele kleine, einzelne Verbesserungen
und "Verschönerungen" bei den Eingabe-Masken, den Berechnungen, den Ergebnislisten 
und den Grafiken
vorgenommen. Bei den Grafiken wurde es z.B. ermöglicht, diese
im 3D-Stil zu beschriften. Weiter unten zeigen wir Ihnen ein Beispiel.

Joachim Gerich hatte schon für die Almo-Version 8.5 einen "Importmanager"

entwickelt, der es auf eine sehr einfache Weise ermöglichte, Daten aus SPSS
nach Almo und umgekehrt zu übertragen. Jetzt hat er für Almo 9 ein sehr komfortables
Dateneingabe-Modul entwickelt.

 

Die "große" Verbesserung wurde im Grafikbereich bereits in der Version 8.0 vorgenommen: 

Almo gibt in seinen Ergebnislisten, zusätzlich zu den Tabellen, Matrizen etc.

eine Vielzahl von Grafiken aus. Diese Grafiken wurden seither in separaten 

Fenstern gezeigt. Jetzt stehen diese Grafiken  mitten in der Ergebnisliste 

bei den Tabellen und Matrizen, die sie optisch  veranschaulichen sollen.

 

Betrachten wir ein Beispiel.

Die Leistung von 61 Schülern wird ausgezählt. Almo liefert folgendes Ergebnis:

 

 

Variable 5 Leistung       

 

Wert                  Fälle      %    % kumuliert

─────────────────────────────────────────────────

   1 sehr gut            15    24.59      24.59

   2 gut                 28    45.90      70.49

   3 befriedigend        10    16.39      86.89

   4 ausreichend          7    11.48      98.36

   5 nicht genügend       1     1.64     100.00

─────────────────────────────────────────────────

Summe                    61     100%  
 

 

Zuerst wird in einer Tabelle die Häufigkeitsverteilung dargestellt.

Dann wird die Häufigkeitsverteilung als Balkendiagramm gezeichnet.

Über der Grafik befindet sich ein Knopf mit der Bezeichnung "Grafik".

Wenn der Benutzer auf diesen Knopf klickt, dann wird die Grafik in den

Almo-Grafik-Editor geladen. Dort kann sie in vielfältiger Weise

bearbeitet und verändert werden. Z.B. kann der Benutzer die Hintergrund-Wände

durchsichtig weiß machen. Er kann die Balken dicker machen. Er kann die

Beschriftung ändern. Er kann sogar das Balkendiagramm mit einem Mausklick

in ein Liniendiagramm umgestalten. Die Zahl der Veränderungsmöglichkeiten 

ist nahezu unerschöpflich.

 

Nach diesen Veränderungen im Grafik-Editor kann durch einfachen Mausklick

die veränderte Grafik in die Ergebnisliste eingesetzt werden, wo sie die

seitherige Grafik ersetzt.

 

Selbstverstänlich kann die Ergebnisliste mit den eingelagerten Grafiken

problemlos in eine Textverarbeitung, z.B. Word, übergeben werden. Auch

das geschieht wieder mit einem Mausklick.

 

3D-Beschriftung
Ab Almo 9 können Grafiken nunmehr auch (optional) im 3D-Stil beschriftet werden.
Obige Grafik sieht in 3D-Beschriftung so aus:

 

 

Beachte: Die Stufen in den vertikalen Linien der obigen Grafiken verschwinden beim Ausdrucken.
Der Drucker hat eine sehr viel feinere Auflösung als der Bildschirm.
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx