Ankündigung

Einklappen
Keine Ankündigung bisher.

Wahrscheinlichkeiten und Tests

Einklappen
X
 
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

    Wahrscheinlichkeiten und Tests

    Auch wenn es kein (elektro)technisches Thema ist, scheint mir der Ort aufgrund der letzten Diskussionen passend und
    auf diese Weise bleibt Reno_Barths Thread von diesem OT-Inhalt verschont.

    Die Diskussion dreht sich immer wieder um die Ergebnisse von Tests und ihre Bewertung; eine salopp (nur sinngemäß zitierte) Anmerkung lautet "fünf Versuche sind nicht genug, wir brauchen mindestens 20 und im Casion sind fünfmal rot (oder schwarz) auch häufiger vorgekommen" .

    Kurz zu den Grundlagen der Testerei; man formuliert die sog. Nullhypothese, mit der man behauptet, Testergebnisse seien durch Raten zustande gekommen, sowie die Alternativhypothese, mit der man behauptet, es gäbe einen wahrnehmbaren Unterschied zwischen den Testgegenständen.

    Man berechnet nach einem Test die Wahrscheinlichkeit dafür, daß ein bestimmtes Ergebnis nur durch Raten zustande kam und entscheidet anhand dieser Wahrscheinlichkeit (mit Hilfe einer vorher festgelegten Schwelle), ob man die Nullhypothese oder die Alternativhypothese bestätigt sieht.

    Diese vorher festgelegte Schwelle ist das sog. Signifikanzniveau und wird auch als Irrtumswahrscheinlichkeit bezeichnet.

    Überlicherweise wird eine Irrtumswahrscheinlichkeit von 5% bei Experimenten mit menschlicher Wahrnehmungsfähigkeit als akzeptabel angenommen, d.h. wenn die Wahrscheinlichkeit, durch reines Raten ein bestimmtes Testergebnis zu erzielen, geringer ist als 5%, dann weist man die Nullhypothese zurück.

    Nimmt man einen Test mit 5 Durchgängen (z.B. perfekte Münze mit Kopf und Zahl), dann ist die Wahrscheinlichkeit für Kopf und Zahl bei jedem Durchgang gleich und liegt bei 1/2 . Die Wahrscheinlichkeit bei 5 Durchgängen fünfmal Kopf zu erhalten liegt bei 0.5 hoch 5, d.h. die Wahrscheinlichkeit für dieses Ergebnis beträgt ~3,1% .

    Als Vergleich ein Test mit 20 Durchgängen; die Wahrscheinlichkeit 15mal (oder öfter) Kopf zu erhalten liegt bei (Berechnung über Binomialverteilung) ~2,1% .

    In beiden Fällen liegt die Wahrscheinlichkeit, per Zufall das Ergebnis zu erzielen, unterhalb von 5% und beide Irrtumswahrscheinlichkeiten liegen trotz der deutlich unterschiedlichen Durchgangszahlen relativ eng beieinander. Man würde in beiden Fällen die Nullhypothese zurückweisen.

    Der Vergleich mit dem Kasino führt in die Irre, denn im Kasino wird eine ununterbrochene Reihe von Zufallsexperimenten durchgeführt und innerhalb dieser sehr langen Reihe kann man wahrscheinlich auch "fünfmal Kopf" hintereinander finden.

    Ein Beispiel mit dem Münzwurf (K für Kopf, Z für Zahl) bei zwei aufeinanderfolgenden 5er Tests:

    ZKZKKKKKZZ

    finden wir eine Reihe von 5 Kopftreffern, aber die wahren Testresultate wären zwei 5er Tests mit jeweils nur 3 Treffern. Die Wahrscheinlichkeit für 3 (und mehr) Treffer von 5 liegt bei 50% und auch zusammengenommen hätte man nur 6 (und mehr) Treffer von 10 mit der Ratewahrscheinlichkeit von ~37,7% .

    Aus diesem Grund ist es eine "Todsünde" der Testung ohne vorherige Festlegung solange zu testen, bis eine "passende" Trefferzahl hintereinander auftaucht.

    Gruß
    Gewerblicher Teilnehmer. Entwicklung, Herstellung und Vertrieb von Audiotechnik. (u.a.)

    #2
    Sehr schöner Beitrag!!!

    Ich hoffe, dass er auch gelesen und verstanden wird... wäre einigen Diskussionen hier sehr zuträglich!!!
    :S
    Mfg Günther

    Kommentar


      #3
      Gähn....

      Die Hörtests auf der Klippel Seite dürften wohl die meisten Leser kennen.
      Ich habe mich natürlich ebenfalls "geprüft".

      http://www.klippel-listeningtest.de/lt/default.html

      Die Tests haben 20 Durchgänge, in denen der zu hörende Fehler immer kleiner wird.
      Bis zum 15ten Durchgang kommt man eigentlich ganz gut durch, dann wird es (für mich)
      in praktisch allen Fällen nicht mehr möglich....Zumindest nicht mit den Lautsprechern, die ich am PC verwende.

      Gleich beim ersten Testdurchgang habe ich also ab dem 15ten Durchgang 5x GERATEN und bin .....na was wohl....durchgeschlüpft. Das war Zufall.

      Hätte ich es bei diesem einen Test belassen, wäre ich in den Augen derer, die "live" dabei waren ein "Hörtalent" gewesen.

      Man forderte mich also auf, das ganze bitte zu wiederholen.....Sollte ja kein Problem für mich sein. Also wiederholte ich den Test, was wiederum bis -27 dB gut klappte.
      Danach musste ich natürlich wieder raten und versagte.

      Ich konnte diesen Glücksfall zwar mit der Zeit ein paar mal (durch Raten) wiederholt hinlegen, unterm Strich wurde aber jedem klar, dass ich nur geraten habe....
      Hätte ich den Test nur ein einziges mal gemacht, wäre ich als Hörgenie durchgeschlüpft.

      Kommentar


        #4
        @jakob
        Schöner Beitrag (Thread) und deine Aussagen sind mir auch klar.

        Sie (die Aussagen) gehen aber immer davon aus, daß es nur einen Testdurchgang gibt und - dazu braucht es wieder keine Wissenschaftlichkeit, der normale Hausverstand reicht - das ist viel zu wenig, um ein halbwegs abgesichertes Ergebnis zu erzielen.

        Ich habe nach meinem ersten verblindeten Kabeltest auch nicht gleich behauptet, daß es keine Unterschiede gibt, aber nach (im Laufe der Jahrzehnte) weit über hundert bin ich mir da schon sehr sicher.

        Langsam bin ich mir auch bei den CD-Playern und Transistorverstärkern schon recht sicher daß es so ist (Röhrenendverstärker mit Ausgangstrafo, Fehlkonstruktionen und/oder Transistorverstärker am Limit betrieben einmal ausgenommen).

        Denn auch hier gibt es bereits eine Anzahl von Tests und Proben, die das leider sehr wahrscheinlich werden lassen. Und letztlich wird das auch durch Messungen untermauert. Es gibt nichts Relevantes zu messen und "erhören" kann man auch nichts. Was liegt also näher, als zu sagen, daß es unter "normalen Umständen" keine Unterschiede gibt?

        Und - ganz wichtig! - wenn es etwas zu hören gibt, dann ist es auch zu 100% auch messbar.

        Alles das passt zusammen, es ist sonnenklar und eigentlich gibt es nichts mehr dazu zu sagen.

        Das gefällt aber sehr vielen Leuten nicht (die Gründe sind leicht durchschaubar) und deshalb die nicht enden wollenden "Grabenkämpfe" in den Hifi-Foren.

        Auch an dieser Stelle: die Hauptschuld an allem haben die einschlägigen Medien, weil auch sie ausschließlich ihre Interessen verfolgen.

        Die einzige(n) Frage(n) die geklärt werden müsste(n) - von mir aus auch auf wissenschaftlicher Basis - ist die der Hörschwellen. Und über diese Ergebnisse würden sich sehr viele Leute wundern - bzw. sehr enttäuscht sein!
        Gruß
        David


        WEBSEITE HiFiAKTIV: Klick mich
        Einen "Audio-Laien" erkennt man daran, dass er sich viel mehr mit Audiokomponenten beschäftigt als mit Raumakustik, LS-Aufstellung und Hörplatzwahl.
        Auch Personen, die noch wenig Wissen auf diesem Gebiet haben, oder solche, die Rat und Hinweise von Erfahrenen suchen, sind hier richtig.
        Meine Auffassung von seriösen Vergleichstests: Klick mich - Die bisherigen Testergebnisse: Klick mich - Private Anlage: Klick mich - Wann gefällt mir ein Musikstück? - Klick mich
        Grundsätzlich: Behauptungen die mir bedenklich erscheinen, glaube ich nur, wenn sie messtechnisch nachvollziehbar sind und wenn sie mir in Form eines verblindeten Vergleichs bewiesen werden konnten.
        Eine Bitte an Alle: nicht ganze (noch dazu große) Beiträge zitieren und darunter einen kurzen Kommentar schreiben! Besser (beispielsweise): "Volle Zustimmung zu Beitrag 37".
        Wichtig: zumindest versuchen, beim Thema bleiben!

        Kommentar


          #5
          ich denk mir, unsere sinne scannen das frequenzmuster, aus denen sich unsere welt aufbaut, auf sehr komplexe und für uns mit sicherheit nicht gänzlich nachzuvollziehende art und weise.
          messinstrumente scannen die "realität" auch, allerdings in einem winzigen, eakt definierten fenster.
          gäbs keine korrelationen, wär das sehr seltsam - allerdings: mach ich mich auf die suche nach bestimmten inhaltsstoffen, find ich in der regel - wenn überhaupt - bloß das, wonach ich gesucht habe.
          letztendlich gehts immer um erfahrungen - machte ich die erfahrung, dass ich mich auf meine messungen in hinblick auf klangliche relevanz verlassen kann, wird mich das prägen.
          andererseits sind mir jene profis am liebsten, die da behaupten, dass nix sein kann, wo nix sein darf.
          gruß alex

          Kommentar


            #6
            Paschulke2 hatte ein Beispiel aus dem Lotteriebereich in einem Beitrag erwähnt:

            Kleines Beispiel dazu: Die Wahrscheinlichkeit, im deutschen Lotto (6 aus 49) ohne Zusatzzahl in einem Spiel zufällig mit 6 Richtigen zu gewinnen, ist ca. 1:14000000 (0.000007%). Wenn also jemand im deutschen Lotto mit einem Spiel 6 Richtige hat (was regelmäßig passieren wird), dann wäre das, folgt man der Jakob'schen "Argumentation", kein Zufall, sondern die Folge der Tatsache, dass der Gewinner vorab die Lottozahlen kannte.

            Genau deshalb schrieb ich in diesem Thread, dass man mich mit solchen knappen "Kann-nicht-mehr-durch-Zufall-erklärt-werden-Ergebnissen" in Ruhe lassen möge.

            <snip>
            Es fehlt die notwendige Zusatzinformation über die Zahl der teilnehmenden Zahlenreihen; es wurden in Deutschland im Jahr 2011 tatsächlich 948 Millionen Spielaufträge im Gesamtwert von 6.6 Milliarden Euro vergeben.

            Zieht man (durschnittlich angenommene) Bearbeitungsgebühren sowie Spiell77/Super6 anteilig ab, kommt man auf durchschnittlich 48 Millionen mitspielende Zahlenreihen pro Ziehung.
            Der Erwartungswert für 6 richtige plus Superzahl liegt also bei:
            1/149.000.000 x 48.000.000 = 0.32

            d.h. im Mittel erwartet man alle 3-4 Wochen einen derartigen Treffer. Ich denke, es ist einsichtig, weshalb 6 Richtige ohne Superzahl entsprechend noch häufiger auftreten.

            Ein Beitrag, der diesen Zusammenhang vernachlässigt, fällt üblicherweise unter die Rubrik "Lügen mit Statistik" ;)

            Gruß

            P.S. "Durchschnittlich 48 Millionen Spielaufträge" deshalb, weil tatsächlich die Zahl in Wochen mit "geringen" Spielgewinnen kleiner ist als in Wochen mit höheren Jackpots
            Zuletzt geändert von Jakob; 12.02.2012, 21:28.
            Gewerblicher Teilnehmer. Entwicklung, Herstellung und Vertrieb von Audiotechnik. (u.a.)

            Kommentar


              #7
              Zitat von Jakob Beitrag anzeigen
              Ein Beitrag, der diesen Zusammenhang vernachlässigt, fällt üblicherweise unter die Rubrik "Lügen mit Statistik" ;)
              Na, damit musst Du Dich doch vorzüglich auskennen. Du bist ein derartiger Tatsachenverdreher (siehe dieses Beispiel), dass es echt nicht mehr lustig ist.

              Soso, das Experiment "6 Richtige im Lotto" wird also im Schnitt 48 Millionen mal pro Woche wiederholt. Mach Sachen!

              Du bist der derjenige, der sich gern Einzelergebnisse herauspickt und die dann mit einem "Signifikanzniveau" (das steht nicht in Anführungszeichen, weil ich es nicht kenne, sondern weil Du es nachplapperst) <5% als Wahrheit verkaufst.

              Das Lottobeispiel war als Beispiel dafür gedacht, wie falsch es sein kann, ein sehr unwahrscheinliches Ereignis (und das ist es aus Sicht des Spielers) als "nicht zufällig" zu deklarieren. Nochmal extra für Dich und Deine Claqueure: Aus Sicht des Spielers sind 6 Richtige extrem unwahrscheinlich und trotzdem ist es Zufall.

              Deine 5% "Signifikanzniveau" kannst Du Dir in die Haare schmieren, wenn das Experiment nicht von Dir oder anderen wiederholt wird. 5% bedeutet, dass es in 20 Experimenten einmal zu diesem Ergebnis nur durch Raten (Zufall) kommen wird. Wenn Du Dir also aus weniger als 20 Experimenten eines mit einem "Signifikanzniveau" <5% raussuchst und damit Deine Scheinwahrheiten (das ist ein Ersatzwort) belegt haben willst, dann ist das
              Zitat von Jakob Beitrag anzeigen
              "Lügen mit Statistik"
              Zuletzt geändert von Gast; 12.02.2012, 21:03.

              Kommentar


                #8
                Könntest du dein unterirdisches Diskussionsverhalten nicht einmal überdenken?

                Zitat von paschulke2 Beitrag anzeigen
                Na, damit musst Du Dich doch vorzüglich auskennen. Du bist ein derartiger Tatsachenverdreher (siehe dieses Beispiel), dass es echt nicht mehr lustig ist.
                Welche Tatsache habe ich "siehe dieses Beispiel" verdreht?

                Du bist der derjenige, der sich gern Einzelergebnisse herauspickt und die dann mit einem "Signifikanzniveau" (das steht nicht in Anführungszeichen, weil ich es nicht kenne, sondern weil Du es nachplapperst) <5% als Wahrheit verkaufst.
                Du hattest in deinem Beitrag, aus dem das Zitat stammt, eine Irrtumswahrscheinlichkeit von 0.32% als "nur knapp nicht zufällig" (sinngemäß) bezeichnet, die weiteren Ergebnisse wurden ebenfalls wie angegeben erzielt.

                BTW, deine Kriteriumserläuterung im anderen Thread mit Bezug auf das Signifikanzniveau ist da ziemlich fragwürdig.

                Das Lottobeispiel war als Beispiel dafür gedacht, wie falsch es sein kann, ein sehr unwahrscheinliches Ereignis (und das ist es aus Sicht des Spielers) als "nicht zufällig" zu deklarieren. Nochmal extra für Dich und Deine Claqueure: Aus Sicht des Spielers sind 6 Richtige extrem unwahrscheinlich und trotzdem ist es Zufall.

                Deine 5% "Signifikanzniveau" kannst Du Dir in die Haare schmieren, wenn das Experiment nicht von Dir oder anderen wiederholt wird. 5% bedeutet, dass es in 20 Experimenten einmal zu diesem Ergebnis nur durch Raten (Zufall) kommen wird. Wenn Du Dir also aus weniger als 20 Experimenten eines mit einem "Signifikanzniveau" <5% raussuchst und damit Deine Scheinwahrheiten (das ist ein Ersatzwort) belegt haben willst, dann ist das
                Nur hattest du einfach vergessen, zu erläutern, weshalb in dem Hifiaktivschen Fall willkürlich ein Ergebnis aus vielen anderen "fehlgeschlagenen" herausgepickt wurde.
                Die weiteren Wiederholungen, die das Ergebnis ebenfalls bestätigen, fanden bei dir keine Berücksichtigung.

                BTW, deine Verwendung des Signifikanzbegriffs im obigen Quote legt nahe, daß du irgendwo einer Mißinterpretation unterliegst.

                Bei kleinen Samplezahlen testet man zwar "offiziell" auf einem SL=0.05 , aber tatsächlich liegt die Irrtumswahrscheinlichkeit deutlich darunter.
                Bei 5 Treffern aus 5 Durchgängen liegt die Ratewahrscheinlichkeit bei 0.032, bei 12 aus 16 Versuchen bei 0.018, bei 15 aus 2 Versuchen bei 0.021 .

                Das heißt im statistischen Mittel rechnet man mit einem Fehler 1.Art einmal pro 31, oder einmal pro 47, oder einmal pro 55 Tests.

                Im Hifiktivschen Beispiel wäre es ein Fehler 1.Art alle 312 Tests. (ohne Berücksichtigung der Bestätigung)

                Das heißt, nicht wenn ich mir aus weniger als 312 Experimenten (nämlich genau 5) eins mit SL<=0.006 (eigentlich 0.0032) rausspicke, ist das fragwürdig, sondern das genaue Gegenteil von fragwürdig.
                Fragwürdig wäre es, mir aus mehr als 312 Experimenten (je mehr desto fragwürdiger) mit gleichem Testgegenstand eines herauszupicken.

                Gruß
                Zuletzt geändert von Jakob; 12.02.2012, 22:05.
                Gewerblicher Teilnehmer. Entwicklung, Herstellung und Vertrieb von Audiotechnik. (u.a.)

                Kommentar


                  #9
                  Könntest du dein unterirdisches Diskussionsverhalten nicht einmal überdenken?
                  Sehe ich ebenso....Er hält sich einem Schlitzohr wie DIR gegenüber viel zu sehr zurück.
                  Hoffentlich ändert er das noch.

                  Kommentar


                    #10
                    Zitat von Jakob Beitrag anzeigen
                    Nur hattest du einfach vergessen, zu erläutern, weshalb in dem Hifiaktivschen Fall willkürlich ein Ergebnis aus vielen anderen "fehlgeschlagenen" herausgepickt wurde.
                    Nachdem Du dieses Beispiel gebracht hattest (ich kenne diesen Test nicht) und ganz offenbar ein Ergebnis herausgepickt hast, wäre es an Dir gewesen, "zu erläutern". Die anderen Ergebnisse kamen später.

                    Wenn Du übrigens anfängst zu erläutern, könntest Du Reno vom Sturm'schen Kabeltest erzählen; den hast nämlich IIRC auch Du in den Thread eingebracht.

                    Zitat von Jakob Beitrag anzeigen
                    Die weiteren Wiederholungen, die das Ergebnis ebenfalls bestätigen, fanden bei dir keine Berücksichtigung.
                    Als ich meine 1:312 geschrieben habe, war von Wiederholungen keine Rede.

                    Ich habe nur geschrieben, dass das "Signifikanzniveau" noch so toll (niedrig) sein kann und das Ergebnis trotzdem reiner Zufall sein kann. Du hingegen trägst die p=0.05 als eine Art Beweis der Wahrheit vor dir her, als gäbe es da nichts mehr zu hinterfragen.

                    Kommentar


                      #11
                      Zitat von paschulke2 Beitrag anzeigen
                      Ich habe nur geschrieben, dass das "Signifikanzniveau" noch so toll (niedrig) sein kann und das Ergebnis trotzdem reiner Zufall sein kann.
                      das ist richtig. allerdings auch sehr unwahrscheinlich. ab p= 0,000000000001 kann man sich damit frei im Universum bewegen :D

                      über den Sturmschen Kabeltest hätt ich wirklich gerne etwas info...

                      lg
                      reno

                      Kommentar


                        #12
                        Zitat von Reno Barth Beitrag anzeigen
                        über den Sturmschen Kabeltest hätt ich wirklich gerne etwas info...
                        Bitte sehr.

                        Die statistischen Abhandlungen in dieser Arbeit sind allerdings sehr komplex, ich weiß nicht, ob Du da mitkommst*) … ;)

                        Gruß

                        Thomas

                        *) Ohne solide Kenntnisse im Anschauen von bunten Excel-Histogrammen geht da gar nix.

                        PS: Im verlinkten Thread im Hifi-Forum findet sich allerdings die Statistik, die eigentlich in der Arbeit hätte stehen sollen. Es bleiben aber die schwerwiegenden methodischen Mängel der Arbeit.
                        Zuletzt geändert von Gast; 13.02.2012, 10:10.

                        Kommentar


                          #13
                          Zitat von paschulke2 Beitrag anzeigen
                          dankeschön. habs mir mal runtergeladen. lesen kann ich's frühestens heute Abend...


                          lg
                          reno

                          Kommentar


                            #14
                            Barbara Bredner: Statistische Beratung und Lösungen


                            Kommentar


                              #15
                              Zitat von Blindniete Beitrag anzeigen
                              Barbara Bredner: Statistische Beratung und Lösungen
                              Schöner Link mit wunderbarem Beispiel zur Reliabilität:
                              Zitat von Barbara Bredner
                              Ein Beispiel für eine reliable Frage ist "Wie viele Mitarbeiter hat Ihre Abteilung?" Dagegen hat die Frage "Wie viele teamfähige Mitarbeiter hat ihre Abteilung" eine geringe Reliabilität, da unklar ist wie "teamfähig" definiert ist und dadurch unterschiedliche Einschätzungen zu Stande kommen können.
                              Im Bereich Audio haben wir es mit der Problematik zu tun, dass die Frage nach dem hörbaren Unterschied oder der Präferenz so einfach und reliabel wie "Wie viele Mitarbeiter hat Ihre Abteilung?" zu beantworten sein soll, glaubt man den Magazinen, den Boutique-High-End-Herstellern oder den üblichen Forenwunderkindern. Sobald man den hörbaren Unterschied oder die Präferenz aber wirklich objektiv überprüfen will, wird die Frage auf einmal so kompliziert und nicht reliabel beantwortbar wie "Wie viele teamfähige Mitarbeiter hat ihre Abteilung, die unbewusst Lust verspüren, in Strapsen zur Arbeit zu kommen und deren Schwiegermutter als Kind davon geträumt hat, Lokomotivführer zu werden, während ihr Vater heimlich eine Andere hatte?". Das ist das ganze Problem, das wir hier nie lösen werden.

                              Gruß

                              Thomas

                              Kommentar

                              Lädt...
                              X
                              👍