HRRS

Onlinezeitschrift für Höchstrichterliche Rechtsprechung zum Strafrecht

Oktober 2013
14. Jahrgang
PDF-Download

Aufsätze und Entscheidungsanmerkungen

Zur empirischen Herleitung des Zehn-Augen-Prinzips im Revisionsverfahren

Von Dominik Brodowski, LL.M. (UPenn), München

Fischer setzt mit seinem Beitrag "Der Einfluss des Berichterstatters auf die Ergebnisse strafrechtlicher Revisionsverfahren"[1] sein Plädoyer fort, dass sämtliche zur Entscheidung berufenen (Revisions‑)Richter am Bundesgerichtshof unmittelbar Kenntnis zu nehmen haben von den verfahrensgegenständlichen Akten ("Zehn-Augen-Prinzip")[2] und nicht allein mittelbar durch den Aktenvortrag des Berichterstatters in Kenntnis gesetzt werden dürfen.[3] Neben scharfsinnigen normativen Überlegungen tritt dabei eine empirische Argumentation, die auf dem Einfluss der Person des Berichterstatters auf das Ergebnis des Revisionsverfahrens basiert. Bei dieser auf beachtlichen Rohdaten[4] beruhenden empirischen Herleitung des Zehn-Augen-Prinzips im Revisionsverfahren lässt Fischer den Leser indes im Unklaren, ob und auf welche mathematisch-statistischen Methoden[5] er seine Schlussfolgerungen stützt.[6] Diese Lücke in seiner Argumentation sei im Folgenden geschlossen.

I. Einfluss des Strafsenats auf das Ergebnis des Revisionsverfahrens

Fischer referiert zunächst, mit welcher Häufigkeit welcher Strafsenat des BGH in den Jahren 2008 bis 2012 im Beschlussweg eine Revision als offensichtlich unbegründet verwarf oder das angefochtene Urteil teilweise oder vollständig aufhob (§§ 349 II, IV StPO).[7] Als zu widerlegende Nullhypothese verwendet Fischer, dass es auf das im Beschlussweg getroffene Ergebnis des Revisionsverfahrens - sprich: auf die Häufigkeitsverteilung zwischen Verwerfungen, Teilaufhebungen und Komplettaufhebungen - keinen Einfluss habe, welcher Senat die Entscheidung treffe. Da es für die Revisionsentscheidung keine a priori zu erwartende Verteilung gibt, sondern allein zu überprüfen ist, ob das Merkmal "Strafsenat" von dem Merkmal "Ergebnis des Revisionsverfahrens" stochastisch unabhängig ist, eignen sich hierfür der (klassischere) χ2-Test[8] sowie der - hier im Folgenden verwendete[9] - (modernere) G-Test[10]; zur Auswahl der Testmethoden sei auf die einschlägige statistische Spezialliteratur verwiesen.[11] Als Signifikanzniveau sei, wie in den empirischen Sozialwissenschaften üblich, α =.05 gewählt; mit diesem vorab zu bestimmenden Wert gibt man an, welches statistische "Restrisiko" - hier also 5 % - man bei empirischen Schlussfolgerungen zu tragen bereit ist.

Da keine zeitlichen Unterschiede untersucht werden sollen, bietet es sich hier an, den gesamten Beobach-

tungszeitraums 2008-2012 zusammenzufassen[12]; dabei zeigt sich eine signifikante Abhängigkeit des Ergebnisses des Revisionsverfahrens vom zur Entscheidung berufenen Strafsenat, G2(8) = 458.34, p < .001. Zur Erläuterung: Der G2-Wert ist eine aus den Rohdaten berechnete statistische Prüfgröße, welche - stark vereinfacht gesprochen - die Unterschiede in der Häufigkeitsverteilung bemisst. Der sich aus dem G2-Wert und aus der Anzahl der Freiheitsgrade - hier 8 - ergebende p-Wert gibt die Wahrscheinlichkeit an, mit der man das vorliegende (oder noch abweichenderes) Datenmaterial beobachten kann, wenn die Nullhypothese zutrifft. Ist der p-Wert kleiner als das gewählte Signifikanzniveau α , wird die Nullhypothese verworfen; ist dieser größer, so wird die Nullhypothese beibehalten. Da hier p < .001 und damit deutlich kleiner als α =.05 ist, ist die Nullhypothese zu Gunsten der gegenteiligen Alternativhypothese zu verwerfen: Das Ergebnis des Revisionsverfahrens hängt vom zur Entscheidung berufenen Strafsenat in statistisch signifikanter Weise ab. Die Abhängigkeit lässt sich auch nicht durch einen einzelnen "Ausreißer"-Senat erklären.[13] All dies stützt folglich die Bewertung Fischers, dass die berichteten Häufigkeiten "durch Zufall gar nicht und in der Sache nur schwer zu erklären" seien.[14]

Gewisse Vorsicht bei der Interpretation ist dennoch geboten, denn Aussagen aufgrund inferenzstatistischer Auswertungen setzen grundsätzlich voraus, dass andere als die untersuchten Merkmale möglichst konstant gehalten werden und daher keinen Einfluss auf das Ergebnis haben (ceteris paribus). Diese Voraussetzung ist hier nur bedingt erfüllt, denn die angefochtenen Urteile unterscheiden sich nach ihrer regionalen Herkunft[15] und teilweise auch nach ihrem Sachgegenstand, da der Geschäftsverteilungsplan gewisse Zuständigkeitskonzentrationen vorsieht.[16] Weitere Unterschiede ergeben sich aus der Besetzung der Senate und deren Spruchkörper zwischen und innerhalb der einzelnen Jahre.[17] Daneben lässt die vorstehende Analyse auch außen vor, welche Verfahren im Beschlusswege entschieden werden und bei welchen Verfahren der jeweilige Senat die Entscheidung durch Urteil wählt.[18]

II. Einfluss des Berichterstatters auf das Ergebnis des Revisionsverfahrens

Sodann untersucht Fischer den Einfluss des Berichterstatters im 2. Strafsenat auf das Ergebnis des Revisionsverfahrens. Eine Auswertung seines Datenmaterials[19] ergibt, dass das Ergebnis des Revisionsverfahrens (Verwerfung, Teil- oder Komplettaufhebung) signifikant davon abhängig ist, wer Berichterstatter ist, G2(18) = 108.65, p < .001. Eine zusätzliche post hoc-Analyse zeigt auch hier, dass dies nicht auf einem einzelnen "Abweichler" beruht.[20] Der für geringe absolute Häufigkeiten besonders geeignete G-Test ergibt hier markante Ergebnisse, was gegen den Einwand spricht, es liege zu wenig Datenmaterial vor.[21] Doch auch bei diesem Datenmaterial ist ceteris paribus nur teilweise gegeben: Zwar wird der jeweilige Berichterstatter im 2. Strafsenat streng nach abstrakten Kriterien ausgewählt.[22] Welcher Berichterstatter für wie viele Urteilsverfahren - und mit welchem Ergebnis - verantwortlich zeichnet, ist hingegen ein unbekannter Faktor. Ein weiterer, gewichtiger Einflussfaktor sind zudem die weiteren zur (einstimmigen) Entscheidung berufenen Senatsmitglieder, die sich je nach personeller Besetzung des 2. Strafsenats und auch je nach Spruchgruppe unterscheiden. Trotz dieser qualitativen Einschränkungen der Datengrundlage spricht viel für die Bewertung Fischers, die unterschiedliche Häufigkeitsverteilung und damit der Einfluss der Person des Berichter-

statters auf das Ergebnis des Revisionsverfahrens sei "signifikant".[23]

III. Einfluss des Vorsitzenden auf das Ergebnis des Revisionsverfahrens

Betrachtet man zur Analyse des Einflusses des Senatsvorsitzenden auf das Ergebnis des Revisionsverfahrens zunächst nur die - aufsummierten - unter den jeweiligen Vorsitzenden getroffenen Entscheidungen, so lässt sich keine statistisch signifikante Abhängigkeit dieses Ergebnisses vom Merkmal "Vorsitzender" feststellen; je nach Datenquelle[24] G2(6) = 7.26, p = .30 oder G2(6) = 9.26, p = .16.[25] Allerdings ist in der Tat zu hinterfragen, ob die Vorsitzenden V2 bis V4 in den 6 bis 11 Monaten ihrer Tätigkeit bereits eine ausreichende Zeit hatten, "ihren" - zudem durch personelle Turbulenzen aufgewiegelten und zeitweise durch einen Doppelvorsitz belasteten - Senat zu prägen.[26]

Innerhalb des Beobachtungszeitraums 2008-2012 kam es allerdings noch zu einem weiteren Wechsel des Vorsitzes, der einen statistischen Seitenblick lohnt, namentlich im 4. Strafsenat.[27] Vergleicht man die Erledigungen im (letzten) vollen Amtsjahr der vorherigen Vorsitzenden 2009 und im (ersten und letzten) vollen Amtsjahr des neuen Vorsitzenden 2011,[28] so zeigt sich eine signifikante Abhängigkeit zwischen Vorsitz und Ergebnis, G2(2) = 9.21, p = .01. Diese Analyse lässt indes die umfänglichen weiteren personellen Veränderungen im 4. Strafsenat zwischen 2009 und 2011 außer Acht.

Auf Grundlage dieser geringen, unsicheren und zweideutigen Datengrundlage lässt sich somit schlicht - so auch Fischer[29] - keine fundierte Aussage darüber treffen, ob ein Vorsitzender einen statistisch signifikanten Einfluss auf die Ergebnisse der im Beschlussweg erledigten Revisionen hat. Hierfür wären weitere Erhebungen erforderlich.[30]

IV. Fazit

Fischer bewies Treffsicherheit in seiner empirischen Argumentation: Das Ergebnis der im Beschlussweg erledigten Revisionen ist signifikant abhängig von dem zur Entscheidung berufenen Senat sowie innerhalb des Senats vom zur Vorbereitung der Entscheidung berufenen Berichterstatter. Mit den von ihm berichteten Rohdaten und den hier angewandten inferenzstatistischen Methoden lässt sich allerdings weder eine kausale Wirkungskette nachweisen (so ginge es etwa fehl, aus dieser Auswertung zu schließen, jeder Berichterstatter setze sich "fast immer" mit seinem Votum durch) noch eine Aussage für Einzelfälle oder für einzelne Berichterstatter treffen. Auch ist anzuerkennen, dass in der weit überwiegenden Mehrzahl der Revisionsverfahren das Ergebnis identisch sein dürfte, wer auch immer Berichterstatter ist. Es verbleibt aber, vereinfacht gesprochen, eine statistische Auffälligkeit bei einer nicht unerheblichen Anzahl von Revisionsverfahren, bei denen derselbe Senat unterschiedliche Entscheidungen trifft, je nach dem welcher Richter als Berichterstatter wirkt. Die - ungeklärte - normative Kernfrage ist nun, ob eben dies verfassungs- und strafprozessrechtlich hinzunehmen ist.

Schließlich: Der Einsatz statistischer Methoden hält etliche Fallstricke bereit, in denen man sich - als Rechtswissenschaftler, aber auch als Praktiker - bei einer zu oberflächlichen Betrachtung von empirischem Datenmaterial verfangen kann.[31] Bewertungen solchen Datenmaterials sollten daher, um nachvollziehbar zu sein, stets Ausführungen zur angewendeten statistischen Methodik enthalten .


[1] Fischer NStZ 2013, 425.

[2] Das "Senatsheft" enthält neben dem angefochtenen Urteil "die Revisionseinlegung(en) und Revisionsbegründung(en), die Gegenerklärung(en) des Revisionsgegners, die Stellungnahme des GBA (ggf. mit einer in Bezug genommenen Stellungnahme des Generalstaatsanwalts des OLG-Bezirks) sowie ggf. weitere, nachgereichte Schriftsätze", Fischer NStZ 2013, 425, 427.

[3] Ebenso Fischer/Eschenbach/Krehl StV 2013, 395; Fischer/Krehl StV 2012, 550; a.A. Brause JR 2013, 134, 136 ff.; differenzierend Becker HRRS 2013, 264; s. nun auch die Erwiderung der Mitglieder des 5. Strafsenats, Basdorf/ Sander/Schneider/Dölp/König/Berger/Bellay NStZ 2013, 563 sowie die Replik von Fischer/Eschelbach/Krehl NStZ 10, 564; vgl. ferner Hassemer NJW-Editorial 35/2013.

[4] Zur Qualität dieser Rohdaten s. aber bereits Fischer NStZ 2013, 425, 429 f., 432 in Fn. 31.

[5] Exemplarisch zur statistischen Methodik Bortz/Schuster, Statistik für Human- und Sozialwissenschaftler, 7. Aufl. 2010; Dytham, Choosing and Using Statistics, 3. Aufl. 2011; Hatzinger/Hornik/Nagel, R - Einführung durch ange­wandte Statistik, 2011; Wickens, Multiway contingency table analysis for the social sciences, 1989.

[6] Kritik hieran richten auch Basdorf/Sander/Schneider/ Dölp/König/Berger/Bellay NStZ 2013, 563, 564, die einer Überprüfung der Ergebnisse "auf statistische Signifikanz" fordern. Explizit, aber methodisch so nicht hinnehmbar ist die Herangehensweise Beckers, der in einer deskriptiven Beschreibung aus den "Unterschiede[n]von 30%" in den Aufhebungsquoten zwischen den Bericht­erstattern auf eine Signifikanz der Unterschiede schließt; Becker HRRS 2013, 264, 266 bei und mit Fn. 26.

[7] Fischer NStZ 2013, 425, 428. Zuvor belegt Fischer noch, dass in allen Strafsenaten die Erledigung im Beschlussweg dominiert.

[8] Pearson's Chi-squared Test for Count Data; vgl. Pearson Philosophical Magazine Series 5-50, 157, 157 ff.

[9] Statistisch relevante Unterschiede zwischen diesen beiden Testmethoden ergeben sich beim vorliegenden Datenmaterial nicht. Das Auswertungsskript ist beim Verf. verfügbar; als Auswertungssoftware wurde R 2.15.1 sowie das R-Skript von Hurd, verfügbar unter http://www.pmc.ucsc.edu/~mclapham/Rtips/G%20test.txt (Stand: 15.10.2013), verwendet.

[10] Vgl. nur Sokal/Rohlf, Biometry, 3. Aufl. 1995, S. 729 ff.

[11] S. hierzu insbesondere Bortz/Schuster (o. Fn. 5), S. 137 ff.; Dytham (o. Fn. 5), S. 7 ff.; 72 ff.; Hatzinger/Hornik/Nagel (o. Fn. 5), S. 202 ff.; Wickens (o. Fn. 5), S. 26 ff.

[12] Die Rohdaten finden sich in Fischer NStZ 2013, 425, 428, Tabelle 4, insb. Spalte "Summe".

[13] Lässt man denjenigen Senat mit den größten Residuen (d.h. mit der größten Abweichung) außen vor - das ist hier der 1. Strafsenat -, so ergibt sich gleichwohl eine hoch signifikante Abhängigkeit, G2(6) = 116.21, p < 0.001; auch eine Korrektur dieser post hoc-Analyse nach Bonferroni änderte hieran nichts.

[14] Fischer NStZ 2013, 425, 428.

[15] Hierzu Fischer NStZ 2013, 425, 428 f.

[16] Exemplarisch waren etwa Steuer- und Zollstrafsachen im Geschäftsverteilungsplan (nicht nur) des Jahres 2012 allein dem 1. Strafsenat zugewiesen.

[17] Dabei handelt es sich jeweils nur um teilweise Veränderungen der Besetzung; dies legitimiert die hier gewählte Herangehensweise, die Häufigkeiten für den gesamten Berichtszeitraum aufzusummieren.

[18] Summiert man die im Beschluss- und im Urteilswege ergangenen Verwerfungen einerseits sowie die Komplett- bzw. Teilaufhebungen andererseits auf und lässt die Abänderungen des Urteils mit eigener Entscheidung in der Sache außen vor, zeigt sich ebenfalls eine hoch signifikante Abhängigkeit des Merkmals "Ergebnis" vom Merkmal "Strafsenat", G2(4) = 402.24, p < .001. Die Rohdaten finden sich in Fischer NStZ 2013, 425, 427, Tabelle 2 sowie 428, Tabelle 4, insb. Spalte "Summe".

[19] Die von Fischer NStZ 2013, 425, 430 f., Tabelle 5, nach Jahren mitgeteilten Häufigkeiten von Verwerfungen, Komplettaufhebungen und Teilaufhebungen bei Entscheidungen nach § 349 II, IV StPO lasen sich, differenziert nach Berichterstattern im 2. Strafsenat, über den Beobachtungszeitraum aufsummieren:

Berichterstatter Verwerfung Komplettaufhebung Teilaufhebung
Nr. 1 173 1 21
Nr. 2 167 0 15
Nr. 3 232 31 67
Nr. 4 212 2 30
Nr. 5 361 7 51
Nr. 6 337 12 54
Nr. 7 229 16 51
Nr. 8 179 11 46
Nr. 9 167 19 26
Nr. 10 148 3 31

[20] Lässt man denjenigen Berichterstatter mit den größten außen vor - das ist hier Berichterstatter Nr. 3 -, so ergibt sich gleichwohl eine hoch signifikante Abhängigkeit, G2(16) = 71.30, p < 0.001; auch eine Korrektur dieser post hoc-Analyse nach Bonferroni änderte hieran nichts.

[21] So aber - ohne eigene inferenzstatistische Auswertung - tendenziell Basdorf/Sander/Schneider/Dölp/König/ Berger/Bellay NStZ 2013, 563, 564; vgl. hiergegen Fischer/Eschelbach/Krehl NStZ 2013, 564, 565.

[22] Fischer NStZ 2013, 425, 427.

[23] Fischer NStZ 2013, 425, 430.

[24] Summenwerte aus Fischer NStZ 2013, 425, 430 f., Tabelle 5 bzw. 432, Tabelle 6. Zu den Unterschieden zwischen diesen beiden Datenquellen vgl. Fischer NStZ 2013, 425, 432 in Fn. 31. Ferner ist zu beachten, dass 2011 innerhalb des Jahres der Vorsitzende wechselte.

[25] Dieser Eindruck verstärkt sich noch, wenn man ceteris paribus-Bedingungen wenigstens annähernd herzustellen sucht, indem man das Datenmaterial auf diejenigen Berichterstatter Nr. 5 bis Nr. 9, die unter dem Vorsitz von V1 bis V4 agierten, und auf den Beobachtungszeitraum 2010 bis 2012 begrenzt, denn dann ergibt sich G2(6) = 2.08, p = .91.

[26] Weniger skeptisch Fischer NStZ 2013, 425, 432 in Fn. 30.

[27] Im 3. Strafsenat wechselte der Vorsitz bereits im Laufe des Jahres 2008; im 4. Strafsenat erneut erst im Laufe des Jahres 2012; im 1. und 5. Strafsenat kam es im Beobachtungszeitraum zu keinem Wechsel in der Person des Vorsitzenden.

[28] Aus den von Fischer NStZ 2013, 425, 428, Tabelle 4 mitgeteilten Rohdaten lassen sich die Häufigkeiten von Verwerfungen, Komplettaufhebungen und Teilaufhebungen bei Entscheidungen des 4. Strafsenats nach § 349 II, IV StPO in den Jahren 2009 (Vorsitz: V) und 2011 (Vorsitz: V*) bestimmen:

Jahr Verwerfung Komplettaufhebung Teilaufhebung
2009 – Vorsitzende V 485 9 87
2011 – Vorsitzender V* 467 15 129

[29] Fischer NStZ 2013, 425, 428 bezeichnet dies als "offen".

[30] Ein Ansatzpunkt für eine solche Auswertung wäre, sich auf diejenigen Berichterstatter zu konzentrieren, die - infolge wechselnder Zuweisung - unter verschiedenen Vorsitzenden agierten bzw. agieren.

[31] Exemplarisch sei verweisen auf die sog. "prosecutor's fallacy" - grundlegend Thompson/Schumann Law and Human Behavior 11 (1987), S. 167-187 - sowie auf die Fehlerquellen beim Umgang mit biometrischen und aus Datenbanken extrahierten Daten - zusammenfassend Brodowski, Weighting Digital Evidence in Criminal Proceedings, in: Jänke u.a. (Hrsg.), Current Issues in IT Security (2012), S. 9, 19 ff.