evaluiert (E-Book)

Text
0
Kritiken
Leseprobe
Als gelesen kennzeichnen
Wie Sie das Buch nach dem Kauf lesen
Schriftart:Kleiner AaGrößer Aa

2 Was ist Evaluation?



Lernziele von Kapitel 2:
❙ Den Begriff der wissenschaftlichen Evaluation definieren können❙ Evaluation von Forschung abgrenzen können❙ Werte und Bewertung als Besonderheiten von Evaluation an Beispielen erläutern können

Auf dem Weg zur Definition

Auf die Frage, was Evaluation genau ist, gibt es keine einfache Antwort. Die Aussage von Franklin und Thrasher (1976), wonach es so viele Evaluationsdefinitionen wie Evaluierende gibt1 («To say that there are as many definitions as there are evaluators is not too far from accurate», S. 20), hat an Gültigkeit eingebüßt. Theoriebildung und Professionalisierung haben in der vergangenen Jahrzehnten zu einer Schärfung des Begriffs geführt. Doch wird in der Bildungspraxis weiterhin vieles unter dem Begriff subsumiert, was in der Evaluationsgemeinschaft nicht oder allenfalls als schlechte Evaluation gelten würde. Daher ist es wichtig, ein fundiertes Verständnis davon zu entwickeln, was wissenschaftliche Evaluation ausmacht. Doch auch das ist nicht einfach, denn Evaluation wird nach Glass und Ellet (1980, S.211) sehr unterschiedlich definiert und abgegrenzt – und das gilt heute noch ebenso wie damals. Viele theoretische wie auch praktische Aktivitäten werden darunter gefasst, ohne dass ein allgemeingültiges Evaluationsparadigma vorherrschen würde: «Evaluation is a set of theoretical and practical activities without a widely accepted paradigm.» Und je nach Zuordnung zu einer bestimmten wissenschaftlichen Disziplin wird der Begriff zudem unterschiedlich akzentuiert (Götz, 1998, S.20). Erschwerend kommt hinzu, dass «allzu leicht […] heute auch triviale Formen der Rückmeldung zu Evaluationen» werden (Böttcher, Kerlen, Maats, Schwab & Sheikh, 2014, S.7).

Diese beinahe beliebige Möglichkeit der Inanspruchnahme macht Evaluation für viele attraktiv, bietet aber auch schier unüberschaubare Ansatzpunkte für Kritik und Polemik. Unterschiedliche Ausdrücke und Aussagen werden in diesem Zusammenhang verwendet und diskutiert, wie «Evaluation als modernes Ritual» (Schwarz, 2006), Evaluation als notwendiges Übel (evaluation as a «necessary evil», Sullivan, 2011), «Evaluations Mania» (Frey, 2007a), oder auch «von der Inquisition zur Evaluation» (Hornbostel, 2008). Schon 2000 beschreibt Simon die «Evaluitis» als «eine fiebrige Erkrankung, die unversehens den Körper der Wissenschaft in seiner Gesamtheit erfasst hat» (S. 15). Umbach (2002) fragt wegen dramatisch ansteigender Evaluierungswünsche im Wissenschaftssystem, ob «Evaluitis» heilbar sei. Stoellger (2005a, 2005b, 2005c) spricht von einem akuten «Morbus Evaluitis» aufgrund einer epidemischen Breite der Evaluationstätigkeit. Für qualitativ hochwertige Evaluationen und gegen eine «Evaluitis» im Sinne von reinen Befragungsroutinen spricht sich Döring (2005) im Bereich der Lehrevaluation aus, und Frey (2007b, 2008) greift die Krankheitsmetapher auf, indem er insbesondere der Wissenschaft die Diagnose «Evaluitis» für Evaluation als sich epidemisch ausbreitende, neue Krankheit stellt – dieser Begriff ist seitdem immer wieder in der Literatur anzutreffen (z. B. Burzan & Jahnke, 2010; Hornbostel, 2016; Munske, 2014; Niggli, 2011). Es werden auch Warnungen ausgesprochen: «Vorsicht vor Evaluationismus!» (Kappler, 2010). Oder ist es gar so, dass wir uns zu Tode evaluieren, wie Preußler (2008) fragt – oder dass ein «Evaluationsnotstand» herrscht (Niedermair, 2012, S.8)?

Für einen differenzierten Umgang mit diesem vermeintlichen Unwort ist es notwendig, einige Definitionen vorzustellen und eine Arbeitsdefinition für dieses Buch zu formulieren.

Wortstamm

Auf der Suche nach einer adäquaten Definition gibt der Wortstamm einen ersten Hinweis. Auch wenn eine unmittelbare Herleitung aus dem Lateinischen nicht angebracht ist (entgegen der weitverbreiteten Meinung existiert das Wort «evaluare» im Lateinischen nicht), legt das Lateinlexikon erste Spuren. Wurzeln finden sich nämlich im lateinischen Wort «valor», das im Deutschen so viel bedeutet wie «bei Kräften sein», «wert sein» oder «gültig sein». Man beachte hierbei die eindeutig positive Konnotation.

Den etymologischen Herleitungen des Begriffes von Karbach (1998) folgend, entwickelte sich daraus zunächst das französische «valoir», woraus die Substantivierung «valeur» (im Sinne vom «prix», also auch Wert) entstand. Daraus wurde wiederum das Verb «évaluer» abgeleitet und von diesem das Substantiv «évaluation» («Schätzung», «Ermittlung» oder «Wertbestimmung») gebildet.

Die daraus hervorgegangenen englischen Wörter «evaluate» («bewerten») sowie «evaluation» («Einschätzung», «Auswertung») bilden die Grundlage für die heute im Deutschen gebräuchliche Form des Begriffes.

Eine erste, vom Wortstamm ausgehende Umschreibung von Evaluation lautet also:

«Bestimmung des Wertes einer Sache»

(Bedeutung nach Wortstamm).

Folgt man dieser Bestimmung, so ist Evaluation – zumindest im französischen oder angelsächsischen Sprachraum – eine Bezeichnung für alltägliches menschliches Handeln. Denkend oder sprechend wird auf Basis eines Sinneseindruckes, z.B. des Blicks aus dem Fenster oder der herausgehaltenen Hand, ein Urteil – hier: über das Wetter – abgegeben. Es handelt sich um eine einfache Alltagsbewertung. Obwohl es sich auch in der deutschen Alltagssprache – z.B. in Tageszeitungen, Fernsehinterviews oder Talkrunden – seit einigen Jahren zu etablieren begonnen hat, solche subjektiven Ad-hoc-Bewertungen als «Evaluationen» zu bezeichnen, wird an dieser Stelle dafür plädiert, «Evaluation» und «evaluieren» für das wissenschaftlich abgestützte, systematische Beschreiben und Bewerten zu reservieren. Was darunter zu verstehen ist, wird nachfolgend präzisiert.

2.1 Wissenschaftliche Evaluation statt Alltagsbewertung

Kromrey (2001) unterscheidet den alltäglichen und den wissenschaftlichen Sprachgebrauch von Evaluation danach, was von wem wie und nach welchen Kriterien bewertet wird. Auf dem Weg zu unserer Definition von Evaluation für dieses Buch gilt es nun, diese und andere relevante Dimensionen zu konkretisieren.

Wer oder was? – Der Evaluationsgegenstand

Zunächst ist zu klären, wer oder was evaluiert werden soll. Dies wird als Evaluationsgegenstand bezeichnet.

Die Menge an potenziellen Evaluationsgegenständen ist beinahe unüberschaubar. Wottawa und Thierau (2003, S.59) nennen «Personen, Umwelt-/Umgebungsfaktoren, Produkte, Techniken/Methoden, Zielvorgaben, Programme, Projekte, Systeme/Strukturen, Forschungsergebnisse/Evaluationsstudien» und haben der Evaluation damit ein bereits sehr breites Tätigkeitsfeld eröffnet. Scriven (1981, S.4) weitet dieses noch aus, indem er jedes Hauptwort eines Wörterbuches zu einem möglichen Evaluationsgegenstand macht: «One can begin at the beginning of a dictionary and go through to the end, and every noun, common or proper, readily calls to mind a context in which evaluation would be appropriate.» Cook und Matt (1990, S.15) bringen es auf den Punkt: «Alles kann evaluiert werden.»

Wie? – Die Evaluations-methoden

Entscheidend für die Abgrenzung zur Alltagsbewertung ist, dass die Bestimmung des Wertes (Güte und Tauglichkeit) eines Evaluationsgegenstandes systematisch, umfassend und objektiv durchgeführt werden soll, was folgende Definitionen festhalten:

«Evaluation: The systematic investigation of the worth or merit of an object»

(Joint Committee on Standards for Educational Evaluation, 1994, S.3).

«Good evaluation is the systematic, comprehensive, objective determination of merit or worth»

(Scriven, 1974, S.23).

Andere Autorinnen und Autoren gehen einen Schritt weiter und fordern explizit sozialwissenschaftliche Methoden:

«wissenschaftliche Evaluation nutzt sozialwissenschaftliche Methoden [...]»

(Döring & Bortz, 2016, S. 979).

Evaluation, evaluative research und Evaluationsforschung

Schon früh gab es aber auch Positionen, die mit dem Begriff «Evaluation» einen eher alltäglichen Bewertungsvorgang bezeichneten, ohne die Notwendigkeit, systematisch vorzugehen: «While it implies some logical or rational basis for making such judgments, it does not require any systematic procedures for marshaling and presenting objective evidence to support such judgment. Thus, we retain the term «evaluation» in its more common-sense usage as referring to the general process of assessment or appraisal of value» (Suchman, 1967, S.7). Der Begriff «evaluative research» wurde hingegen reserviert für eine Bewertung, die auf wissenschaftlichen Forschungsmethoden basiert: «‹Evaluative research› on the other hand, will be restricted to the utilization of scientific research methods and techniques for the purpose of making an evaluation» (Suchman, 1967, S.7).

Dieses Begriffsverständnis wurde auch im deutschsprachigen Raum diskutiert, allerdings eher unter Verwendung des Begriffspaares «Evaluation – Evaluationsforschung» (Wottawa & Thierau, S.13). Eine strikt akademisch wissenschaftliche Vorgehensweise als Evaluationsforschung zu bezeichnen, ist insbesondere in methodisch orientierten Texten anzutreffen (z.B. Döring & Bortz, 2016; Gollwitzer & Jäger, 2014; Häder, 2010). Stufflebeam und Coryn (2014, S.133–172) zählen solche Ansätze zu den «Quasi-Evaluationen», wegen ihrer Verengung bei Evaluationsfragestellungen bzw. methodischen Zugängen: «A quasi-evaluation approach provides direction for performing a high-quality study that is narrow in terms of the scope of questions addressed, the methods employed, or both» (S.133).

 

Manches spricht gegen diese Art der Begriffsverwendung. So legen semantisch ähnliche Wortkonstruktionen wie Sozialforschung, Genforschung oder Bildungsforschung keine soziale, genetische oder gebildete Forschung nahe, sondern eine Forschung über Soziales, Gene oder Bildung (vgl. Beywl, 1991; Hense, 2006, S.26). Vermutlich hatte Suchman Ähnliches im Sinn, als er mit «evaluative research» ebenfalls eine Adjektiv-Konstruktion verwendete: «In this sense, ‹evaluative› becomes an adjective specifying a type of research» (Suchman, 1967, S.7).

Eine explizite Differenzierung zwischen Evaluation und Evaluationsforschung im beschriebenen Sinn ist eher rückläufig, wie an den letzten Auflagen des international meistverkauften Lehrbuchs zur Evaluation exemplarisch aufgezeigt werden kann. So wird in der fünften Auflage aus dem Jahr 1993 Evaluationsforschung als eine systematische Anwendung von sozialwissenschaftlichen Verfahren zur Einschätzung/Bewertung der Konzeption, Gestaltung, Umsetzung und Nützlichkeit sozialer Interventionsprogramme definiert:

«Evaluation research is the systematic application of social research procedures for assessing the conceptualization, design, implementation, and utility of social intervention programs»

(Rossi & Freeman, 1993, S.5).

Demgegenüber lassen die Autoren seit der sechsten Auflage den Forschungszusatz «research» bei ihren zentralen Definitionen weg und definieren Programmevaluation als den Einsatz sozialwissenschaftlicher Verfahren zur systematischen Untersuchung der Wirksamkeit sozialer Interventionsprogramme:

«Program evaluation is the use of social research procedures to systematically investigate the effectiveness of social intervention programs […]»

(Rossi, Freeman & Lipsey, 1999, S.4).

In der aktuellen siebten Auflage schreiben die Autoren explizit, dass die Begriffe «Evaluation», «Programmevaluation» und «Evaluationsforschung» beliebig austauschbar verwendet werden: «Note that throughout this book we use the terms evaluation, program evaluation, and evaluation research interchangeably» (Rossi, Lipsey & Freeman, 2004, S.6).

Auch andernorts ist diese Gleichsetzung zu beobachten: «Furthermore, I will make no distinction between evaluation research and evaluation» (Vedung, 2004, S.112). Ähnliches wird ebenfalls in vielen deutschsprachigen Lehrtexten zum Ausdruck gebracht. So schreibt Stockmann (2004, S.13): «Die Begriffe ‹Evaluierung›, ‹Evaluation› und ‹Evaluationsforschung› werden hier synonym verwendet», Döring (2014, S.167) beginnt ihren Text mit den Worten «Mit ‹Evaluationsforschung›, ‹wissenschaftlicher Evaluation› oder kurz ‹Evaluation› […]» und Döring und Bortz (2016, S.977) halten fest: «Wir verwenden den Begriff der Evaluationsforschung synonym mit wissenschaftlicher Evaluation (kurz: Evaluation) [...].».

Was beim Lesen dieses Textes vielleicht als Wortklauberei erscheint, markiert einen tiefen Umbruch im Verständnis von Evaluation. Dieser nahm Ende der 1960er-Jahre im Bildungsbereich in den USA seinen Anfang und hat dazu geführt, dass sich Evaluation zu einem eigenständigen, von der Alltagspraxis, von der Forschung und von weiteren Verfahren unterscheidbaren Ansatz der wissenschaftlichen Beschreibung und Bewertung pädagogischer und anderer komplexer Gegenstände entwickelt hat (vgl. Beywl, 1988, S.127–135). Dies geht mit eigenen Lehrbüchern, Fachzeitschriften, Berufsverbänden, Ausbildungsgängen sowie berufsethischen Grundlagen einher. Auf einen Ausschnitt davon wird in diesem Buch eingegangen.

Im vorliegenden Buch wird der Terminus «Evaluation» verwendet und von dem der «Forschung» abgegrenzt (➞ Kapitel 2.2). Der Begriff «Evaluationsforschung» bleibt der Forschung über Bedingungen, Praxis, Methoden, Nutzung und Auswirkungen von Evaluation vorbehalten.

Wer? – Die Evaluierenden

Wodurch genau sich das systematische, methodische Vorgehen einer Evaluation auszeichnet, ist Kernthema dieses Buches. Die hierfür notwendigen Kompetenzen gehen über eine korrekte Anwendung der empirischen Forschungsmethoden deutlich hinaus und schließen auch persönliche und soziale Qualifikationen ein, die sich Evaluierende aneignen müssen, sodass Evaluation mehr ist als nur Sozialwissenschaft (Scriven, 2006).

Im Gegensatz zur Alltagsevaluation erfordert wissenschaftliche Evaluation spezielle Kenntnisse und Fertigkeiten: «Ein weiteres Unterscheidungsmerkmal besteht darin, dass wissenschaftliche Evaluationen von ‹Experten› durchgeführt werden» (Stockmann, 2004, S.14), die für die Anforderungen besonders ausgebildet sind. Die DeGEval – Gesellschaft für Evaluation e.V. hat Anforderungen und Kompetenzen zusammengestellt, «die für die angemessene Durchführung von Evaluationen unerlässlich sind» (2008, S.7). Der Vergleich mit einem Kompetenzprofil für Evaluation aus den USA zeigt übereinstimmende Schwerpunkte. Neben der Befähigung zur Durchführung empirischer Untersuchungen werden namentlich Kompetenzen zur Analyse von Situation und Kontext, zum Projektmanagement, zur reflexiven Praxis und im Bereich der interpersonellen und interkulturellen Kommunikation gefordert (Beywl, 2006a, S.333–335). Eine Liste der Schweizerischen Evaluationsgesellschaft (2012), die an Evaluationsteams und nicht unbedingt an jeden einzelnen Evaluierenden gerichtet ist, formuliert ähnliche Anforderungen: Grundkenntnisse (Grundeigenschaften der Evaluation, verschiedene Evaluationsansätze, Evaluationsstandards), methodische Kenntnisse (Konzepte und Designs von Evaluationen, Methoden und Instrumenten der Datenerhebung und -analyse, Projektmanagement, Kommunikationsstrategien und -fähigkeiten) sowie soziale und diverse persönliche Kompetenzen.


➞ Lösung auf Seite 227


«Merkmale wissenschaftlicher Evaluation»Lösen Sie nun die Übungsaufgabe 1: Stellen Sie fest, bei welchen der folgenden Vorgehensweisen es sich zumindest näherungsweise um wissenschaftliche Evaluation handelt, also nicht um Alltagsevaluation, und begründen Sie Ihre Zuordnung kurz. Zu bewerten ist in diesem Fall ein Kurs, in dem Informatikstudierende lernen sollen, vor einem Fachpublikum zu präsentieren.
a) Die zwanzigminütigen Präsentationen der Studierenden werden von drei verschiedenen Beobachtenden entlang eines einheitlichen, strukturierten Beobachtungsschemas protokolliert. Nachfolgend werden die festgehaltenen Beobachtungsdaten miteinander verglichen. Als Zusammenfassung werden für jede Beobachtungsdimension ein numerisch abgestuftes Urteil und eine kurze Begründung angegeben.b) Ein besonders erfahrener Projektmanager eines mittelgroßen Softwareanbieters hält zu jeder Studierendenpräsentation seine persönlichen Eindrücke in Stichworten fest. Er notiert hauptsächlich aussagekräftige Adjektive (z.B. «exzellent», «unvollständig»), um die Besonderheiten der jeweiligen Präsentationen zu kennzeichnen.c) Die PowerPoint-Präsentationen werden als Dokumente nach bestimmten Kriterien ausgewertet, z.B. Strukturiertheit des Aufbaus der gesamten Präsentation, erkennbarer Fokus der Präsentation, deutliche Botschaften an das Zielpublikum, korrekte Verwendung von Fachbegriffen. Falls möglich werden Zitate als Ankerbeispiele festgehalten. Diese werden als eine Basis für die Bestimmung des Lernerfolgs der Präsentierenden genutzt.d) Die zwanzigminütigen Präsentationen werden von den Zuschauenden bewertet. Dabei wird jeder/jede gefragt, wie es ihm/ihr gefallen habe, was es zu verbessern gebe und welche Anmerkungen er/sie außerdem habe.e) Zu jeder der zwanzigminütigen Präsentationen werden an die Zuschauenden Fragebogen ausgeteilt, die Dimensionen wie «inhaltliche Angemessenheit», «Verständlichkeit» oder «Präsentationstechnik» behandeln, bestehend aus je fünf Items mit sechs Antwortalternativen von «trifft gar nicht zu» bis «trifft voll und ganz zu». Die zusammengefassten Daten aus den eingesammelten Fragebogen werden für eine Bewertung der Präsentation genutzt.

2.2 Evaluation als wissenschaftliche Dienstleistung statt (Grundlagen-) Forschung

Bei aller Ähnlichkeit und auch angesichts gleicher Wurzeln unterscheidet sich Evaluation substanziell in ihrer typischen Zwecksetzung von Forschung.

Wofür? – Die Evaluationszwecke

Patton (2008, S.40) bringt dies auf den Punkt. Forschung suche nach Wissen und Wahrheit, nützliche Evaluation unterstütze praktisches Handeln: «Research aims to produce knowledge and truth. Useful evaluation supports action.»

Auch Forschung verfolgt nicht selten soziale Anwendungsziele (vgl. Mertens, 2015, S.52). Ihr zentrales Interesse besteht jedoch darin, («wahres») Wissen zu generieren und darauf aufbauend Theorien aufzustellen bzw. zu testen sowie auf möglichst unterschiedliche Personengruppen, Zeitpunkte, Situationen und geografische Räume zu verallgemeinern. Grundlagenforschung kann praktisch nützlich sein, aber ihre Nutzung ist zufällig und ungeplant: «Basic research may be useful, but its use is accidental and unplanned» (Vedung, 2004, S.118).

Bei Evaluationen geht es hingegen selten um Theoriebildung. Es geht ihnen primär, wie auch Ansätzen der anwendungsbezogenen Forschung, um instrumentellen Nutzen für bestimmte Stakeholder in einem konkreten Kontext (vgl. Beywl, Künzli, Messmer & Streit, 2015). Das durch Informationen gesicherte Handeln in der Praxis steht im Vordergrund. Die Ergebnisse sollen binnen kurzer Frist handlungsrelevant und verwertbar sein:

«Zur Evaluation wird empirische Wissenschaft […] durch ein spezifisches Erkenntnis- und Verwertungsinteresse»

(Kromrey, 2001, S.112).

Generalisierbarkeit von Ergebnissen spielt bei Evaluationen selten eine Rolle, denn Nutzen soll für konkrete Maßnahmen oder Programme erzielt werden. Evaluation kann analog zur Erwachsenenpädagogik als «Handlungswissenschaft» bezeichnet werden.


SCHLÜSSELAUSSAGE

Forschung im Bereich Bildung will möglichst verallgemeinerbare Erkenntnisse über Lernendentypen, Mechanismen des Lernens, Zusammenhänge von Bildungsinstitutionen, Lernarrangements und Lernmethoden, Strategien der Bildungsfinanzierung etc. erzielen, will diese auf Theorien und Begriffssysteme abstützen und gesicherte verallgemeinerte Erkenntnis in der wissenschaftlichen Gemeinschaft der Bildungsforschenden vorantreiben.

Bildungsevaluation will für konkrete, raumzeitlich meist begrenzte Bildungsprogramme, -studiengänge oder -kurse bestimmter Bildungsanbieter oder -träger und auf deren Informationsbedarfe zeitgenau abgestimmte Daten, Schlussfolgerungen und Bewertungen bereitstellen, sodass jene Akteure Grundsatzentscheidungen treffen, Rechenschaft ablegen oder Optimierungsschritte einleiten können.

Im zweiten Fall ist präzise vorausgedacht, wozu und wann sowie über welche Kommunikationskanäle und Schnittstellen die Ergebnisse der Evaluation genutzt werden sollen: Leviton und Hughes (1981, S.528) nennen diese Art der vorgesehenen Nutzung «instrumentell». Auf die damit verbundenen Evaluationszwecke wird später ausführlich eingegangen (➞ Kapitel 6.1).

Evaluation am Beispiel des Bildungsbereiches ist die Sammlung und Nutzung von Informationen, um über ein Bildungsprogramm Entscheidungen zu treffen, wie einer der Pioniere der Bildungsevaluation schreibt:

«[…] collection and use of information to make decisions about an educational program»

(Cronbach, 1963, S.672).

 

Dass die Nutzung von Evaluationsergebnissen zwar theoretisch gefordert, aber praktisch nicht immer vollzogen wird, unterstreicht Patton, indem er der allgemeinen Programmevaluation ein Konzept gegenüberstellt, welches einen vorgesehenen Evaluationsnutzen für vorgesehene Nutzende zugrunde legt:

«Utilization-focused program evaluation (as opposed to program evaluation in general) is evaluation done for and with specific, intended primary users for specific, intended uses»

(Patton, 2008, S.37).

Auf welcher Basis? – Die Evaluationskriterien

Das nachfolgende Zitat von Weiss, die zu den herausragenden Evaluationstheoretikerinnen des letzten Jahrhunderts zählt, betont die Wichtigkeit des Bewertens auf Basis von Bewertungskriterien. Sie definiert Evaluation als eine systematische Bewertung der Durchführung und/oder der Resultate eines Programms oder einer Politik auf der Basis einer Reihe von expliziten oder impliziten Normen – und dies als Mittel zur Förderung der Verbesserung des Programms oder der Politik:

«Evaluation is the systematic assessment of the operation and/or the outcomes of a program or policy, compared to a set of explicit or implicit standards, as a means of contributing to the improvement of the program or policy»

(Weiss, 1998a, S.4).

Indem Evaluation als nicht direkt zu einer Bewertung führend, sondern zunächst als die Identifikation, Klärung und Anwendung von belastbaren Kriterien definiert wird, um daraufhin den Wert (Güte und Tauglichkeit) eines Gegenstandes in Bezug auf diese Kriterien zu bestimmen, werden die Bewertungskriterien stark betont:

«[…] we define evaluation as the identification, clarification, and application of defensible criteria to determine an evaluations object’s value (worth and merit) in relation to these criteria»

(Fitzpatrick, Sanders & Worthen, 2012, S.7).

Stufflebeam und Coryn definieren Evaluation als einen systematischen Prozess der Bestimmung, Beschaffung, Berichterstattung und Nutzung von beschreibenden und bewertenden Informationen. Dabei benennen sie die sieben Kriteriendimensionen Güte, Tauglichkeit, Integrität (Rechtschaffenheit/Redlichkeit), Umsetzbarkeit, Sicherheit, Bedeutsamkeit und/oder Gerechtigkeit, auf deren Basis die Beschreibung und Bewertung des Evaluationsgegenstandes erfolgt:

«[…] evaluation is the systematic process of delineating, obtaining, reporting and applying descriptive and judgemental information about some object’s merit, worth, probity, feasibility, safety, significance and/or equity»

(Stufflebeam & Coryn, 2014, S.12).

Evaluation als Wissenschaft!

Patton argumentiert, dass Evaluation als Wissenschaft angesehen werden kann. Das Ziel von Wissenschaft sei es zu verstehen und zu erklären, wie die Welt funktioniert. Die Besonderheit der Evaluation bestehe darin, klären zu wollen, wie und wie gut Programme, Maßnahmen oder Interventionen funktionieren, die Veränderungen – zu ergänzen wäre: Stabilisierungen – auslösen sollen. Der Evaluation als Wissenschaft liegt eine systematische Vorgehensweise zur Bestimmung von Güte, Wert, Tauglichkeit, Nutzen und Bedeutsamkeit des Evaluationsgegenstandes zugrunde, die sich an wissenschaftliche Normen hält, zu denen die Anwendung von Logik, die Verwendung transparenter Methoden, die Überprüfung der Ergebnisse und die Bereitstellung von Belegen und expliziten Begründungen gehören, um vernunftgemäße Interpretation, Bewertung und Beurteilung zu unterstützen.

«Evaluation science is systematic inquiry into how, and how well, interventions aimed at changing the world work. Evaluation science involves systematic inquiry into the merit, worth, utility, and significance of whatever is being evaluated by adhering to scientific norms that include employing logic, using transparent methods, subjecting findings to review, and providing evidence and explicit rationales to support reason-based interpretation, valuing, and judgment»

(Patton, 2018a, S. 187).

Im Vergleich von Evaluation und Forschung ergibt sich darüber hinaus ein für die Praxis höchst relevanter, geradezu dramatischer Punkt: «Grundlagenforschung darf sich ‹irren›. Damit ist gemeint: Hypothesen, die als Ausgangspunkt gewählt werden, dürfen sich im Verlauf der Forschung als falsch erweisen. […] Deren informationsreiches Scheitern ist nicht selten der Startpunkt für grundlegende Erkenntnisse, die eine neue Forschungslinie begründen» (Kromrey, 2003, S.98).

Eine solche, die Fehlbarkeit preisende Haltung gefährdet hingegen Legitimität und Akzeptanz von Evaluation: «Bei der Konzipierung des […] Designs ist große Sorgfalt darauf zu verwenden, dass die zugrunde liegenden Annahmen und Hypothesen einen hohen Grad empirischer Bewährung aufweisen und dass der Prozess der Gewinnung, Auswertung und Interpretation aller Informationen methodisch abgesichert und mit begleitender Qualitätskontrolle abläuft. Jede falsche Schlussfolgerung im Verwertungskontext, die wegen fehlerhafter […] Daten gezogen wird, hat Konsequenzen für einen nicht absehbaren Kreis von Betroffenen» (Kromrey, 2003, S.98).

Wenn also grundlegende Skepsis, Misstrauen gegenüber jedem sicheren Befund sowie ständiges und wiederholendes Infragestellen einer Vorannahme hohe Tugenden der Grundlagenforschenden sind (gegen die allerdings nicht selten in unethischer Weise verstoßen wird), würde eine solche Haltung – zumindest, wenn in übertriebenem Maße praktiziert – die Akzeptanz und das wirtschaftliche Überleben eines Evaluationsbüros gefährden. Hier deutet sich ein erstes der vielen Dilemmata an, mit denen in Evaluationen umgegangen werden muss.

Für die angemessene Planung und Durchführung einer Untersuchung ist es unverzichtbar, eine klare Priorität auf Forschung oder Evaluation zu setzen: «Eine (unklare) Mischung schadet zumeist in beide Richtungen» (Reischmann, 2006, S.30).

Auf wessen Initiative – autonom oder beauftragt?

Der Weg zu Fragestellungen ist bei Evaluation und Forschung oft sehr unterschiedlich: In der Forschung bestimmen – zumindest vom Ideal her – die Forschenden die Fragestellungen und die wissenschaftlichen Hypothesen. Auf der Suche nach Erkenntnis sollen sie allein sich selbst und den Ansprüchen ihrer Disziplin gegenüber verantwortlich sein. In der Ausrichtung von Forschungsthemen sind sie dabei nicht selten intuitiv, durch biografische oder zeitgeschichtliche Besonderheiten geleitet. Friedrichs (1973, S.50–55) nennt dies in seiner, für die sozial- und erziehungswissenschaftliche Forschung prägenden Dreigliederung den «Entdeckungszusammenhang». Diesem widmen die Forschenden relativ wenig Aufmerksamkeit, ebenso wie dem «Verwertungszusammenhang». Für sie zentral ist hingegen der «Begründungszusammenhang» mit seinen Theorien, Hypothesen, Begriffen und dem gesamten forschungsmethodischen Inventar. Was in der Forschung eine nebensächliche Aufgabe ist – die genaue Festlegung des Evaluationsgegenstandes (➞ Kapitel 4) inklusive der Fragestellungen –, ist in der Evaluation die erste Kernleistung, für die genügend Ressourcen zur Verfügung stehen müssen.


➞ Lösung auf Seite 228


«Risiken pragmatischer Evaluationen»Lösen Sie nun die Übungsaufgabe 2:
a) Notieren Sie Gefahren und Risiken, wenn Sie sich – z.B. wegen Zeitknappheit – von wissenschaftlichen Anforderungen an Evaluation lösen und auf «Evaluationen» ausweichen, die allein pragmatischen Überlegungen folgen.b) Machen Sie einige Stichworte dazu, wie Sie sich – in Ihrer aktuellen oder künftigen Arbeitssituation – gegen solche Risiken schützen können.

Bedeutung des Kontextes

Bei Evaluationen läuft es oft anders ab: Sie sind zumeist Auftragsarbeiten, und ihre Zwecke und Fragestellungen sind zumindest grob vorgegeben. Sie werden nicht durch die Evaluierenden in eigener Regie nach ihrer Neugier und Kreativität konzipiert, sondern in enger Abstimmung mit den Auftraggebenden und weiteren Beteiligten aus dem Bereich des Evaluationsgegenstandes. Evaluationsvorhaben finden in einem kontrollierten Rahmen als Auftrag von Entscheidungsträgerinnen und -trägern statt und sind oft in politische Settings eingebunden. Mertens hebt als Besonderheit von Evaluation hervor, dass in ihr Politik und Wissenschaft von Natur aus miteinander verflochten seien. Evaluationen werden zur Bestimmung der Güte und Tauglichkeit öffentlicher Programme durchgeführt, die wiederum selbst Antworten auf – durch politische Entscheidungen bevorzugte – individuelle und gemeinschaftliche Bedürfnisse sind: «what distinguishes evaluation from other forms of social inquiry is its political inherency; that is, in evaluation, politics and science are inherently intertwined. Evaluations are conducted on the merit or worth of programs in the public domain, which are themselves responses to prioritized individual and community needs that resulted from political decisions» (Mertens, 2015, S. 52, auf Basis von Greene, 2000). Auch die nachfolgend geschilderte Möglichkeit, eine Vielzahl an Perspektiven auf den Evaluationsgegenstand einzunehmen, indem man Beteiligte und Betroffene einbezieht, kann der Vereinseitigung einer Evaluation vorbeugen, deren Vermeidung aber nicht garantieren.