Operationalisierung von Fairness in der Technologie-gestützten Personalauswahl aus der Perspektive der Technologie-Entwickelnden:
Ein Rückblick auf den dritten Round Table am 22.06.2023
Am 22. Juni 2023 fand der Round Table #2.2 zum Thema "Fairness und ihre Umsetzung im Kontext von Technologien für Personalauswahl" statt, bei dem die Perspektive aus dem Tech-Bereich beleuchtet wurde. So wurde in den ersten beiden Themenblöcken über die Dimensionen von Fairness in der Personalauswahl diskutiert, die zwischen Ausgangsbedingungen, Prozess und Outcome differenziert wurden. Es wurde betont, dass Chancengleichheit angestrebt wird, wobei berücksichtigt werden sollte, wo ein Nachteilsausgleich (equity) möglich ist. Der Fokus liegt dabei nicht auf dem gleichen Ergebnis für alle Bewerber*innen, sondern darauf, den gesamten Prozess fair zu gestalten. Es wurde diskutiert, dass Diskriminierungsprozesse bereits im Vorfeld - bei der Entwicklung von Stellenanforderungen - wirken, die sich somit auch in den Stellenanzeigen reflektieren. Eine zu komplizierte Sprache in Stellenausschreibungen und die Lesbarkeit wurden als problematisch betrachtet, da bestimmte Personengruppen ausgeschlossen werden können. Empfehlungssysteme wurden ebenfalls als mögliche Quelle von Diskriminierungswirkungen identifiziert.
Es wurde betont, dass die Grundlage für die Fairness in der Personalauswahl darin besteht, zu entscheiden, welche Ungleichheiten adressiert werden sollen und welcher Wert auf Fairness gelegt wird. Die Teilnehmenden brachten hervor, dass die Einbeziehung der Nutzer*innen, zum einen von Personalverantwortlichen aber insbesondere auch der Bewerber*innen, bereits in der Entwicklungsphase der Technologie wichtig sei - dabei wurden Nachvollziehbarkeit und Transparenz als Schlüsselfaktoren genannt, um breite Gruppen verstehen zu lassen, wie die Technologien funktionieren und dass KI nicht automatisch objektiver sei. In der Entwicklungsphase sei es außerdem wichtig, das vorhandene Wissen, z. B. aus der langjährigen Forschung über Ungleichheiten, in den Code einfließen zu lassen. Ein mögliches Zukunftsszenario wäre auch die Umsetzung individualisierter Auswahlprozesse unter Berücksichtigung der persönlichen Beziehungen zwischen Mensch und Technologie. Dabei könnten sowohl Personalverantwortliche als auch Bewerber*innen individuell entscheiden, wie sie lieber auswählen oder ausgewählt werden möchten, bzw. ob die Technologie für deren Auswahl benutzt wird oder nicht. Es kristallisierten sich folgende Fragen heraus: Wie kann die Partizipation von Nutzer*innen an der Technikgestaltung erfolgreich gestaltet werden? Wie kann nicht nur Chancengerechtigkeit, sondern auch Teilhabegerechtigkeit im iterativen Monitoring-Prozess gewährleistet werden? Zudem betonen die Teilnehmenden, wie notwendig es sei, dass das Team der Technologieentwickelnden heterogen und demografisch divers aufgestellt sei.
Im dritten Themenblock wurde über zwei konkrete Beispiele von Technologien im Bereich HR 4.0 diskutiert: zum einen ein Algorithmus, der die „Persönlichkeit“ aus Videointerviews voraussagen soll und zum anderen eine CV-Parsing-Software. Beim ersten Beispiel war zunächst die Verwendung von vortrainierten Modellen zur Gesichts- bzw. Objekterkennung ein zentraler Punkt, die oftmals auf kostenlosen Trainingsdaten basieren und nachgewiesenermaßen Verzerrungen beinhalten können. Es wurde außerdem hinterfragt, woher die Trainingsdaten, die Video-Sequenzen und psychologische Profile verknüpfen, stammen und wie das Rating auf die Big Five Persönlichkeitsmerkmalen aus einem Video entsteht. Es wurde betont, dass die Beurteilung eines Modells nicht nur den Code, sondern auch die Trainingsdaten sowie die Daten, auf denen das vortrainierte Modell basiert, umfassen sollte. Es wurde vorgeschlagen, gezielte Tests und Metriken einzusetzen und die Korrelation mit sensiblen Merkmalen wie Geschlecht und Alter zu überprüfen. Die Validierung hänge davon ab, welche Fragen zur Fairness beantwortet werden möchten. Es wurde auch auf die Bedeutung der Repräsentativität von Daten hingewiesen, sowohl in Bezug auf Diversität als auch auf sensible Persönlichkeitsmerkmale. Es wurden verschiedene Ansätze zur Beurteilung der Persönlichkeit von Menschen in Videos diskutiert, darunter die Verwendung von Sprache oder Mimik sowie zusätzliche Persönlichkeitsfragebögen. Es wurde darüber debattiert, ob Selbstauskünfte mit Fremdeinschätzungen kombiniert werden sollten. Die Bedeutung des Monitorings im Betrieb wurde betont, einschließlich Tests mit Kund*innen und der Überprüfung der Übereinstimmung von Trainings- und Anwendungsdaten. Es wurde gleichzeitig darauf hingewiesen, dass Monitoring für kleine Start-ups besonders schwierig und teuer sei. Die Rolle von Ethik-Räten und die Zusammenarbeit zwischen Start-ups und der Wissenschaft wurden als wichtige Faktoren für die Vertrauensbildung und die Entwicklung fairer Technologien diskutiert. Schließlich wurde die Herausforderung des Monitorings in komplexen Personalauswahlprozessen hervorgehoben, bei denen es schwierig ist, mögliche Fälle von Diskriminierung aufgrund der Technologie zu erkennen, wenn es keine Informationen über die Bewerber*innen gibt, die sich nicht beworben haben, und wenn Bewerber*innen, die sich beworben haben, den internen Prozess nicht kennen und daher nicht nachvollziehen können, ob sie in dem Verfahren diskriminiert wurden oder nicht. Die Schwierigkeiten bei der Umsetzung von Monitoring wurden diskutiert, insbesondere in Bezug auf Ressourcen- und Anpassungsprobleme, die sich aus der kontinuierlichen Änderung von Technologien ergeben.
Beim zweiten Beispiel der CV-Parsing-Software wurde betont, dass Trainingsdaten nicht ausreichend sind, wenn sie hauptsächlich von Muttersprachler*innen stammen, da dies zu systematischer Benachteiligung führen kann. Es wurde diskutiert, dass Skill-Extraktionssysteme bis dato noch nicht umfassend erarbeitet sind und möglicherweise bestimmte Fähigkeiten nicht erkennen oder verstehen können, sodass untersucht werden muss, wie robust diese Systeme für verschiedene Stellen und Fähigkeiten sind und ob möglicherweise eine systematische Benachteiligung anhand verschiedener Formulierungen und Skill-Bewertungen vorliegen kann. Es wurde die Frage aufgeworfen, ob es überhaupt notwendig sei, bestimmte Technologien wie etwa beide Beispiele einzusetzen und ob bzw. wie das Wissen über die Verwendung solcher Technologien für Bewerber*innen transparent gemacht werden sollte. Die Transparenz des Bewertungsprozesses wurde als wichtig erachtet und es wurde der Vorschlag gemacht, dass Augmented Intelligence anstelle von Artificial Intelligence eingesetzt werden könnte, um transparente Ergebnisse zu erzielen und den Bewerbenden zu helfen. Die Bewerber*innen sollten die Möglichkeit haben, ihre eigenen Lebensläufe hochzuladen und die extrahierten Skills einzusehen und diese gegebenenfalls zu korrigieren. Die Bedeutung des Anforderungsprofils als Grundlage für die Auswahl von Technologien und die Frage, wie sich die persönliche Gestaltung eines CVs, einschließlich der Sprache bzw. des Schreibstils, auf die Bewertung auswirkt, wurden ebenfalls diskutiert. Ein Beispiel aus den 70er Jahren wurde genannt, das zeigte, wie Intelligenztests in den USA aufgrund kultureller Unterschiede zu unfairen Ergebnissen führten.
Folglich wurde auf Grundlage der Beispiele die Bedeutung von Trainingsdaten und deren Repräsentativität hingewiesen. Die Validierung und Überprüfung der Technologien wurde als wichtige Maßnahme genannt, um sicherzustellen, dass sie fair für verschiedene Stellen und Skills sind. Die Bedeutung von Anforderungsprofilen und der richtigen Auswahl der relevanten und messbaren Kriterien für die Technologieentwicklung wurde herausgestellt. Insgesamt wurde betont, dass ein diskriminierungssensibles Monitoring und die Einbeziehung von wissenschaftlichem Know-how in die Technologieentwicklung essentiell sind, um Fairness zu ermöglichen. Es wurde auch auf die Herausforderungen hingewiesen, insbesondere für kleine Start-ups, die möglicherweise begrenzte Ressourcen haben. Eine enge Verzahnung von Start-ups und Wissenschaft - als kooperativer Ansatz - wurde als wichtige Möglichkeit genannt, um sicherzustellen, dass wissenschaftliches Wissen in die Praxis einfließt. Des weiteren wurden Gesetze als notwendig angesehen, um sicherzustellen, dass alle Organisationen die Fairness-Prinzipien umsetzen, aber auch Programme und Initiativen, die eine solche Verzahnung ermöglichen - insbesondere da hervorgebracht wurde, dass die KI-Verordnung bzw. lediglich der Datenschutz nicht ausreichend sei. So bleibt insgesamt unbeantwortet, welche Daten und Merkmale in entsprechende Analysen miteinbezogen werden sollten bzw. können. Zusammenfassend wurde in der Diskussion des Round Table #2.2 die Einbeziehung der Nutzer*innen, Transparenz, Monitoring und die enge Zusammenarbeit von Start-ups und Wissenschaft als Schlüsselfaktoren genannt, um Chancengleichheit und Teilhabegerechtigkeit sicherzustellen und Diskriminierung in Auswahlprozessen zu reduzieren.