Deutsche Vereinigung für Politikwissenschaft

Einfache Suche in 72 Jahren parlamentarischem Diskurs mit Pollux Political Corpora

18. März 2025

Autorin: Nina Smirnova

 

 

Parlamentarische Debatten bieten ein breites Themenspektrum für wissenschaftliche Untersuchungen und dienen als wirkungsvolles Instrument zur Agenda-Setzung sowie zur Ausübung politischen Einflusses. Durch die Analyse parlamentarischer Reden können Forschende die impliziten programmatischen und ideologischen Positionen politischer Parteien aufdecken. Jüngste Studien auf diesem Gebiet nutzen zunehmend automatisierte oder semi-automatisierte Methoden zur Untersuchung parlamentarischer Diskurse. Beispiele hierfür sind Analysen zu Geschlechterdynamiken und Untersuchungen des Negativitätsniveaus, das aus den Reaktionen des Publikums abgeleitet wird, sowie Sentiment- und Negativitätsanalysen. Weitere Forschungsbemühungen konzentrieren sich auf die Entwicklung automatisierter Themenmodellierung und diskursiver Framing-Ansätze im legislativen Kontext.

 

 

 

Pollux bietet Forschenden eine einfache Möglichkeit, politische Textsammlungen (Korpora) auf der neuen Plattform Pollux Political Corpora (PoliCorp) zu durchsuchen und zu analysieren. PoliCorp stellt Forschenden umfangreiche Textdaten zur Verfügung und ermöglicht eine detaillierte Analyse parlamentarischer Diskurse im zeitlichen Verlauf.

Eine Demoversion ist hier verfügbar.

Die Plattform enthält derzeit Daten aus dem GermaParl-Korpus, einer Sammlung von Transkripten von Bundestagsdebatten, die 72 Jahre parlamentarischer Debatten – von 1949 bis 2021 – umfasst und über 958.000 Redebeiträge beinhaltet. Zusätzliche Datenverarbeitungsschritte wurden durchgeführt, um eine webbasierte Suche zu ermöglichen und zusätzliche Funktionen zu integrieren. Die Plattform basiert auf Elasticsearch als zugrundeliegender Suchtechnologie.

Suchfunktionen

PoliCorp bietet Politikwissenschaftler*innen und interdisziplinär Forschenden Zugang zu strukturierten Daten, die über die Web-Suchoberfläche leicht durchsucht werden können. Mit der erweiterten Suchfunktion können Forschende logische Operatoren wie AND, OR und NOT anwenden, um Suchkriterien zu kombinieren oder auszuschließen, wodurch sich große Mengen parlamentarischer Debattendaten gezielt filtern lassen. Die Suche kann individuell angepasst werden, indem mehrere Felder kombiniert und logische Operatoren angewendet werden, wie in Abbildung 1 veranschaulicht wird.

 

 

Experimentelle Werkzeuge für die Datenverarbeitung

Die Plattform nutzt experimentelle Werkzeuge zur Datenverarbeitung. Derzeit können Nutzer*innen die Ergebnisse von zwei Modellen zur Named Entity Recognition (NER) sehen: German NER und NER for German Legal Text. Named Entity Recognition bezeichnet den Prozess der Identifizierung zentraler Elemente oder benannter Entitäten in unstrukturiertem Text und deren Zuordnung zu vordefinierten Kategorien. Eine benannte Entität stellt ein reales Objekt dar und ist entscheidend für das Verständnis und die Interpretation von Textinformationen. NER ist für eine Vielzahl von Aufgaben der Informationsextraktion unerlässlich und bildet die Grundlage für fortgeschrittene Textanalysen. Darüber hinaus unterstützt die visuelle Hervorhebung benannter Entitäten auch das menschliche Verständnis, indem sie die Aufmerksamkeit auf zentrale Bestandteile des Textes lenkt.  Abbildung 2 zeigt ein Beispiel für extrahierte benannte Entitäten mit dem German NER-Modell sowie die Integration experimenteller Werkzeuge in die Plattform. Jede benannte Entität wird in einer bestimmten Farbe hervorgehoben und entsprechend gekennzeichnet.

 

Suche nach Ordnungsrufen

Darüber hinaus wurde der Korpus durch zusätzliche Datenverarbeitung verfeinert, einschließlich der Analyse und Verarbeitung formaler Ordnungsrufe. Abbildung 3 zeigt einen Ordnungsruf,den der Sitzungspräsident Wolfgang Schäuble gegen Beatrix von Storch ausgesprochen hat.

 

Download Optionen

Forschende können ausgewählte Datensätze kostenlos im JSON-Format herunterladen und für weiterführende Analysen nutzen, wie Abbildung 4 zeigt.

 

Ausblick

Derzeit arbeiten wir an einer Klassifizierung der spezifischen Ursachen, die zu Ordnungsrufen führen. Künftig werden Nutzer*innen dann die Möglichkeit haben, gezielt nach Ordnungsrufen, deren Ursachen und dem jeweiligen Negativitätsniveau zu suchen. Die künftige Version der Plattform wird erweiterte Suchfunktionen enthalten, darunter die Suche nach Themen und Synonymen. Darüber hinaus planen wir die Integration verschiedener Analysetools. Aktuell erweitern wir den Datensatz um Informationen aus weiteren Legislaturperioden.

Über die Autorin:

Nina Smirnova ist Doktorandin bei Gesis - Leibniz-Institut für Sozialwissenschaften in der Abteilung Knowledge Technologies for the Social Sciences (KTS), Team Information & Data Retrieval und bei Pollux u.a. für die Verarbeitung von politischen Forschungsdaten zuständig.

 

Über die Rubrik "Pollux. Für die Politikwissenschaft"

In der Rubrik “Pollux. Für die Politikwissenschaft” berichtet das Team vom Fachinformationsdienst (FID) Politikwissenschaft - Pollux regelmäßig von neuen Angeboten und Entwicklungen aus den Bereichen Literaturrecherche, Open Access, Forschungsdatenmanagement, Wissenschaftskommunikation und weiteren Themen, die Informationsinfrastrukturen betreffen. Wir freuen uns über Ihre Rückmeldungen, Anregungen, Fragen und Kritik an kontakt@pollux-fid.de.

Mehr Informationen unter: www.pollux-fid.de

Aktuelles bei Bluesky fidpol.bskysocial und Mastodon fidpol@polsci.social

Anmeldung zum Newsletter: https://www.pollux-fid.de/newsletter