Summary of Seminar | Socially (IR)Responsible Algorithms: How the internet can betray our privacy WS 2020/21, Raoul Volker Kübler, Lina Marie Oechsner

Seminar | Socially (IR)Responsible Algorithms: How the internet can betray our privacy WS 2020/21, Raoul Volker Kübler, Lina Marie Oechsner

Introduction

Thanks to the rapid development of internet 2.0 technologies as well as AI-powered devices we enjoy a comfortable digital life that allows us to connect in seconds with friends and peers all over the world. Social media allows us to access and share information from and with friends, family, brands, and other entities.

Even though we may enjoy a comfortable digital lifestyle and have technology easing our life at tremendous pace, we rarely reflect on the other side of the coin. Through interacting with social media platforms we leave substantial digital footprints in a more and more inter-connected world.

While leaving few traces in different online places may generally not be harmful, things may rapidly change once entities become able to combine data to paint a clearer picture of consumers. Kosinski et al. (2013) show that by combining data from various online sources with algorithms and sufficient computational power one may be able to understand personal traits of consumers such as marital status, sexual orientation, drug consumption, health, or political orientation.

Meanwhile, digitalization allows companies to offer more and more customized products on a micro-target level. Companies can decide for each consumer checking into a website how to price goods and services (e.g. flight tickets), what kind of advertisement to show to a consumer, or what kind of service to offer or reject (e.g. insurance companies).

Thus – and without consumers yet fully realizing – the costs of digitalization, social media, and online consumption have substantially increased for consumers.

In addition, algorithms still make many bad predictions due to wrong specifications, bad training data and other biases (O'Neil 2016), again increasing costs for unaware consumers who are finally – without knowing and having a chance to react – paying the extra bill.

Seminar content

In this seminar, we want to explore together how combining online single source information of consumers may enable companies to predict personal consumer traits and co-variates.

We aim at replicating the approach by Kosinski et al. (2013) by running together a large-scale web survey to create a sufficiently large training data set that we can then use to predict personal traits with the help of social media behavior. We will then use this data set to explore in groups which types of machine learning algorithms put consumers at higher risks by being more or less prone to miss-classifications.

Beside the technical component, a strong emphasis will be put on the ethical discussion of algorithmic marketing and digital privacy.

The course will require students to apply code in R. R knowledge is not mandatory or required as we will provide students with sufficient interactive learning material that will allow them to get familiar with R, R-Studio and the relevant packages. In addition, we will provide R-tutorials and a high level of supervision.

Literature

- Kosinski, Michal, David Stillwell, and Thore Graepel. (2013). Private traits and attributes are predictable from digital records of human behavior, Proceedings of the National Academy of Sciences 110 (15), 5802-5805.
- O'Neil, Cathy (2016). Bomb parts: What is a model?, in: O’Neil, Cathy: Weapons of Math Destruction, Crown, New York, 15-31.
- O'Neil, Cathy (2016). Civilian casualties: Justice in the age of big data, in: O’Neil, Cathy: Weapons of Math Destruction, Crown, New York, 84-104.
- O'Neil, Cathy (2016). The targeted citizen: Civic life, O’Neil, Cathy: Weapons of Math Destruction, Crown, New York, 179-198.

Einführung

Dank der rasanten Entwicklung von Web 2.0-Technologien sowie KI-betriebenen Geräten genießen wir ein komfortables digitales Leben, das es uns ermöglicht, in Sekundenschnelle mit Freunden und Gleichgesinnten auf der ganzen Welt in Verbindung zu treten. Soziale Medien ermöglichen es uns, auf Informationen von und mit Freunden, Familienmitgliedern, Marken und anderen Personen zuzugreifen und sie mit ihnen zu teilen.

Auch wenn wir uns eines komfortablen digitalen Lebensstils erfreuen und über Technologien verfügen, die unser Leben in einem enormen Tempo erleichtern, denken wir selten über die andere Seite der Medaille nach. Durch die Interaktion mit Social-Media-Plattformen hinterlassen wir in einer immer stärker vernetzten Welt erhebliche digitale Fußspuren.

Auch wenn das Hinterlassen weniger Spuren an verschiedenen Online-Plätzen im Allgemeinen nicht schädlich sein mag, können sich die Dinge schnell ändern sobald die Unternehmen in der Lage sind, Daten zu kombinieren, um ein klareres Bild der Verbraucher zu zeichnen. Kosinski et al. (2013) zeigen, dass man durch die Kombination von Daten aus verschiedenen Online-Quellen mit Algorithmen und ausreichender Rechenleistung in der Lage sein kann, persönliche Merkmale von Konsumenten wie Familienstand, sexuelle Orientierung, Drogenkonsum, Gesundheit oder politische Orientierung zu verstehen.

Unterdessen ermöglicht die Digitalisierung den Unternehmen mehr und mehr maßgeschneiderte Produkte auf Mikrozielebene anzubieten. Unternehmen können für jeden Verbraucher, der auf einer Website eincheckt, entscheiden, wie hoch der Preis für Waren und Dienstleistungen (z.B. Flugtickets) sein soll, welche Art von Werbung dem Verbraucher gezeigt werden soll oder welche Art von Dienstleistung angeboten oder abgelehnt werden soll (z.B. Versicherungsgesellschaften).

Auf diese Weise - und ohne dass die Verbraucher es bisher vollständig realisiert haben - sind die Kosten der Digitalisierung, der sozialen Medien und des Online-Konsums für die Verbraucher erheblich gestiegen.

Darüber hinaus machen Algorithmen immer noch viele schlechte Vorhersagen aufgrund falscher Spezifikationen, schlechter Trainingsdaten und anderer Verzerrungen (O'Neil 2016), was wiederum die Kosten für unwissende Verbraucher erhöht, die schließlich - ohne es zu wissen und ohne die Möglichkeit zu reagieren - die zusätzliche Rechnung bezahlen.

Inhalt des Seminars

In diesem Seminar wollen wir gemeinsam untersuchen, wie die Kombination von Online-Verbraucherinformationen aus einer einzigen Quelle Unternehmen dazu befähigen kann, persönliche Verbrauchermerkmale und Kovariaten vorherzusagen.

Unser Ziel ist es, den Ansatz von Kosinski et al. (2013) zu replizieren, indem wir gemeinsam eine groß angelegte Web-Umfrage durchführen, um einen ausreichend großen Trainingsdatensatz zu erstellen, den wir dann zur Vorhersage persönlicher Eigenschaften mit Hilfe von Social-Media-Verhalten verwenden können. Wir werden diesen Datensatz dann verwenden, um in Gruppen zu untersuchen, welche Arten von Algorithmen des maschinellen Lernens die Verbraucher einem höheren Risiko aussetzen, da sie mehr oder weniger anfällig für Fehlklassifikationen sind.

Neben der technischen Komponente wird ein starker Schwerpunkt auf die ethische Diskussion von Algorithmen im Marketing und des digitalen Datenschutzes gelegt.

Der Kurs erfordert von den Studierenden die Anwendung von Code in R. Kenntnisse sind nicht obligatorisch oder erforderlich, da wir den Studierenden ausreichend interaktives Lernmaterial zur Verfügung stellen werden, das es ihnen ermöglicht, sich mit R, R-Studio und den entsprechenden Paketen vertraut zu machen. Darüber hinaus werden wir R-Tutorials und ein hohes Maß an Betreuung anbieten.

Literatur

Kurs im HIS-LSF

Lehrende/r: Raoul Volker Kübler
Lehrende/r: Lina Marie Oechsner

Semester: WT 2020/21