# A.1: n-gram Statistik bestimmen

Statistische Modelle werden oft zur Texterkennung und -generierung verwendet. Sie erheben die Wahrscheinlichkeiten von Wortfolgen. Eine häufige Methode dafür sind sogenannte n-gram-Modelle. Diese Modelle basieren auf der Wahrscheinlichkeit von Wortfolgen in einem Textkorpus.

Ein n-gram-Modell betrachtet eine Sequenz von $n$ Wörtern in einem Text und verwendet diese, um die Wahrscheinlichkeit des nächsten Wortes in der Sequenz vorherzusagen. Zum Beispiel würde ein 2-gram-Modell (auch als bigram-Modell bezeichnet) für eine Sequenz von zwei aufeinanderfolgenden Wörtern die Wahrscheinlichkeit/Häufigkeit betrachten, mit der diese in einem Textkorpus vorkommen.

Um ein n-gram-Modell zu trainieren, wird ein Korpus von Texten verwendet, um die Wahrscheinlichkeiten der Wortfolgen abzuschätzen. Dies geschieht durch Zählen der Anzahl der Vorkommen von n-grammen im Korpus und der Berechnung ihrer Häufigkeit. Die Häufigkeiten können dann verwendet werden, um die Wahrscheinlichkeit von bestimmten Wortfolgen im Korpus zu berechnen.

Diese Wahrscheinlichkeiten können dann verwendet werden, um neue Texte zu generieren, indem man eine Sequenz von Wörtern beginnt und dann das nächste Wort basierend auf den Wahrscheinlichkeiten der Wortfolgen im Korpus auswählt.

```{figure} images/mehmood2020ngrams.png
---
width: 640px
---
Visualisierung n-grams, von {cite}`mehmood2020`.
```

* N-gram-Modelle sind einfach und schnell zu trainieren und können eine relativ gute Leistung erzielen.
* Allerdings sind sie aufgrund ihrer begrenzten Kontextgröße und ihrer Unfähigkeit, semantische Beziehungen zwischen Wörtern zu berücksichtigen, oft nicht in der Lage, hochwertige und natürliche Texte zu generieren.

*<div style="text-align: right">(OpenAI's ChatGPT, personal communication, 12.2.2023)</div>*

Google hat über lange Zeiträume und große Textdatenmengen die Häufigkeiten von n-grams erhoben. Diese sind öffentlich zugreifbar und erlauben so direkt einen Vergleich zwischen verschiedenen n-grams, z.B. für verschiedene Programmiersprachen auf [https://books.google.com/ngrams/](https://books.google.com/ngrams/graph?content=Python+development%2CRuby+development%2CC+development%2CPerl+development&year_start=2009&year_end=2019&corpus=en-US-2019&smoothing=2).

## Ziel von Task A.1

n-gram werden als einfaches statistisches Modell vorgestellt und in der ersten Aufgabe implementiert sowie die Statistik aus einem kurzen Textcorpus extrahiert.

Ihre Aufgabe ist es ein C++ Programm zu implementieren, das die Häufigkeiten von n-grams für verschiedene $n$ bestimmt (mindestens bis zu Ebene $n=2$ aber auch $n=$ ist noch empfehlenswer). Dazu sollen sie die benötigten Funktionen in C++ implementieren. Sie müssen hierbei Entscheidungen über den Ablauf und die aufzubauende Repräsentation für die n-grams treffen.

Sie bekommen schon hierfür vorgegebene Routinen zum einlesen von Text und zur Vorverarbeitung von Text .

## Grundlegende Struktur 

`````{tab-set}
````{tab-item} main_ngram.cpp
```{literalinclude} A_chatngram/src/main_ngram.cpp
:language: c++
```
````
````{tab-item} .h
```{literalinclude} A_chatngram/src/count_ngram.h
:language: c++
```
````
````{tab-item} Makefile
```{literalinclude} A_chatngram/Makefile_ngram
:language: makefile
```
````
````{tab-item} Shell Aufruf
```{literalinclude} shellCall_ngram
:language: shell
```
````
`````

```{admonition} Anweisungen
* Starten sie im main-Program und verstehen sie einmal die Verarbeitung der Parameter.
* Implementieren sie dann als erstes die Function `count1gramFromText` (die Vorverarbeitung wird in `read_file.cpp` durchgeführt, können sie aber überspringen). Hierfür müssen sie eine geeignete Repräsentation und damit einen Datentyp festlegen. Diese Repräsentation ist Rückgabewert der Funktion. 
* Implementieren sie dann Funktionen, die auf diesme Datentyp arbeiten und z.B. den Count für ein n-gram zurückliefern.
* Erweitern sie dies nun auf bigrams und gegebenenfalls trigrams (nur wenn genug Zeit, sie sollten noch zumindest eine halbe Stunde für den zweiten Teil haben).
```

```{admonition} Tipp - hier öffnen
:class: tip, dropdown

Wählen sie eine geeignete Speicherstruktur als Repräsentation für die n-grams. Überlegen sie auch geeignete Varianten (speziell dann für $n>1$). Welche Vor- und Nachteile haben die vers. Strukturen?

Als Hilfe: 
* Eine Übersicht über Datenstrukturen der STL finden sie in der [Referenz](https://cppvorlesung.uni-muenster.de/lecture/stl/containers.html) oder hier [https://en.cppreference.com/w/cpp/container](https://en.cppreference.com/w/cpp/container).
* Um über diesen zu iterieren siehe in der [Referenz zu Iteratoren](https://cppvorlesung.uni-muenster.de/lecture/stl/containers.html#iterators) oder auch [https://www.simplilearn.com/tutorials/cpp-tutorial/iterators-in-cpp](https://www.simplilearn.com/tutorials/cpp-tutorial/iterators-in-cpp).
* Für die Auswahl von Datenstrukturen bietet [https://github.com/gibsjose/cpp-cheat-sheet](https://github.com/gibsjose/cpp-cheat-sheet/blob/master/Data%20Structures%20and%20Algorithms.md) auch eine gute Übersicht und sogar ein Flowchart.
```

## Beispielergebnisse

Für den Beispieltext *Alice im Wunderland* in sample.txt ist das häufigste Wort "the" mit einem count von 1686.

Als zweites Beispiel: Für den Berkeley Restaurant Corpus geben {cite}`jurafsky2009ngram` in der Literatur folgende Werte an: 
Zuerst eine Tabelle mit counts für Unigrams (für $8$ Wörter von insgesamt $V=1446$ über den Berkeley Restaurant Corpus aus $9332$ Sätzen), Ergebnisse nach {cite}`jurafsky2009ngram`.


| i    | want | to   | eat | chinese | food | lunch | spend |
|------|------|------|-----|---------|------|-------|-------|
| 2533 | 927  | 2417 | 746 | 158     | 1093 | 341   | 27    |

Tabelle mit counts für Bigrams (für $8$ Wörter von insgesamt $V=1446$ über den Berkeley Restaurant Corpus aus $9332$ Sätzen) -- Einträge in der vertikalen ersten Spalte geben das vorherige Wort an und die folgenden Spalten geben dann die gezählten Häufigkeiten für die in der oberen Zeile angegebenen Wörter wieder {cite}`jurafsky2009ngram`.

|         | i    | want | to  | eat | chinese | food | lunch | spend |
|---------|------|-----|-----|---------|------|-------|-------|-----|
| i       | 5    | 827 | 0   | 9       | 0    | 0     | 0     | 2   |
| want    | 2    | 0   | 608 | 1       | 6    | 6     | 5     | 1   |
| to      | 2    | 0   | 4   | 686     | 2    | 0     | 6     | 211 |
| eat     | 0    | 0   | 2   | 0       | 16   | 2     | 42    | 0   |
| chinese | 1    | 0   | 0   | 0       | 0    | 82    | 1     | 0   |
| food    | 15   | 0   | 15  | 0       | 1    | 4     | 0     | 0   |
| lunch   | 2    | 0   | 0   | 0       | 0    | 1     | 0     | 0   |
| spend   | 1    | 0   | 1   | 0       | 0    | 0     | 0     | 0   |

Der heutige Corpus (in `data/berkeley.txt`) enthält ein paar Einträge mehr, so dass man zu leicht anderen Ergebnissen kommt, aber im allgemeinen sind die Tendenzen (und Wahrscheinlichkeiten) gleich. Für die Unigrams ergibt sich so zum Beispiel:

| i    | want | to   | eat | chinese | food | lunch | spend |
|------|------|------|-----|---------|------|-------|-------|
| 3877 | 1043 | 2734 | 833 | 193     | 1247 | 392   | 311   |

```{figure} images/ackermann_shakespeare.png
---
width: 640px
---

Beispiel einer Visualisierung von den häufigsten Bigrams in vers. Shakespeare Stücken (nach Entfernung der Regieanweisungen), siehe {cite}`ackermann2020`.
```


## Mögliche Erweiterung

Mögliche Erweiterungen: Speichern sie die gewonnene Statistik.

## Referenzen

Mehr Hinweise für die effiziente Implementierung von Algorithmen und Strukturen für n-grams finden sich in

* der Forschung, siehe z.B.  {cite}`pibiri2019ngram`;
* entsprechenden spezialisierten libraries, wie z.B. [tongrams](https://github.com/jermp/tongrams).

```{bibliography}
:filter: docname in docnames
:style: plain
```