1a: De type/token-ratio van een tekst is het aantal types in de tekst
gedeeld door het aantal tokens

1b: De type/token-ratio van een lange tekst is meestal lager dan de
type/token-ratio van een korte tekst. De meeste woorden worden meer
dan 1 keer gebruikt in een lange tekst. Een korte tekst bevat meestal
relatief veel woorden die voor het eerst worden gebruikt en dus zorgen
voor een hoger type/token-ratio.

2a: Lemmatisering is het verdelen van woorden in groepen die onderling
zijn afgeleid van hetzelfde basiswoord. Bijvoorbeeld "zingen", "zingt"
en "gezongen" behoren tot het lemma "zing".

2b: Ja, de frequentie van een lemma in een corpus kan groter zijn dan
de frequentie van het woord met dezelfde vorm. Dit komt doordat voor
de berekening van de frequentie van het lemma zowel het woord zelf
("zing") als de alternatieve vormen van het woord ("zingen", "zingt"
en "gezongen") meetellen.

3a: Een zin met zes woorden bevat vier woord-3-grammen. Voor de
voorbeeldzin: "dit is een", "is een hele" "een hele goede", en "hele
goede vraag".

3b: Je begint met het tokeniseren van het corpus. Daarna loop je door
de woorden van het corpus en plaatst steeds het huidige woord en de
twee volgende woorden in de uitvoer (mits deze twee beide bestaan).

4a: Drie methoden voor het meten van de sterkte van een collocatie
zijn: (frequentie,) log-likelihood, mutual informtion en z-score.

4b: pmi(buitenaards wezen) = log(f(buitenaards wezen) /
(f(buitenaards)*f(wezen))) = log(8/1000000 / (15/1000000*10/1000000))
= log(8000000/150)

5: Een corpus is representatief als het een goed beeld geeft van het
gebruik van een taal. Een corpus met bijvoorbeeld alleen
nieuwsberichten is niet representatief voor de hele taal.

6: Bij POS-tagging wordt de syntactische klasse van woorden
bepaald. Dit gebeurt ook bij syntactische annotatie maar daar wordt
daarnaast ook de syntactische relatie tussen woorden bepaald.

7: Tokenisatie is belangrijk om de leestekens van de woorden te halen
zodat gelijke woorden dezelfde vorm krijgen. Het splitsen in zinnen is
belangrijk voor de verdere syntactische analyse: deze hoeft alleen te
zoeken naar relaties tussen woorden in dezelfde zin en niet naar
relaties tussen woorden in verschillende zinnen.

8: Twee voordelen van het gebruik van Twitterdata zijn dat er veel van
aanwezig is en dat het actueel is. Je kan er dus goede modellen van
het huidige taalgebruik mee bouwen. Twee nadelen zijn dat Twittertaal
informeel is en soms syntactisch incorrect, en dat het elementen bevat
die je in ander taalgebruik niet tegenkomt: gebruikersnamen en hashtags.

9: Volgens de Wet van Zipf zou rank*count ongeveer gelijk moeten
zijn. Dit klopt enigzins met de data in de tabel. Bij de eerste drie
paren rank*count gelijk aan 1000 en bij de tweede groep van drie 500.

10: Dice(piano,gitaar) = 2*(25+25+50+100+25+5+100) /
(100+25+50+100+25+75+300 + 25+200+50+100+50+5+100) = 2*330/(675+530) =
660/1205 = 0.55