1a: De type/token-ratio van een tekst is het aantal types in de tekst gedeeld door het aantal tokens 1b: De type/token-ratio van een lange tekst is meestal lager dan de type/token-ratio van een korte tekst. De meeste woorden worden meer dan 1 keer gebruikt in een lange tekst. Een korte tekst bevat meestal relatief veel woorden die voor het eerst worden gebruikt en dus zorgen voor een hoger type/token-ratio. 2a: Lemmatisering is het verdelen van woorden in groepen die onderling zijn afgeleid van hetzelfde basiswoord. Bijvoorbeeld "zingen", "zingt" en "gezongen" behoren tot het lemma "zing". 2b: Ja, de frequentie van een lemma in een corpus kan groter zijn dan de frequentie van het woord met dezelfde vorm. Dit komt doordat voor de berekening van de frequentie van het lemma zowel het woord zelf ("zing") als de alternatieve vormen van het woord ("zingen", "zingt" en "gezongen") meetellen. 3a: Een zin met zes woorden bevat vier woord-3-grammen. Voor de voorbeeldzin: "dit is een", "is een hele" "een hele goede", en "hele goede vraag". 3b: Je begint met het tokeniseren van het corpus. Daarna loop je door de woorden van het corpus en plaatst steeds het huidige woord en de twee volgende woorden in de uitvoer (mits deze twee beide bestaan). 4a: Drie methoden voor het meten van de sterkte van een collocatie zijn: (frequentie,) log-likelihood, mutual informtion en z-score. 4b: pmi(buitenaards wezen) = log(f(buitenaards wezen) / (f(buitenaards)*f(wezen))) = log(8/1000000 / (15/1000000*10/1000000)) = log(8000000/150) 5: Een corpus is representatief als het een goed beeld geeft van het gebruik van een taal. Een corpus met bijvoorbeeld alleen nieuwsberichten is niet representatief voor de hele taal. 6: Bij POS-tagging wordt de syntactische klasse van woorden bepaald. Dit gebeurt ook bij syntactische annotatie maar daar wordt daarnaast ook de syntactische relatie tussen woorden bepaald. 7: Tokenisatie is belangrijk om de leestekens van de woorden te halen zodat gelijke woorden dezelfde vorm krijgen. Het splitsen in zinnen is belangrijk voor de verdere syntactische analyse: deze hoeft alleen te zoeken naar relaties tussen woorden in dezelfde zin en niet naar relaties tussen woorden in verschillende zinnen. 8: Twee voordelen van het gebruik van Twitterdata zijn dat er veel van aanwezig is en dat het actueel is. Je kan er dus goede modellen van het huidige taalgebruik mee bouwen. Twee nadelen zijn dat Twittertaal informeel is en soms syntactisch incorrect, en dat het elementen bevat die je in ander taalgebruik niet tegenkomt: gebruikersnamen en hashtags. 9: Volgens de Wet van Zipf zou rank*count ongeveer gelijk moeten zijn. Dit klopt enigzins met de data in de tabel. Bij de eerste drie paren rank*count gelijk aan 1000 en bij de tweede groep van drie 500. 10: Dice(piano,gitaar) = 2*(25+25+50+100+25+5+100) / (100+25+50+100+25+75+300 + 25+200+50+100+50+5+100) = 2*330/(675+530) = 660/1205 = 0.55