Státnice I3: Návrh a vyhodnocování lingvistických experimentů

Tato stránka je příliš stručná nebo neobsahuje důležité informace!
Pomoz ωικι tím, že jí vhodně rozšíříš.

Obsah

protože NLP používá ve velké míře stochastické metody, zaměříme se hlavně na experimenty testující účinnost těchto metod
předtím, než je možné použít nějakou stochastickou metodu v praxi (a otesovat její účinnost), je nutné ji natrénovat na trénovacích datech
- trénování závisí na dané metodě, ale většinou spočívá ve spočítání pravděpodobností použitých v metodě - často se odhadují pomocí relativních frekvencí získaných z trénovacích dat
následně (pokud to daná metoda vyžaduje) je potřeba metodu přízpůsobit povaze dat (tzn. upravit její parametry, pokud existují), abychom maximalizovali její učinnost
- parametry optimalizujeme na development datech
následně je možné metodu otestovat pomocí vhodných metrik na testovacích datech

potřebujeme anotovaná data, u kterých ručně označíme správný výsledek experimentu - např. ručně přiřazené tagy slov pro tagging
data je nutno rozdělit na 3 části
- training data - největší, slouží k odhadnutí pravděpodobností; z velké části určují výsledek stochastické metody
- development data - malá sada dat, která slouží k optimalizaci parametrů dané metody/modelu
- test data
  - slouží pro ohodnocení kvality dané metody za použití vyhodnocovací metriky
  - nesmí být obsaženy v trénovacích a development datech, aby mohla být metoda objektivně ohodnocena

Evaluation

test against evaluation test data -- comparing the output of my parser to manually corrected data, done by someone else and in advance, independent of my algorithms
rules:

should be automatic (if possible) -- avoid subjective evaluation (but in e.g. SMT this is inevitable)
never tune the system using test data (use a small part of training data for this)
use standard metrics (if possible)

pro každou vstupní jednotku vygeneruju jednu výstupní jednotku - např. tagging: každému slovu přiřadím tag
error rate
accuracy

délka vstupu a výstupu se může lišit - např. strojový překlad: výstupní věta může mít jinou délku než vstupní věta

BLEU
NIST
METEOR
- upravená f-measure s důrazem na recall (precision:recall - 1:9)
- párování slov na 3 úrovních: 1) slovní forma, 2) kořen slova, 3) WordNet synonymum
PER (Position independent Error Rate), WER (Word Error Rate), TER (Translation Edit Rate), CDER