Vybrané problémy z lingvistiky I
Vybrané problémy z lingvistiky I | ||||
|
Tohle je ne nutně úplný přepis poznámek ze ZS 2009/10 -- Tuetschek 00:06, 25 Feb 2010 (CET)
Obsah
Úvod - popis jazyka[editovat | editovat zdroj]
- Jazyk - vztah mezi významem (funkcí, označované) a výrazem (forma, označující)
- langue a parole -- systém a užití
- omezíme se na jazykový význam, vynecháme pragmatiku
- Matematická lingvistika -- 3 možnosti pojetí:
- kvantitativní lingvistika (v 19. stol.)
- algebraická (formální) lingvistika (od 50. let) -- tím se budeme nejvíc zabývat: jazyk jako formální systém, snaha o podrobný popis
- počítačová (komputační) lingvistika -- aplikace formální lingvistiky k donucení počítače zpracovávat jazyk (+ statistické metody)
- Nestačí jen testování gramatičnosti řetězců, chceme jim přiřadit strukturu ~ význam
- vztah není 1:1 (víceznačnost, synonymie)
- formální jazyky -- existuje úplný popis, u přirozeného jazyka ne -- je spousta hraničních případů, hranice gramatičnosti je plynulá
- Popis -- buď od významu k výrazu (generování (syntéza)), nebo opačně (rekognoskace)
- Stromový popis -- obvyklý popis významu
- složkový -- $ T = <N,Q,D,P,L> $ ($ N $ -- množina uzlů, $ Q $ -- ohodnocení uzlů (gram. kategorie), $ D $ -- relace dominance, $ P $ -- relace precedence (silné částečné usp., slovosled) $ L $ -- ohodnocovací funkce (přiřazení gram. kategorií uzlům))
- další podmínky: jediný kořen, exkluzivita pro $ D, P $, projektivita
- kvůli podmínce projektivity není možné zobrazit neprojektivní konstrukce (kde dochází ke křížení frázových hran vzhledem ke slovosledu: Vánoční nadešel čas. Soubor se nepodařilo otevřít.)
- závislostní -- $ T = <N,Q,E,WO,L> $ ($ N, E $ -- konečný graf, $ Q $ -- ohodnocení uzlů (gram. kategorie), $ WO $ -- silné úplné uspořádání (pořadí slov), $ L $ -- ohodnocovací funkce)
- jiný problém - nevyjádří těsnější a volnější spojení (Profesor zjistil, že je jeho (hladový algoritmus) nefunkční, (Zítřejší noviny) ze včerejška)
- složkový -- $ T = <N,Q,D,P,L> $ ($ N $ -- množina uzlů, $ Q $ -- ohodnocení uzlů (gram. kategorie), $ D $ -- relace dominance, $ P $ -- relace precedence (silné částečné usp., slovosled) $ L $ -- ohodnocovací funkce (přiřazení gram. kategorií uzlům))
Funkční generativní popis[editovat | editovat zdroj]
- Základy: Sgall, zač. 60. let - spíš vize, motivace strojovým překladem
- 1. kniha: Generativní popis jazyka a česká deklinace (1967), 10 let po Chomském (na jiných základech, ale i inspirované)
- navazuje na PLK: jaz. systém, explicitnost, formalizace, důraz na syntax
- představa: generování bude jednodušší než analýza (ale je třeba vytvořit i analýzu)
- cíl -- vymezení správných vět (langue), zachycení struktury, vztahu výrazu a významu (synonymie, homonymie)
- popis - závislostní, stratifikační
- 1 forma má více funkcí na vyšších rovinách, 1 funkce více forem na nižších (asymetrický dualismus)
- nejvýše stojí jazykový význam (včetně aktuálního členění) -- nezkoumáme mimojazykové věci, pragmatiku (obsah), jazyk může být vágní
- V pův. FGD zásobníkový automat (generativní složka) generoval na významové rovině projektivní stromy
- ty se v několika krocích (přes 4 zásobníkové a 1 regulární automat) převáděly do běžného textu (překladová složka)
- skutečně to v 70. nebo 80. letech fungovalo, ale nedochovalo se
- původní verze používala frázové stromy, později upraveno na závislostní
- proto omezení: generovat "hezké" věty -- s jedním druhem slovosledu apod. -- "jádro" jazyka
- Bez sémantické kontroly
Zákl. koncepce[editovat | editovat zdroj]
- roviny -- důraz na ty vyšší, zejm. syntax (ale nižší tu jsou taky), každá rovina obsahuje celou větu, ale popisuje něco jiného, má své vlastní jednotky a způsob skládání (vztah kompozice), vztahy mezi rovinami -- reprezentace
- valence (Panevová) -- slovesa i další slovní druhy
- význam -- co to je, vymezení (jen jazykový význam, ale zachycuje akt. členění)
- aktuální členění (Sgall, Hajičová) -- pokládá se za součást významu věty, nejen kontextu
- základ a ohnisko, kontextová zapojenost, propozice a alegace, rematizátory
- koreference
- víceznačnost a vágnost -- vágnost zachovaná, víceznačnost rozlišená (?)
Roviny popisu[editovat | editovat zdroj]
- forma, funkce -- nižší rovina je formou vyšší roviny (vztah reprezentace), základní jednotky na jedné rovině tvoří komplexní (kompozice)
- hloubková syntax (tektogramatická) -- musí obs. všechnu významovou informaci, během převodu na nižší roviny se nic nedodává (sémantémy, propozice)
- ohodnocení uzlů: komplexní symbol -- lexikální, morfologická a syntaktická informace + index akt. členění (tj. "hloubkový slovosled")
- lexikální by měla obs. ne povrchový lexém, ale tektogramatický, synonyma by měla být ztotožněná, slovesná podst. jména pod slovesa apod. (ale v praxi to tak není)
- morfologická informace -- jde taky o význam: mluvím o 1, nebo více objektech? kdy se odehrává děj? (jen když si mluvčí vybírá, např. kongruence nás nezajímá)
- syntaktická informace -- pomocí funktoru vztah rodiče a dítěte ve stromu (ACT, PAT ... atd.)
- povrchová syntax (od 90. let Sgall zpochybnil její nutnost, v komputační lingvistice se z prakt. důvodů používá) -- formémy, tvoří tagmémy (větné členy), kompozicí -- věta
- morfematická (morfologická) -- morfémy: lexikální (kmeny, odvozovací předpony a přípony) a gramatické (vyjadřují více informací (sémat)), komplexní jednotky: formémy (např. slova, předl. vazby atd.)
- morfonologická -- řetězy morfonémů: morfy (shluky písmen -- všech variant fonémů pro dané místo), i suprasegmentály (přízvuk. takt, věta (intonace)) pro zprac. řeči
- fonologická -- fonetická (složení fonému z distinktivních rysů) rovina občas chybí, je možné měnit jí za grafématickou
Analýza a generování[editovat | editovat zdroj]
- Vaquoisův překladový trojúhelník -- analýza -> interlingua -> syntéza
- místo analýzy až na interlingvu se používá transfer
- Generativní složka: vytváří zápisy vět na tektogramatické rovině od startovacího systému přepisovacími pravidly
- formálně směs frázového a závislostního (kvůli tomu jen 1 možné slovosledné pořadí, bez transformací)
Pražský závislostní korpus (PDT)[editovat | editovat zdroj]
- Na základě popisu PDT existuje několik korpusů: arabský, paralelní, PEDT, akademický
- my tady: PDT 2.0 -- ten je jako první anotovaný na všech rovinách
- 4 roviny:
- w-layer -- nezpracovaný text, včetně chyb
- m-layer, a-layer, t-layer -- anotační roviny, v PDT-2.0 v nich nejsou všechny věty
- a-layer a t-layer se nazývají strukturní roviny, jsou vždy stromy, mají technický kořen
- předpřipravené rozdělení train, development, test
- data: část ČNK -- LN, MF Dnes, Vesmír z let 1991-1994
- m-layer se od morfologické roviny liší -- v původním FGD nebylo dělení na věty, tady zas nedělí na morfémy
- a-layer -- na rozdíl od FGD není kořenem sloveso, je tu technický kořen (kvůli zachování stromové struktury u nevětných konstrukcích -- např. věcí v závorce apod.)
- mezi m-layer a a-layer je relace 1:1 slova:uzly (až na technický kořen a-layeru), tj. 1 uzel odp. 1 slovu (rozvití elips se věší na předky)
- zachovaný původní slovosled věty
- t-layer -- vypadla pomocná (funkční, synsématická) slova, uzel mají jen plnovýznamová slova (ale i koordinace (a), modifikační slova (však))
- "slovosled" je jiný
- přibyly další uzly -- reprezentace slov, která na povrchové rovině nejsou, ale pro význam jsou nutná (např. subjekt infinitivu apod.)
- hrany -- vztah závislosti
Závislost[editovat | editovat zdroj]
- Směr závislosti, princip redukce (?)
- ektocentrická, endocentrická závislost -- skládání se změnou / bez změny slovního druhu (?)
- syntaktická, morfologická závislost -- (dívka vysoké postavy -- syntakticky nelze vypustit přívlastek)
- vnitřní, volná doplnění (?)
- valenční doplnění / okolnosti (?)
- dvojí závislost, dvojí funkce
- PP-attachment
- nejednoznačná doplnění adjektivem
- nejasné závislosti
Koordinace[editovat | editovat zdroj]
Sém. vztah koordinace(přiřaďování) je "zmnožení", obsazení jedné pozice více členy. Členy označují různé entity (větné členy nebo věty, i spojení větného členu s větou), které mají stejnou sémantickou roli, jsou rovnocenné a samostatné, mají stejnou synt. platnost (do závislostí jdou jako celek, mají stejný řídící člen).
- Vyjádření syntakticky různě, primárně: parataxe (souřadné spojení), hypotaxe (podřadné spojení: maminka s tatínkem)
- V PDT se za koordinaci považuje jen parataktická konstrukce, nedělá se sémantická interpretace
- rozdíl souřadných a podřadných spojek -- kritérium pozice a přízvuku
- neboť a protože se svojí souřadností / podřadností liší podle různých, spíš historicky daných kritérií (syntakticky jediný rozdíl: neboť nestojí nikdy na zač. souvětí)
- Sémantické vztahy v kooridnaci:
- kopulativní (CONJ -- a)
- adverzativní (ADVS -- ale)
- disjunktivní (DISJ -- nebo)
- gradační: stoupá důležitost (GRAD -- nejen, ale i) -- v některých jiných lingv. tradicích se nerozlišuje
- příčiný (REAS -- neboť), důsledkový (CSQ -- a tak)
- oprava (spíše, lépe), zahrnutí (a to i)
- Spec. pro PDT -- konfrontace, kontrast, matematika
- Formalizace (Petkevič) -- 2 typy vztahů (hran), v linearizaci 2 typy závorek
- v PDT spojovací konstrukce, 1 spojovací uzel, který reprezentuje celou strukturu, pojmenovaný podle 1 z koord. spojek (jde o n-ární relaci pro lib. n)
- spojen s efektivním rodičem spec. hranou, členy spojovací konstrukce spojeny spec. hranou se spojovacím výrazem, společná rozvití taky
- ef. rodič / syn (pro společná rozvití -- (štavnaté ^a^ sladké) ovoce)
Apozice[editovat | editovat zdroj]
Zmnožení (více členů téže synt. platnosti, přičemž všechny pojmenovávají 1 referent, stejný větný člen. Jsou zaměnitelné, kongruentní.
- Různé pojetí, např. Šmilauer považuje za apozici i Pan Novák, Prezident Klaus, v PDT je to přívlastek
- Oddělení čárkou nebo věci v závorkách: "Obč. dem. strana (ODS) ...".
- Formálně se zachycuje stejně jako koordinace, spojovací výraz je čárka (příp. závorka)
- Někdy je problém ji odlišit od koordinace ("Naši sousedé, Marie a Milan, ...")
Parenteze[editovat | editovat zdroj]
Vsuvka -- syntakticky nesouvisí s okolím, ale snaží se upřesnit, o čem se mluví
- Něco v závorkách, příp. odd. čárkou: Mohl byste, prosím, přijít? (Lze psát i bez čárek, ale pak se to v PDT považuje za částici.)
- prosím, řekl bych -- ustálená parenteze, de facto částice, frazémy
- Větná parenteze -- např. věta v závorce
- Větný člen jako parenteze -- Přišel pozdě (včera).
- v PDT i vokativ (oslovení), elipsa, citoslovce, samostatný větný člen, nezačleněná parenteze
- Formální zachycení -- podobně jako předchozí, "věší" se za grafické symboly, které ji oddělují, na sloveso
Ostatní nezávislostní vztahy[editovat | editovat zdroj]
- Tech. kořen -> ef. kořen věty (sloveso)
- Synt. nejasné výrazy (asi, snad), odkazy k předch. textu (však)
- rematizátory, modální adverbia -- věší se na spec. uzel pod sloveso
- Seznamy -- názvy (mají strukturu, ale visí na spec. uzlu), cizojazyčné výrazy (všechna slova visí vedle sebe na jednom technickém uzlu)
- Frazémy (spec. funktor široko <- daleko_(DPHR))
Valence[editovat | editovat zdroj]
Valence je zákl. synt.-sém. informace -- de facto drží záv. stromy pohromadě.
- Def.: Schopnost lex. jednotky otevírat pozice dalším lex. jednotkám
- spíš popisné, protože nejsou úplně definované použité termíny, definice tedy není úplně přesná
- Situace, která se nám vybaví s daným slovem, obsahuje nutné a nepovinné členy, které se v situaci vyskytují
- Valence má zachytit, které sémantické participanty mají být přítomny (termín sémantický participant se nedá dobře definovat, ale všichni si v praxi představí to samé), tj. počet a povaha argumentů, které na sebe slovo váže.
- Souvisí s principem redukce (?) -- jednotky, jejichž pozice sloveso otvírá, považujeme za závislé.
- Např. slovesa: prázdná valence (prší, sněží ...), 1 doplnění (běžet, jít ... ), 2 doplnění (vyrábět, dělat, natírat ...), 3 doplnění (dávat ...)
- Snažíme se najít úroveň formalizace, abstrahovat to od morfolog. zvláštností.
- Nelze zachytit pravidly, uchovává se ve slovníku. Takový slovník už zachycuje hodně syntaktických informací.
- Pomáhá rozlišit nejednoznačnosti v:
- morfologii: Ptala se jeho bratra (Gen. nebo Acc.?)
- syntaxi: Začala ho milovat. Nechala ho spát (na čem závisí ho?)
- významech slova: odpovídat na / za / čemu
- sémantice větných členů: sháněl se po ... / přišel po ...
- Důležité pro:
- NLP, hlavně pro pravidlové metody (stat. metody obs. implicitně)
- Učení češtiny
- lingvistický výzkum (ověření teorie)
- Patří na t-rovinu - úzce se týká významu slov.
- Dotýká se ale i nižších vrstev, val. doplnění mohou mít předepsanou formu.
- Výzkum ve FGD -- od 60. let -- Panevová
- Každý autosémantický slovní druh je charakterizován valencí (frame-bearing words)
- primárně: slovesa, ale i substantiva, adjektiva, adverbia
- např. zájem o co, bratr koho, předělaný z čeho na co, kolmý na co, blízko čeho
- Pro slovesa je nejpropracovanější, nejpřesnější teorie
- Někde se mluví i o valenci předložek, ale ve FGD to nemáme -- to, že předložka dává pád substantivu, považujeme za morfologický jev (rekci)
- primárně: slovesa, ale i substantiva, adjektiva, adverbia
Doplnění[editovat | editovat zdroj]
Dělení doplnění:
- obligatorní / fakultativní -- obligatorní musí být (na t-rovině) vždy přítomna, abychom měli sémanticky úplný a srozumitelný zápis
- některá jsou povinná syntakticky, někt. mohou být nevyjádřená, některá úplně volitelná
- aktanty -- odpovídá objektům, participanty / volná doplnění -- odpovídá přívlastkům, příslovečným určením apod.
- ve FGD se do valenčního rámce dostanou všechny aktanty a obligatorní volná doplnění (např. pro slovesa přijít, chovat se)
Aktanty a volná doplnění[editovat | editovat zdroj]
- aktanty se nesmí opakovat (jen 1 volné místo daného typu), dají se pro každé sloveso vyjmenovat
- volná doplnění mohou z principu rozvíjet každé sloveso, mohou se opakovat (to platí i u obligatorních, tam je povinné jedno, ale může jich být víc)
- Př.: V Praze(LOC) se sejdeme na Hl. n.(LOC) u pokladen(LOC).
- jsou obvykle rekční (forma je vynucená slovesem -- např. "ACT bude v 1. pádě bez předložky" apod.)
- volná doplnění nejsou typicky rekční -- např. lze použít víc různých předložek pro určení místa
- aktanty jsou typicky obligatorní, volná doplnění typicky fakultativní
Pojetí aktantů ve FGD[editovat | editovat zdroj]
- Máme 5 aktantů, definovaných spíše syntakticky -- ACT a PAT téměř výhradně, ostatní (EFF, ORIG, ADDR) část. sémanticky
- kvůli svému spíše syntaktickému určení mají ACT a PAT hodně sémantických možností
- Jde o kompromis mezi hodně sémantickým přístupem, jako má např. FrameNet C. Fillmorea (doplnění jsou dnes pro každou typizovanou skupinu sloves jiná, hodně detailní), a hodně syntaktickým, jako obsahuje PropBank (jde jen o ARG0 ARG1 ... ARGM -- aktanty, TIME, PLACE -- fakult. doplnění)
- Hodně syntaktickou valenci prosazoval už Tesnière, z něj právě FGD vychází
- Např. akademická mluvnice češtiny (Daneš) razí právě sémantický přístup
- Aktanty způsobují posouvání:
- 1. aktant je vždy ACT, druhý vždy PAT, 3. je ADDR, ORIG nebo EFF, když nelze rozhodnout sémanticky, je to EFF
- např. Petr(ACT) vyrostl z chlapce(ORIG) v mladého muže(PAT!), nebo: The janitor(ACT) opened the door(PAT) with a key(MEANS). A key(ACT) opened the door(PAT). The door(ACT) opened.
Možné významy aktantů ve FGD[editovat | editovat zdroj]
- ACT může být (mimo jiné, dalo by se dále specializovat):
- konatel
- nositel vlastnosti nebo děje: Tráva je zelená. Petr spí.
- kauzátor (nepersonální původce děje): Vítr otevřel okno.
- possesor: Petr má auto. Petr prodal auto (v 2. případě možná i konatel)
- proživatel: Otci se daří dobře. Kniha(PAT) se mi(ACT) líbí.
- zasažený objekt: Auto se rozbilo.
- předávaná informace: Ozvalo se: "Přijďte brzo!"(ACT)
- Podobně PAT může být:
- zasažený objekt (změna vlastníka, vznik, zánik, změna vlastností, zacílení ...): Hledá houby. Přešila šaty. Snědl oběd. Kope jámu.)
- vlastník: <tt>Kniha patří Janovi.
- proživatel: Něco(ACT) vadí někomu(PAT) (proti líbit se, kde lze udělat bezpodmětnou větu jako "Líbí se mi v lese.")
- recipient: Vynadal dětem. Ozval se příteli.
- informace: Mluvit o něčem
- EFF má primární význam "výsledek děje", nebo "vlastnost přiřazovaná patiensu"
- Počet voličů se zvýšil z 50 na 80%(EFF). Zvolili ho svým zástupcem(EFF). Považovali ho za odborníka(EFF).
- je ale méně vyhraněný než ADDR a ORIG
- např. 2 pozice u verb dicendi: Vyprávěl o nich(PAT), že ...(EFF).
- ADDR a ORIG jsou sémanticky homogenní, skoro jako volná doplnění
- ADDR -- příjemce informace, předmětu (i odebrání), větš. v Dat., někdy Acc. (Informovat někoho(ADDR) o něčem(PAT).)
- ORIG -- látka původu, původce předmětu/informace při výměně: Dům je z kamene(PAT!). Vyrobil něco z něčeho(ORIG). Dozvědět se něco(PAT) od někoho(ORIG)
- ADDR a ORIG se špatně kombinují
Valenční informace ve slovníku[editovat | editovat zdroj]
- Jedno slovo může mít několik významů -- několik různých valenčních rámců
- např. dávat-1 "rozdávat karty" -- ACT, dávat-2 "běžné" -- ACT PAT ADDR
Základní pojmy:
- lexém -- soubor všech významů a forem jednoho slova (abstraktní jednotka)
- základní jednotka ve slovníku, sdružuje všechny lex. jednotky
- pozor, někdy se lexému taky říká lex. jednotka
- (základní) lexikální jednotka (lexical unit, lexie)
- komplexní jednotka: forma a funkce, odpovídající jednomu významu slova
- forma: různé tvary (osoba, pád, etc.), zachycuje se lemmatem
- funkce: odpovídá urč. významu, nejdůl. charakteristika je val. rámec (i když můžou být 2 různé lex. jednotky se stejnou formou i rámcem)
- vid se většinou považuje za gram. kategorii, i když u někt. vidových protějškou jsou někt. funkce omezené, stejně tak tvorba pasivu je možná jen u někt. významů
- lemma (základní tvar) -- posloupnost písmen, která charakterizuje všechny formy slova (daný územ)
- formy -- všechny tvary daného slova, tj. formální složka lex. jednotky; tvary 1 lemmatu -- paradigma
- varianty -- různá lemmata, která se kryjí jako lex. jednotka (např. myslet / myslit, někt. tvary mohou být shodné)
- homografa/homonyma -- stejná forma, různé významy
- např. žít (obilí / život), stát (na nohou / peníze / sníh se střechy)
- potom je problém, co zahrnout do jednoho lexému, co jsou jen náhodou společné formy
- jde spíš o úzus, rozhoduje např. etymologie, odlišnosti v paradigmatu
- je to složité a není jisté, jestli to má smysl, proto je třeba rozhodnout nějak, jedno jak
Poznámky:
- valenční slovník se nedá dělat automaticky, měl by se dělat z dat a ručně (okrajově i automaticky), protože malý počet sloves pokryje velkou část korpusu, jen málo sloves má větší počet lex. jednotek
- různá slovesa se i pro stejnou situaci (např. "výměna zboží") chovají různě, mají různé rámce
- různé participanty mohou být vůbec vyjádřeny
- idiomy -- někdo tvrdí, že u nich lze vystopovat původní valenční chování, je dobré je syntakticky popisovat; jiný zase, že jsou tak pevné, že to nemá cenu
Valence substantiv a adjektiv[editovat | editovat zdroj]
Primární substantiva[editovat | editovat zdroj]
Rozlišují se následující doplnění, na povrchu všechna vypustitelná:
- Partitiv/materiál (aktant) -- Gen.
- řídící člen = množství/skupina (dvojice, balení, sada), kontejner (sklenice, pytlík, tisíc)
- možná shoda s pádem číslovkového výrazu (na tisíci stránkách)
- Přínáležitost (volné, u relačních substantiv (otec, příbuzný, nadřízený) aktant) -- Gen., poss. adj., předl. skupina
- příbuzenský vztah, vztah části a celku (střecha domu), nositel vlastnosti (míra čeho, délka čeho, čí upřímnost), vlastnictví, přínáležení (klíč od)
- Identita (volné) -- metajazykové výrazy, typ. Nom., Gen. (agentura Reuters, pojem času), i další (nápis Obětem války)
- Autor (volné) -- Gen., poss. adj.
- Přívlastek restriktivní (volné) -- shodné adj.
- Přívlastek deskriptivní (volné) -- shodné adj.
Deverbativní substantiva[editovat | editovat zdroj]
Pro valenční chování je důležitý typ derivace, jakým vznikly:
- syntaktická derivace -- čistě syntaktický prostředek: dělání, pokrytí
- lexikální derivace -- vznik ze sloves (základové slovo), ale sémanticky jde skutečně o substantiva: letec, letiště
- Nejde o vyhraněné dělení, spíše škálu, přechod -- je i spousta případů "mezi" (dar, let).
- Někdy se dá na totéž dívat jako na syntaktickou nebo lexikální derivaci.
- U substantiv nejsou povrchově obligatorní valenční doplnění.
Morfématické změny[editovat | editovat zdroj]
Změny morfologického vyjádření valenčního doplnění:
- strukturní pády (Nom., Acc.) se primárně mění na Gen.: vyrábět něco -> výroba čeho
- to ukazuje, že možnost vyjadřovat je u substantiv omezenější (Gen. se nesmí opakovat, až na Acc. -> Gen. + Gen. z vazby slovesa zbavení koho čeho)
- existují i méně typické formy (Nom. -> Ins. / possesivní adjektivum / od + Gen., Acc -> poss. adjektivum): lékařovo léčení pacienta, pacientovo léčení lékařem
- blokování Gen. a Ins. pro převod Nom. u někt. sloves, která už mají vazbu v tom pádě (vyhrožování, pohrdání)
- nestrukturní pády (zejména Dat., Ins., ale i Gen., předložkové pády, infinitiv) většinou zůstávají
- adverbia se mění typicky na adjektiva
- Formálně se valence větš. zachovává, ale můžou přibývat další formy, které původní sloveso nevázalo, někdy se může forma i měnit
- takové změny nejsou vždy povinné, špatně se hledají, ale existují
- zájem o něco / na něčem, strachovat se čeho -> strach z čeho
- dodávat komu -> dodávka komu / koho / čí
Syntaktická derivace[editovat | editovat zdroj]
Je vidět původní valence (sloveso a substantivum sdílí rámec), ale často dochází k abstrakci (nevyjádření nějakého participantu, který u původního slovesa vidět je).
- hierarchické formy (?) -- privilegované pozice se neřídí podle aktantů, ale morfologického vyjádření, ACT už není nejdůležitější
- exploze možností, pro jednotlivá slovesa se to liší, hodně omezení a výjimek (viz slajd!)
- V PDT jsou deriváty zachyceny jako substantiva, ale je to spíš nedotažeností koncepce, nemělo by to tak být.
- široce dějová jména (let, zájem) -- něco mezi syntaktickou a lexikální derivací, formálně stále syntaktická.
Lexikální derivace[editovat | editovat zdroj]
Sémanticky jde už o substantivum.
- Existuje několik skupin (sufixy jsou často víceznačné, např. nosič = činitel / nástroj):
- činitelská jména (-tel, -ník, -ěč/ač, -ce, -ec, -ař)
- místo činnosti (-na, -ště)
- nástroj (-č, -ko, -dlo)
- výsledek děje (-ní) -- lze chápat i jako syntaktickou derivaci a děj sám
- Dochází k redukcím na povrchové rovině:
- aktor upozaděn, argumenty všeobecnější, volnější, nepovinné
- V hloubkové rovině jde taky o redukci: substantivum samo vyjadřuje 1 participant děje -- toto doplnění mizí (zabudování pozice)
- např. učitel - není ACT, dárek - není PAT apod.
- Dochází ke ztrátě dějovosti, uvolnění vazeb, redukci konstrukcí, doplnění jsou často přetížená a zní divně
- Doplnění mohou úplně nebo postupně mizet: jejich výplata úspor klientům, výplaty zaměstnancům, výplata
- špatně se popisuje, není ostrá hranice mezi pevnými a volnými doplněními
- Lexikální deriváty jsou v PDT taky značeny jako substantiva (na rozdíl od jiných lex. derivací, např. lemma od slova třetí je tři)
Primární adjektiva[editovat | editovat zdroj]
Mají stejný repertoár možných doplnění jako slovesa, navíc komparativ má než a superlativ z koho/čeho.
- Už se zde v teorii nepočítá s posouváním, ADDR, PAT se rozlišuje sémanticky.
- Většina adjektiv má jen 1 doplnění, jen výjimky s více (nápadný čím komu, vděčný komu za co)
- Prototypicky se ACT nevyskytuje
- Problém může být určit (hloubkovou) obligatornost nebo fakultativnost aktantu -- nebo má jít o dva významy?
Deverbativní adjektiva[editovat | editovat zdroj]
- např. omezit -> omezený
- Zachovávají rámec sloves až na 1 aktant, který je obsazený rozvíjeným substantivem
- sloveso se mění na adjektivum, které rozvíjí jedno z původních valenčních doplnění
- kdo omezí co [na co] -> co omezené [kým na co]
- kdo žije [život] -> život žitý / kdo žijící
- na povrchu jsou doplnění vypustitelná vždy
Adverbia[editovat | editovat zdroj]
Mají valenční chování, ale nikdo ho zatím nestudoval.
- kolmo na co, vedle čeho, blízko čeho
Valenční slovníky pro ČJ[editovat | editovat zdroj]
PDT-Vallex[editovat | editovat zdroj]
- Asociovaný s daty v PDT2.0, tvořený "zdola"
- Každé slovo, které má valenci, má odkaz k valenčnímu rámci do valenčního slovníku
- Na základě toho poznáme, která jeho doplnění jsou valenční argumenty (implicitně ze spojení slovníku a korpusu)
- Jsou tu rámce pro substantiva, adjektiva (deverbativní?), slovesa
- Spec. notace "?" -- fakultativnost, obsahuje i zachycenou morfologii
- Občas jsou v PDT slova, která nemají zastoupení ve val. slovníku -- ale výjimky (?)
- Nemělo by se stát, že valenční rámec slovesa není uvedený
- Subst. a adj. ale jsou neúplná, adj. jen deverbativní, subst. jen ta, co mají zřejmý val. rámec (teorie ještě není ustálená, nešlo to konsekventně udělat)
- Před budováním PDT v podstatě nebyl valenční slovník, anotátoři ale bez něj nemohli konzistentně značkovat -- když se začlo budovat PDT, začal se dělat i slovník
- Pro anotaci dalších korpusů se průběžně rozšiřuje, snaha provázat s anglickým slovníkem
- Po anotaci PDT se ještě kontrolovala konzistence
Vallex 2.5[editovat | editovat zdroj]
- Dělal se paralelně s prací na PDT, měl být ale oproštěn od spěchu s PDT, s anotováním, jako primární zdroj ("shora") [1]
- Slovesa z ČNK, snaha zpracovat každé zvlášť, ve všech neidiomatických významech
- Krom toho další synt./sém. informace
- Dnes cca stejně velké jako PDT-Vallex (cca 4250 sloves)
- Volně dostupný
- Proti PDT jsou spojené vidové protějšky
- XML, anotace se psala v text. souboru se syntax-highlightem, generuje se HTML a PDF
- PDT-Vallex = do šířky (recall), Vallex = do hloubky (precision)
- Snaha je oba automaticky spojit
Ostatní slovníky[editovat | editovat zdroj]
- První val. slovník -- BRIEF -- OCR na SSJČ (Brno)
- nejsou rozlišené významy sloves, jen kombinace možných povrchových doplnění
- Potom: Czech Syntactic Lexicon -- snaha o rozlišení významů v BRIEFu
- označení funktory z FGD
- není veřejný
- Verbalex -- pokus zpracovat BRIEF s informacemi z WordNetu, taky neveřejný (Brno)
- tištěné:
- SSJČ, SSČ
- Slovesa pro praxi -- formální velmi podrobný slovník cca 620 sloves (užitečný zdroj pro Vallex)
- Slovník slovesných, substantivních a adjektivních vazeb -- více obsahu, ale už není formalizovaný
Problém použití valenčních slovníků[editovat | editovat zdroj]
Rozlišení:
- Pro generování chceme co nejpřesnější významy, pro anotaci je s nimi naopak problém (člověk neumí přiřadit větě význam)
- skupiny významů jsou jasně rozlišené, ale nuance v nich už zdaleka ne tak ostré
- Běžná shoda anotátorů je cca 60-70% pro 2-3 lidi! (pro libovolný jazyk)
- Kritéria přiřazování rámců -- synt./morfolog., jazyková intuice, překladové ekvivalenty
Alternace:
- Jedná se o podobné významy, vyjádřené pokaždé jiným způsobem (alternující rámce)
- Chceme zachovat (snaha teoreticky popsat, najít pravidelnost, zatím ve Vallexu není):
- relace shodných významů (balit věci do kufru - balit kufr)
- příbuznost slov -- často nejde shodný rámec (požádat koho o co - požadovat co na kom)
Lingvistické zdroje[editovat | editovat zdroj]
FrameNet[editovat | editovat zdroj]
- Autor: Charles Fillmore, který vyvíjí teorii "sémantických pádů" od 60. let (Case For Case, 1968)
- tehdy Chomsky popisoval jazyk bez sémantiky, Fillmore to chtěl změnit
- Fillmore neuznával ani NP VP-dělení, jádrem je pro něj sloveso, je mu jedno, co je subjekt.
- Každé doplnění má hloubkové pády, původně jich bylo 6 (Agentive, Instrumental, Dative, Factitive, Objective, Locative)
- do určité míry odpovídají aktantům z FGD (ale jsou tam i další)
- postupně bylo 7-8 hlavních pádů
- Jednotlivým významům sloves přiřazoval charakteristiky pomocí pádů, došel ale k tomu, že je to hrubé
- chtěl to obohatit kvůli nástrojům poč. lingvistiky a umělé inteligence
- Tím vznikl FrameNet -- lexikální databáze sloves na univerzitě v Berkeley
- podrobná sémantická charakteristika slov a jejich významů, odklon od obecných popisů
- jsou tam substantiva, adjektiva, slovesa, předložkové skupiny (v anglické tradici mají valenci)
- cca 10 000 lex. jednotek, 800 rámců -- hierarchicky uspořádané, příklady na 135 000 větách (z BNC)
- každá lex. jednotka evokuje / patří do 1 sém. rámce, má možnosti valence
- rámce mají vztahy: dědění / podrámec / využití (a další)
- elementy v rámcích: core / non-core
- každý rámec má uvedený seznam lex. jednotek, které ho evokují, subkorpus anotovaných vět, které mu odpovídají, jsou v nich vyznačeny jednotlivé elementy (ručně, není formalizováno)
- při dědění jsou uspořádány i elementy -- který odpovídá kterému v odděděném rámci (někt. nemusí být realizovány, ale většina bývá), mění se přitom i core/non-core.
- negativní i pozitivní případy patří do 1 rámce (např. Compliance obsahuje i violate), s rámci se pojí slovesa, substantiva, adjektiva, fráze
- nejvyšší úroveň -- hodně obecné rámce (Děj, Stupňovatelné atributy ...)
- může se stát, že 1 sloveso má dvě odvozená substantiva, která odpovídají každé jinému rámci (observe -> observation (Perception, Commenting), observance (Compliance))
- v různých rámcích mají lex. jednotky různé valenční vlastnosti
- Existuje i několik FrameNetů v jiných jazycích, svázaných s původním
- FrameNet je volně dostupný
PropBank[editovat | editovat zdroj]
- Pro angličtinu, valence sloves, založeno na PTB (složkové stromy)
- Jde o vyšší vrstvu (v PTB je jen povrchová syntax) -- úroveň "propozic" (krok k tomu, čemu my říkáme t-rovina)
- máme-li sloveso a jeho doplnění, chceme ho abstrahovat od povrchového vyjádření: A met B, A and B met -> meet(A,B)
- Pro každé sloveso vytvoříme sém. role (rámec), používáme závislostní syntax (nejde o celé stromy, jen o propozice)
- argumenty jsou velmi obecné -- jen se číslují, jejich význam se liší sloveso od slovesa (i když u jednoho slovesa je konstantní)
- ARG0 -- prototyp. agens
- ARG1 -- prototyp. patiens
- ARG2 -- typický adresát
- ARG4/5 bývá určení místa -- v ČJ často volné, tady pevné)
- volná doplnění se taky značkují, mají hrubší sém. dělení než PDT -- LOC, TMP, DIR ... etc.
- rámce: význam slovesa, argumenty + co představují -- hit.01 - ARG0 = hitter, ARG1 = thing hit, ARG2 = instrument
- argumenty jsou velmi obecné -- jen se číslují, jejich význam se liší sloveso od slovesa (i když u jednoho slovesa je konstantní)
- i v aktivním, i v pasivním použití (tranzitivní / ergativní, neakuzativní použití -- subjekt není konatel děje, aktor) se užívá stejných čísel argumentů, posouvání neprobíhá
- Váza se rozbila. The vase broke. -- zasažený objekt stále (proti PDT) dostane ARG1, ne ARG0!
- The earthquake(ARG0) shook the walls(ARG1). The walls(ARG1) shook.
- argumenty synonymních sloves jsou zachovány, i když na povrchu se chovají jinak (shodné rolesets u sloves s podobnými významy, i když u různých významů jednoho slovesa jsou různé)
- Petr(ARG0) miluje Marii(ARG1). Petrovi(ARG0) se líbí Marie(ARG1).
- Existuje též "valenční slovník" -- slovník propozic
VerbNet[editovat | editovat zdroj]
- Propracovanější sém. zroj, valenční slovník [2] (propojený s PropBankem, FrameNetem)
- Sémantické třídy sloves, ve kterých panuje syntaktická a sémantická koherence
- např. telephone, cable, wireless, e-mail<tt> je třída <tt>instr_communication-37.4
- Uvedeny aktanty, jejich možná povrchová vyjádření, sémantické role, omezení
- syntaktický popis, sémantické predikáty
WordNet[editovat | editovat zdroj]
- Sémantická síť -- snaha zachytit jazykové znalosti lidí a vztahy významových konceptů
- Projekt začal pro AJ na univerzitě v Princetonu v 80. letech, 1. verze '93, online i ke stažení
- Zákl. jednotka -- synset = množina (přibližných -- hodně široce pojato) synonym (mají společný jeden z významů) -- odpovídá lex. jednotkám v českém významu (sémém (?))
- mezi synsety je velké množství sémantických vztahů, záleží na slovních druzích
- zákl. relace u substantiv: hyponymie, hyperonymie, holonymie (celek), meronymie (část), sister term
- u sloves: hyperonymie, troponymie (míra děje), frázová slovesa, povrchová vyjádření (?), sister term
- adjektiva: antonyma, synonyma, doména
- adverbia: antonyma, pertainyma (k čemu se vztahuje)
- mezi synsety je velké množství sémantických vztahů, záleží na slovních druzích
- Přejatá základní ontologie (nejrozšířenější (?))
- Snaha, aby byl systém totožný s lidským
- např. kanárek zpívá = 1 úroveň daleko, kanárek létá = 2 úrovně, kanárek má kůži = hodně úrovní
- námitka: nevyrovnanost databáze (biologie má moc hlubokou hierarchii, jinde to není), není strom (občas cykly)
- neobsahuje výslovnost, etymologii, gramatické informace
EuroWordNet[editovat | editovat zdroj]
- Wordnety pro mnoho jiných jazyků (desítky), podle stejné základní struktury
- idea dobrá pro překlad, ale v praxi moc hezky nefunguje -- lexikalizované jsou jiné druhy věcí (viz go = jet, jít), proto ani významy synsetů si přesně neodpovídají
- Existuje ale interlingual index -- provázání synsetů v různých jazycích (přes Princetonský WordNet)
- Navíc vznikla top-ontology -- základní, horní část hierarchie -- nejobecnější koncepty (63 položek) -- shodná pro všechny jazyky
- ještě domain-ontology -- pro různá spec. odvětví
- i 1059 base concepts (zákl. významy), které mají být na sebe navázané, ve všech jazycích to není přesně dodrženo
- Jiné WordNety vznikly překladem a napasováním na původní, proto jsou trochu šroubované (každý jazyk má ve skutečnosti jinou ontologii)
- základní struktura musela být kvůli jiným jazykům rozšířena
Omega[editovat | editovat zdroj]
- Další ontologie -- jiný způsob klasifikace, hierarchie
- Propojené s PropBankem -- pro slovesa jsou synt. informace
- Propojené i s FrameNetem etc., část mapovaná i na WordNet
SUMO[editovat | editovat zdroj]
- Suggested Upper-Merged Ontology -- pro automatické odvozování
- Jsou tam k tomu logické nástroje
- taky navázané na WordNet
Viz též[editovat | editovat zdroj]
- Slajdy na stránkách na stránkách Dr. Lopatkové: [3]
- Stránka předmětu na Wiki ÚFAL (stav z r. 2008/9): [4]
- Pražský závislostní korpus