Aga kus häda kõige suurem (jne) – eesti kirjakeele korpuse juures on olemas tasakaalus korpus, kus on kolm osakorpust: teadustekst, ajakirjandustekst ja ilukirjandustekst, igaühest 5 mln sõnet, kokku 15 mln. Sellest saab otsida, mitu korda tüvi esineb, ja võrrelda toimetatava tekstiga, kas ja kui mitu korda on tüve sagedamini. Näiteid:
- asetsema: tekstis on 153 sõna kohta 3 korda (2%), et midagi „asetseb”. Tasakaalus korpuses on tüve asetse- 266 korda (0,0002%). 2 : 0,0002 = 1000, st tekstis on sõna „asetseb” tuhat korda sagedamini kui tasakaalus korpuses. (Korpuse teadustekstis on tüve asetse- 5 mln sõne kohta 102 korda (0,002%) ehk näites oli tüve eeldatavast ligikaudu sada korda sagedamini.)
- paiknema: tekstis oli viies järjestikuses lauses, et midagi „paikneb”. Tasakaalus korpuses on tüve paikne- 1379 korda (0,0009%). Eeldusel, et lauses on 10 sõna, esineks tüvi paikne- mitte viies lauses 5 korda, vaid üks kord igas 1088. lauses.
No comments:
Post a Comment