15.4.13

E, 2203. päev: sõnade sagedus

Tänase varasuvise keeleepistli teema on sõnade loomulik sagedus. Eks toimetajana ole tulnud sageli mõtiskella teemal, kuidas kvantifitseerida liiga suurt sagedust – subjektiivsest tundest, et midagi on liiga sageli, ei piisa.

Aga kus häda kõige suurem (jne) – eesti kirjakeele korpuse juures on olemas tasakaalus korpus, kus on kolm osakorpust: teadustekst, ajakirjandustekst ja ilukirjandustekst, igaühest 5 mln sõnet, kokku 15 mln. Sellest saab otsida, mitu korda tüvi esineb, ja võrrelda toimetatava tekstiga, kas ja kui mitu korda on tüve sagedamini. Näiteid:
  • asetsema: tekstis on 153 sõna kohta 3 korda (2%), et midagi „asetseb”. Tasakaalus korpuses on tüve asetse- 266 korda (0,0002%). 2 : 0,0002 = 1000, st tekstis on sõna „asetseb” tuhat korda sagedamini kui tasakaalus korpuses. (Korpuse teadustekstis on tüve asetse- 5 mln sõne kohta 102 korda (0,002%) ehk näites oli tüve eeldatavast ligikaudu sada korda sagedamini.)
  • paiknema: tekstis oli viies järjestikuses lauses, et midagi „paikneb”. Tasakaalus korpuses on tüve paikne- 1379 korda (0,0009%). Eeldusel, et lauses on 10 sõna, esineks tüvi paikne- mitte viies lauses 5 korda, vaid üks kord igas 1088. lauses.

No comments: