Laika ziņas
Šodien
Skaidrs
Rīgā +5 °C
Skaidrs
Sestdiena, 19. oktobris
Drosma, Drosmis, Elīna

Visu latviešu valodu vienā programmā

Drīzumā sāksies darbs pie latviešu valodas korpusa izveides. "Ja cilvēkam ir interese par apkārt notiekošo, viņam ir interese arī par valodā notiekošo. Ja viņš ir atvērts jaunajam un neizzinātajam savā apkārtnē, viņš atvērts arī jaunajam un neizzinātajam valodā," šo valodnieces Maijas Baltiņas izteikumu varētu likt moto vietā jaunajā, apjomīgajā projektā, kas pēc gadiem varētu rezultēties visaptverošā valodas korpusā — datubāžu sistēmā, kas apkopos katru reiz latviešu uzrakstītu vai izrunātu vārdu.

Par korpusa lingvistiku un valodas korpusu stāsta M.Baltiņa.Kas ir korpusa lingvistika? Korpusa lingvistika ir viens no jaunākajiem valodniecības pētniecības virzieniem, kas elektroniskā veidā analizē kādas valodas korpusu — pietiekami lielu valodas datu kopumu. Korpusa lingvistikas pirmie iedīgļi meklējami XX gadsimta 50.gados, kad ASV valodnieki atzina — valodniecībā pētījumu pamatā jābūt apjomīgiem valodas datu vākumiem. Galvenais dzinulis, protams, slēpjas dziļāk — tā ir vēlme izprast valodas pastāvēšanas un darbības mehānismus, atrast atbildes uz jautājumiem, kas ir valoda un ar kādām metodēm to var izzināt. 50.gados bija sākusies datoru ēra, un valodnieki pievērsās jaunākajām tehnoloģijām. Pirmajā korpusa lingvistikas posmā daudz tika izpētīts, piemēram, valodu vēstures aspektā, skarot valodas fonētikas un morfoloģijas līmeni. Ar laiku optimisms noplaka, tomēr Dekarta reiz paceltais karogs — uzskats, ka valodu iespējams izzināt, ja atrasta pareizā metode, — netika pavisam nolaists. Kaut N.Čomskis norādīja uz pirmā posma korpusa lingvistikas nepilnībām — faktu, ka valodnieki kā analīzei nevērtīgus atmet pašsaprotamos, neskaidros un kā nepieklājīgus novērtētos valodas datus, metode tika attīstīta un izmantota arī turpmāk. Pētnieki pievērsās sintaksei un semantikai, par mērķi izvirzot veidot korpusu kā runātās un rakstiskās valodas datu vākumu. Kas ir valodas korpuss? Valodas korpuss ir runātu, drukātu un ar roku rakstītu tekstu kopums, kas aprīkots ar atbilstošu programmnodrošinājumu un ko papildina lingvistiskās analīzes rīki. Pirmajiem korpusiem raksturīgi, ka tie ir savam laikam neiedomājama apjoma. Brauna universitātes korpusu, piemēram, veidoja ap 1 000 000 valodas vienību. Otrās paaudzes korpusi jau tiek veidoti bez manuālas ievades — skenēti. Savukārt trešās paaudzes korpusi jau ļauj analizēt simtiem miljonu vienību plašus valodas vākumus. Svarīgi, ka valodas datu vākumi nav nejaušas kārtības — tādus, lai cik apjomīgus, var nosaukt tikai par kolekcijām. Kas ir latviešu valodas korpuss? Latviešu valodas korpusam ir vairāki sākumi. Viens no tiem rodams Latvijas Nacionālajā bibliotēkā, kas jauno tehnoloģiju laikmetā ir sākusi vērienīgu digitālās bibliotēkas projektu. Valodniecībā arī notikušas zināmas kustības. Pirms divdesmit gadiem Igors Šuvajevs sapulcināja savus draugus un lūdza katru pastāstīt par savu darbu. Tā es satikos ar Matemātikas un informātikas institūta direktoru Rihardu Balodi un Mākslīgā intelekta laboratorijas vadītāju Andreju Spektoru. Viņi mani uzaicināja pie sevis, jo bija parādījušies datori. Mēs tur izveidojām Glika vārdu indeksu. Tagad tas ir pārtapis projektā Seno tekstu valodas vārdnīca, ko vada Pēteris Vanags. Tās ir iestrādes korpusam. Tagad Andris Vilks tos, kas jau nodarbojas ar šādām lietām, aicina apvienot atsevišķos projektus plašā programmā. Tur piedalītos arī, piemēram, filozofi. Viņi varētu nodarboties, piemēram, ar semantiskajiem tīkliem. Valodnieki jau vairs vieni nav spējīgi korpusu izveidot, bet nepieciešamība strādāt kopā ir liela, jo latviešiem nav jaunas, apjomīgas latviešu valodas vārdnīcas. Nav arī, piemēram, tādas visiem saprotamas lietas kā rakstnieku valodas vārdnīcas. Visām kultūras tautām tādas ir, mums nav. Kāpēc? Vajadzētu būt folkloras, seno un mūsdienu valodas vārdnīcām visiem valodas līmeņiem. Gramatiskajam marķējumam programmiņa jau darbojas. Nozīmes ir nākotnes lielais darbs. Un visās jomās kaut kas jau tiek darīts, bet jaudīgas kopīgas programmas nav. Ar šādiem jaukiem projektiem mēs varētu nodarboties vienas programmas ietvaros. Mums ir nodomu protokols par tādas izveidi, kuru ir parakstījuši Latvijas augstskolu un universitāšu rektori. Tā ir nopietna iestrādne. Ir izstrādāta valodas korpusa koncepcija. Novembra pirmajā pirmdienā būs starptautisks seminārs par latviešu valodas korpusa izveidi. Attieksme ministrijās gan ir ļoti dažāda — Kultūras ministrija ir ļoti pretimnākoša, Izglītības un zinātnes ministrija ir rezervētāka, bet… Var jautāt, kā jūs to panāksiet, kur ņemsiet naudu un cilvēkus, bet mums neapšaubāmi šāds projekts ir vajadzīgs.u Andris Vilks, Latvijas Nacionālās bibliotēkas direktors: Šodien katras valodas t.s. nākošā paaudze ir saistīta ar elektronisko vidi. Valodas tālākā eksistence acīmredzami būs atkarīga no tā, cik izkopta tā būs digitālajā vidē. Arī latviešu valoda pilnvērtīgi var attīstīties tikai tad, ja būs izveidots latviešu valodas korpuss. Projekts nav utopisks, jo šādi korpusi pasaulē jau top. Arī Latvijā darbs ir iesākts — Matemātikas institūtā rit darbs, ir izstrādāta korpusa koncepcija, fiksēts daudz materiāla. Latvijas Nacionālā bibliotēka vien šobrīd digitalizējusi vairāk nekā miljonu lappušu, bet mēs neesam vienīgie, kas ar to nodarbojas. Krājums soli pa solim tiek papildināts. Korpuss vienlaikus apkopo un dod iespēju pētīt valodu. Bibliotēka šajā projektā kalpos par jēlmateriālu, krātuvi, kur pasmelties, jo mūsu ilgtermiņa mērķis ir radīt visu latviešu valodā publicēto tekstu korpusu — sākot ar vissenākajiem drukātajiem tekstiem līdz pat tam, kas šodien publicēts internetā. Tas, protams, ir daudzu gadu jautājums, bet mērķis ir digitāli apkopot visu, kas latviski reiz publicēts. Jau patlaban digitalizētos tekstus apstrādājam, bet, protams, valodas speciālistiem šeit paveras plašas iespējas. Manuprāt, vislielākais ieguvums būs tas, ka latviešu valoda pilnvērtīgi pārvietosies uz digitālo vidi. Piemēram, informācijas meklēšana… Pašreiz iespējas ir diezgan robustas, latviešu valoda vispār tam nav pārāk labi piemērota. Nākotnē būs iespējams meklēt informāciju nevis pēc noteiktiem atslēgas vārdiem, bet gan pēc semantikas, jēgas. Lai to panāktu, ir jābūt pamatīgi izpētītiem sinonīmiem, valodas līmeņiem utt. Valodas korpuss paver iespējas automātiskajai tulkošanai. Un vēl — šodien nav jābūt ortodoksālam valodniekam, lai lasot ko internetā, pārņemtu šausmas. "Brīvajā valodā" vispār neievēro latviešu valodas gramatikas normas, prasības… Korpuss apkopos visus valodas līmeņus, arī dialektus, žargonus, latgaliešu valodu utt., ļaus ar tiem strādāt. Tā būs bāze terminoloģijai. Mums ir tik daudz lietu, kam vēl nepieciešami latviski termini. Kaut vai blogs, brends — tos joprojām lieto tāpēc, ka vēl nav uztaustīta īstā latviskā forma. Korpuss ir lieliska iespēja katram cilvēkam piedalīties valodas procesā. Knuts Skujenieks, rakstnieks: Domāju, ka korpusu vajag veidot. Visā pasaulē pastāv, piemēram, autoru vārdnīcas, kurās var redzēt, ar kādu valodas diapazonu autors strādā. Mums ir kādi studentu pētījumi, bet reālu grāmatu nav. Tas būtu ļoti svarīgi, jo šobrīd literatūra ir aktīva latviešu valodas veidotāja. Varbūt no literatūras valodas var pasmelt tīri praktiski pielietojamas idejas. Mēs aptuveni zinām, kāda ir lietišķā valoda, bet paralēli taču pastāv arī literatūra, dzeja, atdzeja, kas izmanto ļoti plaša diapazona valodu. Korpuss ļaus redzēt latviešu valodas rezerves, tāpēc digitalizēt katrā ziņā ir ļoti derīgi. Pirms pāris gadiem šādu projektu 20 sējumos pabeidza Lietuva. Viņi tādu bija aizsākuši jau pirms kara, atsāka tūlīt pēc neatkarības atgūšanas. Latvijai šāda tipa vārdnīca ir obligāti nepieciešama. Mums ir atsevišķas vārdnīcas par atsevišķiem valodas slāņiem, bet nevienas kopīgas. Protams, tas ir piecdesmit sešdesmit gadu darbs, bet šodien pie tā beidzot ir jāsāk strādāt. Un noteikti jāiekļauj arī modernie žargoni utt. Neskatoties uz to, vai kādam tie liekas smuki vai nesmuki, latviski vai nelatviski. Te nevar pieiet partejiski.

Uzmanību!

Pieprasītā sadaļa var saturēt erotiskus materiālus, kuru apskatīšana atļauta tikai pilngadību sasniegušām personām.

Seko mums

Seko līdzi portāla Diena.lv jaunākajām ziņām arī sociālajos tīklos!

Ziņas e-pastā

Saņem Diena.lv aktuālās ziņas e-pastā!

LAIKRAKSTA DIENA PUBLIKĀCIJAS

Vairāk LAIKRAKSTA DIENA PUBLIKĀCIJAS


Aktuāli


Ziņas

Vairāk Ziņas


Mūzika

Vairāk Mūzika


Māksla

Vairāk Māksla


Teātris

Vairāk Teātris


Literatūra

Vairāk Literatūra


Kino/TV

Vairāk Kino/TV


Eksperti/Blogeri

Vairāk Eksperti/Blogeri


Intervijas

Vairāk Intervijas


Recenzijas

Vairāk Recenzijas


Grāmatas

Vairāk Grāmatas


Konkursi

Vairāk Konkursi


Ceļojumi

Vairāk Ceļojumi


KD Afiša

Vairāk KD Afiša


Deja

Vairāk Deja