2025-07-28

Atverti kalbos lobiai: visiems pasiekiami LKI duomenys

LT_00_Fichier-de-reproduction-Next-Generation-EU_POS_POS.pngNKL-Logo_Horizontal-RGB.png

 

Valstybės duomenų agentūra bendradarbiaudama su Lietuvių kalbos institutu atvėrė reikšmingus duomenų rinkinius. Nuo šiol duomenų portale (duomenys.stat.gov.lt) pasiekiami Lietuvių kalbos instituto (LKI) parengti rinkiniai, kurie atveria duris į kalbos tyrimų, edukacijos ir skaitmeninių sprendimų pasaulį. LKI Informacinių technologijų specialistas Povilas Bialoglovis su komanda dalijasi, kur ir kaip šie rinkiniai gali būti naudojami: 

Administracinės kalbos aktualijų duomenų bazė | https://data.gov.lt/datasets/2686/#info 

Naudinga bendrinės kalbos, ypač funkcinės stilistikos ar dalykinės, tyrimams, taip pat projektams, kuriems reikalinga reprezentatyvi XXI a. pradžios lietuvių administracinės kalbos vartosena. Šie duomenys taip pat galėtų būti pravartūs kuriant mokomąsias priemones ar įvairius skaitmeninius įrankius. 

Kalbos konsultacijų bankas (KKB) | https://data.gov.lt/datasets/2765/#info 

Ko žmonės klausdavo apie kalbą per pastaruosius 28 metus (1997–2025 m.)? Banką sudaro daugiau kaip 5000 susistemintų kalbos konsultacijų dėl žodžių rašybos, sakinių skyrybos, skolinių, žodžių reikšmių, gramatinių formų, tikrinių žodžių  vartojimo. Pagal šį rinkinį galima matyti XX–XXI amžių sandūroje susiklosčiusią bendrinės kalbos normų kodifikacijos būklę, aktyviausias normų kaitos sritis ir ryškėjančius naujus vartojimo polinkius. 

Moderniosios tapatybės ideologinio naratyvo tekstynas | https://data.gov.lt/datasets/2713/#info 

Šiame rinkinyje pateikiami tekstai, pilni ir išskaidyti pastraipomis, iš Lietuvių kalbos instituto moderniosios tapatybės ideologinio naratyvo publicistikos tekstyno. Tai – tekstų duomenų bazė, naudojama lingvistinei, statistinei ir sociologinei rašytinės kalbos analizei. Tekstynas gali būti naudingas įvairių mokslo sričių darbams atlikti, ypač apie publicistikos raidą, lietuvių kalbos pokyčius (tekstai autentiški, nėra redaguoti pagal dabartinės lietuvių kalbos taisykles) ir pan. 

Duomenys į šią duomenų bazę buvo rinkti nuo 2018 iki 2021 metų. Tekstyne galima rasti prieškario (1928 ir 1930 m.), sovietinio laikotarpio (1945, 1956–1957, 1962 m.) ir atkurtos nepriklausomos Lietuvos spaudos (1992 ir 1998 m.) tekstus. 

Skolintų terminų žodynas |  https://data.gov.lt/datasets/2883/ 

Vertingas kalbininkams, vertėjams ir terminologams. Nors šis rinkinys veikia ir originalioje LKI svetainėje, jis įtrauktas į duomenų portalą plačiam analitiniam naudojimui. 

Šie duomenys atviri ne tik mokslui, bet ir visiems, kurie kuria, tiria ar domisi lietuvių kalbos dinamika. Kviečiame tyrėjus, švietimo įstaigas, kūrėjus ir duomenų entuziastus naudotis šiais rinkiniais integruojant lietuvių kalbos turinį į interaktyvius įrankius, AI (dirbtinio intelekto) modelius ar kultūrinius projektus ar kitaip prisidėti prie ateities kalbos istorijos. 

Dėkojame Valstybės duomenų agentūros programuotojui-analitikui Vytautui Dominykui Leipui, informacijos vadybininkui Dariui Sedleckui ir kitiems specialistams, prisidėjusiems prie šių duomenų rinkinių atvėrimo.