Лінгвісты пра адкрытыя дадзеныя

Сёння ў Мінску прайшоў Дзень адкрытых дадзеных. Асноўныя тэзісы прэзентацый і вывады, да якіх ўдзельнікі мітапа прыйшлі ў дыскусіях, з’явяцца на беларускім партале адкрытых дадзеных.

На мерапрыемстве выступіў Аляксей Яскевіч. Ён распавёў пра стварэнне сэрвісаў «Дапаможнік» (даведнік па населеных пунктах, якія існавалі і існуюць на тэрыторыі Беларусі, а таксама па прозвішчах) і «Геральдыка» (база гербаў і сцягаў). На гэтую тэму Аляксей таксама рабіў даклад на 6-м мітапе byGIS. Выступ Аляксея быў прысвечаны таму, што блізка суполцы Philology.BY: з аднаго боку, сувязі гуманітарных навук і сучасных тэхналогій (праекты кшталту лічбавага gazetteer, моўныя корпусы і г.д.), а з іншага – цяжкасцям стварэння інфармацыйных сэрвісаў у дзяржаўных установах.

Аліна Радачынская, якая папулярызуе адкрытыя дадзеныя ў Беларусі, так тлумачыць іх ідэю:

Адкрытыя дадзеныя – універсальная ідэя, у якой спалучаецца, як тэхнічная частка, так і гуманітарная. З аднаго боку, гэта інструмент, які патрабуе канкрэтных тэхнічных навыкаў, але з іншага – прынцыпова новага падыходу да распаўсюду, спажывання інфармацыі і прыняцця рашэнняў. Адкрытыя дадзеныя існуюць у адным ідэалагічным полі з адкрытым праграмным забеспячэннем, свабоднымі ліцэнзіямі і правам на доступ да інфармацыі ў яго новым разуменні, якога патрабуе лічбавая эпоха.

У лічбавую эпоху трансфармуецца і лінгвістыка, пра што кажа, напрыклад, Лора Янда:

… ў апошнія 15 год ці каля таго лінгвістыка як навука вельмі змянілася. Мы атрымалі доступ да вялікай колькасці дадзеных, а таксама да вельмі складанага праграмнага забеспячэння для аналізу статыстычных тэндэнцый, і гэта прывяло да маштабных тэарэтычных змен у нашай супольнасці. Мы выявілі, што многія рэчы, дзе мы раней бачылі вельмі простыя пытанні з адказамі «так» ці «не» і зразумелыя класіфікацыі, у рэальнасці значна больш складаныя, бо шмат што з гэтага з’яўляецца статыстычнымі тэндэнцыямі, дзе дзейнічае больш за адзін фактар.

У Тромсё ў самым паўночным універсітэце свету з’явілася база TROLLing (The Tromsø Repository of Language and Linguistics), дзе змяшчаюцца лінгвістычныя і статыстычныя дадзеныя. Кожны можа сцягнуць набор дадзеных (dataset) і выкарыстаць яго ў сваім даследаванні альбо разабрацца ў чужым аналізе і паўтарыць методыку на іншым матэрыяле.

Каб болей зразумець пра тое, навошта патрэбныя адкрытыя дадзеныя лінгвістам, можна паглядзець альбо пачытаць інтэрв’ю з Лорай Яндай.

Вольга Гарыцкая

Кандыдат філалагічных навук, займаецца даследаваннямі і працуе ў Мінскім дзяржаўным лінгвістычным універсітэце (кафедра агульнага мовазнаўства). Навуковыя інтарэсы: сацыялінгвістыка, моўныя кантакты, граматыка, семантыка, прагматыка. Цікавіцца ўзаемадзеяннем лічбавых тэхналогій і гуманітарных навук, у т.л. корпуснай лінгвістыкай і візуалізацыяй дадзеных, а таксама праблемамі прэзентацыі навуковых рэзультатаў і камунікацыі навукоўцаў з шырокай аўдыторыяй.

Лінгвісты пра адкрытыя дадзеныя

Вольга Гарыцкая

Дадаць каментар Адмяніць адказ

Студэнтам