January 3, 2023

За проектот „Ракописи стари 500 години од Институтот за македонски јазик“

 Последните неколку дена во македонските медиуми се шират информации за тоа како „Ракописи стари 500 години од Институтот за македонски јазик со дигитализација се спасени од пожар и вода“. Станува збор за проект на Министерството за култура и Фондот за иновации и технолошки развој (ФИТР), кој го изработи фирмата „Инбокс“. Изјавата за овој проект во сите медиуми беше скоро иста со мали разлики, што значи дека сигурно била напишана од вработени во Институтот и во фирмата Инбокс и дистрибуирана по медиумите. На сајтот на Институт за македонски јазик нема информации поврзани со овој проект. Најновата изјава во Актуелности на сајтот е од 20/10/2020. Овде би сакал да објаснам за што точно се работи, и моите мислења во врска со вредноста на овој проект. 

Во овој проект потрошени се 5.000.000 денари, или 82.000 евра.

Да почнеме со насловот „Ракописи стари 500 години...“. Овој проект нема никаква врска со никакви ракописи, камоли ракописи стари 500 години, него се работи за дигитализација и преснимување на микрофилм на картотеки со јазични записи. Проектот е многу добро и детално објаснет во весникот „Сакам да кажам“. Картотеката е обична кутија полна со картички со впишани податоци за некој збор. Еве еден пример од таква картичка кај ИМЈ. 

На картичката е напишан зборот и податоци за изворот. Почнувајќи некаде од 50-ите години во претходниот век, пред да има компјутери, вработени во Институтот пишувале на вакви картички со машини за печатење, и на крај биле собрани околу 5 милиони такви картички. Овие картички обично им служат на вработените за пишување на речници. Во овој проект секоја картичка е дигитализирана и зачувана во pdf формат, а истовремено и преснимена на микрофилм.

Директорот  Јорданчо Митровски од „Инбокс“ објаснува: „...микрофилмот како стандард постои повеќе од 50 години, тој трае и до 500 години. За читање на микрофилмот потребно е само лупа и е тежок за уништување. Тој вид на материјал го создадовме за да има копија во секое време. Од друга страна пак, тој не е оперативен, не може да се користи во секојдневна употреба, единствено што може да се запали или да се изгребе. Затоа и предложивме, согласно најновите технологии што се достапни на пазарот, да се направат дигитални оригинали.“ Прашање е дали микрофилмот трае до 500 години. Микрофилмот е обична пластика која со време многу лесно се распаѓа, не верувам дека во сегашно време тој е стандард, и не верувам дека по 500 години ќе е можно да се најди и читач за микрофилм. Мое лично мислење е дека самата хартиена форма на картичката би била подолготрајна и многу полесна за читање, така да подобро би било да се најди начин да се зачуваат самите хартиени картички во безбедно место, него да се преснимуваат на микрофилм.

Сега во врска со дигиталната форма. Тука се работи за медиум, самата картичка, и податокот впишан во медиумот-картичката. Во овој проект вработените во ИМЈ и во Инбокс одлучиле да се фокусираат во зачувување на медиумот, али за лингвистички истражувања вредноста не е во самиот медиум, него во податокот впишан во медиумот, истовремено да има лесен пристап до тој податок од било кого од било каде. Од Инбокс објаснуваат: „Благодарение на проектот за дигитализација на картотеките на Институтот, документите веќе нема да се чуваат во кутии и во плакари. Вработените и научниците нема да имаат потреба рачно да ги листаат картотеките, туку ќе си ги симнуваат од компјутерски фолдери.“ Значи, секоја картичка е дигитализирана во pdf формат, а главниот збор е истовремено и називот на фајлот, или датотеката. Претпоставувам дека секој фајл е внесен во фолдер по азбучен ред. Например, сите зборови што почнуваат со буквата „д“ се во фолдерот „Д“. Така, ако некој вработен во ИМЈ сака да го бара зборот „дренка“ ќе треба да оди во некоја канцеларија во ИМЈ каде е ставен компјутерот со овие податоци, да го отвори фолдерот „Д“ и да ги прелисти сите фајлови да види дали случајно го има овој збор. А не ни значи дека го има, ако некој пред 50 години не го напишал на картичка. Сметајќи дека овој проект е наменет ексклузивно за употреба на вработените во ИМЈ, истиот нема да биде лесно достапен за лингвисти надвор од ИМЈ. Освен пребарување на зборови по азбучен ред низ фолдери, овој начин на складирање не дозволува пребарување во самите податоци за одреден збор. Например, како некој збор се употребувал во текстови пишувани во одреден временски период. 

Пред околу 20 години јас правев истражувања во ИМЈ, и тогаш им предложив друг начин на зачувување на датотеките. Како пример ги скенирав во pdf формат сите картички со зборови што почнуваат со буквата „Ш“. Потоа секоја скенирана картичка беше ставена во база за податоци Microsoft Access со метаподатоци за многу полесно пребарување. Следно требаше базата да биде префрлена на сервер за пребарување, али тогаш беше крај на мојот престој во ИМЈ. Од ИМЈ немаше иницијатива за продолжување на проектот. Во денешно време, следејќи ги сите иновации во компјутерната лингвистика, и тој начин е веќе застарен. Исто така, зборовите собрани во картотеката со зборови од македонскиот јазик имаат многу мала, или минимална вредност за изучување на македонскиот јазик од неколку причини. Прво, тие се собрани од текстови од пред неколку децении и не ја рефлектираат сегашната реалност на јазикот. Второ, количината на зборови е навистина многу мала за детални лингвистички истражувања. Почетен корпус на текстови треба да се состои од околу 100 милиони зборови, и со надградување да дојди до околу 500 милиони зборови. Трето, многу од изворните текстови во картотеката во ИМЈ се преводи од странска литература.

Што значи постоењето на корпусот за еден научник што се занимава со jазични истражувања? Корпусот на еден jазик претставува збирка од различни видови текстови и jазични материjали дадени во електронска форма. Богатството на корпусот се огледа во броjноста на материjалите од различни функционални стилови и застапеноста на сите функционални стилови. Денес, корпусот служи како поjдовна точка на секое лингвистичко истражување. Факт е дека македонскиот jазик нема ваков корпус во коj би биле вградени репрезентативни текстови на историски и на современ план во електронска форма. Нивното вградување во еден jазичен корпус ќе значи можност за повеќенаменски истражувања. Редко која држава во светот да нема свој национален електронски јазичен корпус. Во Европа, Македонија е единствена држава што нема таков национален корпус. Имаше неколку иницијативи, али сите беа безуспешни заради неразбирливи причини. 

Јас изработив еден таков мал примерен корпус од околу 1.5 милиони зборови со детални метаподатоци за секој извор со систем за тематска класификација на текстовите.  Жанровската класификација во македонскиот корпус ги вклучуваше следните жанрови: Вести, Драма, Економија, Еротика, Историја, Култура, Медицина, Мислења, Наука, Образование, Општество, Поезија, Политика, Право, Проза и Спорт. Обемноста на жанровите влијае врз пребарувањето во корпусот, што значи, колку пообемен е бројот на жанрови, толку пообемен ќе биде бројот на примери на специфични јазични форми кои се присутни во одредените жанрови. Исто така, разновидноста на текстовите дозволува да се прават споредни изучувања на лексички или граматички форми во неколку жанрови. Структурата на компјутерската база на текстовите беше доволно флексибилна за бројот на жанрови да може да се намали или пак евентуално да се прошири. Привремено корпусот беше ставен на сервер во универзитет Осло, али бидејќи немаше иницијатива корпусот да продолжи да се надградува во Македонија истиот сега е недостапен. Подетални информации за таков корпус има тука и тука.

На крај, многу ми е жал што таква огромна сума од 5.000.000 денари е потрошена за проект со минимална вредност, за микрофилми, pdf фајлови и за многу скапи кутии за нивно одржување, а со многу помала сума можеше да се обработи еден навистина лингвистички вреден почетен корпус што ќе му служеше на лингвисти низ целиот свет. Се прашувам, пред да се одобри овој проект, дали некој направил анкета меѓу лингвистите во Македонија, да ги праша дали имаат поголема потреба од скенирани картотеки во ИМЈ, или пак да се обработи Македонски национален јазичен корпус?

PS. Се извинувам за граматички грешки во мојов текст. Моето образование во Македонија беше само до осмо одделение во Подмочани.

No comments:

Post a Comment

Закон за употреба на македонскиот јазик

Идејата за заштита на македонскиот јазик со закон од негова неправилна употреба е глупава и главно неостварлива. Идејата дека државата ќе ко...