Публічна лекція Політ.ua «Українська комп’ютерна лінгвістика сьогодні: суспільні замовлення – здобутки – проблеми»
версія для друку
17.01.2011 Публічна лекція Політ.ua «Українська комп’ютерна лінгвістика сьогодні: суспільні замовлення – здобутки – проблеми»

Політ.ua публикует расшифровку лекции заведующей отделом структурно-математической лингвистики Института языкознания им. А.Потебни НАНУ, доктора филологических наук, профессора Евгении Карпиловской, прочитанной 15 декабря 2010 года в Киеве, в Доме ученых в рамках проекта «Публичные лекции «Політ.ua». «Публичные лекции Політ.ua» — дочерний проект «Публичных лекций «Полит.ру». В рамках проекта проходят выступления ведущих ученых, экспертов, деятелей культуры России, Украины и других стран.

Текст лекції

Євгенія Карпіловська: Вельмишановні пані та панове, вельмишановні колеги, оскільки тема лекції – «Українська комп’ютерна лінгвістика сьогодні: суспільні замовлення – здобутки – проблеми», то я виголошу лекцію українською мовою. Звичайно, великим зухвальством з мого боку було би у півгодини, навіть 40 хвилин, намагатися вібгати всю проблематику, всі завдання і всі суспільні замовлення, які сьогодні стоять перед українською комп’ютерною лінгвістикою. Я ставлю перед собою мету значно скромнішу: у межах відведеного мені сьогодні часу спробувати окреслити ті завдання сучасної української комп’ютерної лінгвістики, які на мій погляд і на погляд і глибоке переконання моїх колег-однодумців відкривають нові можливості для розв’язання не лише суспільно значущих проблем, а і для розвитку самої української лінгвістики. Отже, самий термін «комп’ютерна лінгвістика» і, очевидно, навіть коротко не сказати про це не можна, продовжує сьогодні і в українській, і взагалі у світовій лінгвістиці викликати гострі дискусії і сумніви з приводу самого права на існування такого самостійного напряму мовознавчих досліджень. Чому: тому що комп’ютерна лінгвістика – це, власне кажучи, всі ті завдання, які сучасна лінгвістика розв’язує за допомогою нового технічного засобу – комп’ютера. І, на переконання наших опонентів, навряд чи можна вважати наявність певного технічного засобу уже підставою для виділення того чи іншого напрямку як самостійного. Є структурна лінгвістика як предтеча комп’ютерної, є лінгвістика математична, є, зрештою, лінгвістика прикладна, і чи є потреба виділити у самостійний напрямок лінгвістику комп’ютерну? Ми вважаємо, що така потреба є, і розвиток цього напряму мовознавчих досліджень принаймні в Україні за останні 30 років нас переконує в тому, що комп’ютерна лінгвістика має свій особливий об’єкт дослідження, свої особливі методи, процедури і прийоми дослідження цього об’єкту, і має свою власну проблематику, яку такий об’єкт і такі прийоми, така методологія дослідження відкривають перед цією галуззю знання. І я спробую сьогодні це довести вельмишановній публіці. Отже, суспільні замовлення, які визначають особливий об’єкт комп’ютерної лінгвістики – це, передусім, подати суспільству і науковцям таку модель мови, яка давала би можливість одержувати якісно нову інформацію про саму мову і закладала би надійне підґрунтя для розв’язання, як я вже казала, суспільно значущих проблем. Що мається на увазі: сьогодні дуже гостро в Україні стоять проблеми мовної політики, вивчення мовної ситуації в нашій державі. Мовна політика передбачає спирання на надійну, показову, багатоаспектну, реальну модель функціонування мови. І саме такий технічний засіб, як комп’ютер, який дає можливість представити мову у детально структурованому вигляді, мовну систему на різних рівнях її, різні типи подати мовних одиниць, подати різні аспекти вивчення таких одиниць у зручній для опрацювання комп’ютерній формі, звичайно, що це – можливість одержання якісного нового об’єкта дослідження. І такий об’єкт сьогодні комп’ютерна лінгвістика, тобто та лінгвістика, яка працює з мовним матеріалом у комп’ютерному середовищі, подає у двох основних виглядах. Перший з них – це словник. Що нам дає словник у комп’ютерному середовищі? Я показала, це – перша сторінка комп’ютерної версії академічного тритомового «Російсько-українського словника», який вийшов протягом 1924-1932-го років за редакцією академіків Агатангела Кримського і Сергія Єфремова. Це – перша сторінка цього словника, а я можу показати і як у комп’ютерному вигляді подано тими, хто готував таку електронну версію цього словника, як виглядає самий його текст. Зразу зауважу, що в залі сьогодні присутні ті люди, які підготували електронний корпус словників періоду коренізації, словників, які вийшли в Україні під егідою Української Академії наук у 20-30-ті роки минулого століття, і серед них – не тільки словник Кримського і Єфремова, а і такі суспільно значущі словники, як «Правописний словник» Григорія Голоскевича, як «Український стилістичний словник» Івана Огієнка, як «Російсько-український словник правничої мови» за редакцією академіка Кримського. Сьогодні до них завдяки зусиллям і ентузіазму присутнього в залі пана Віктора Кубайчука долучено уже і деякі словники початку XX-го століття – кінця XIX-го століття, тобто відсунено уже вікові, часові рами цього корпусу до кінця XIX-го століття, і ми вже маємо електронну версію «Словника російсько-українського» М.Уманця і А.Спілки, маємо електронну версію «Словника української мови» Дмитра Яворницького, і зараз пан Кубайчук навіть уже пішов у початок XIX-го століття, і, наскільки мені відомо – може, це конфіденційна інформація, але я вже її подам громаді зацікавленій – він готує зараз електронну версію «Словника української мови» Павла Павловича Білецького-Носенка, а це словник, як ми знаємо, який подає стан українського лексикону першої половини XIX-го століття. Спілка Віктора Кубайчука і Олександра Телемка, а це київське видавництво «К.І.С.», яке зробило цей корпус словників, дуже корисний і дуже цікавий, сьогодні присутні в залі, і ми домовилися, що в їхньому розпорядженні буде 7-10 хвилин для того, щоби познайомити докладніше з цим корпусом, який, на моє переконання, не просто подає дуже важливий і для культурної української громади, і для мовознавців матеріал словників для роботи і для аналізу їх, але цей корпус має іще, на моє глибоке переконання, і таке історико-культурне дуже велике значення, тому що в такий спосіб у зручному сучасному вигляді до нас повертається праця людей, які у 1920-1930-ті роки своїм життям багато хто з них довів свою відданість українській науці, українській мові і українській культурі. І цей електронний корпус – це данина пам’яті і вдячності нашої цим людям. Але повертаюся до словника в комп’ютерному середовищі. В комп’ютерній лінгвістиці отакі електронні версії словників побутують у двох виглядах, спочатку в комп’ютерне середовище їх переводили у вигляді просто електронних копій, але ті зусилля, які витрачали люди, які готували такі копії, показали, що самої копії, звичайно, замало. Так, в такий спосіб словник стає доступним тим, хто працює на комп’ютері, але чи цього доста, нам хочеться далі з цього словника видобувати потрібну для нашого аналізу і для мовознавчих досліджень інформацію. І з’явилося таке поняття, як «машинна версія словника» або «електронна версія словника» або іще є такий термін «комп’ютерна версія словника». Чим комп’ютерна версія відрізняється від комп’ютерної копії? А тим, що весь текст словника ті, хто готує електронну версію, препарують за тими типами інформації про мовні одиниці, які такий словник містить. Ну, от перед нами словник пояснювального типу і словник перекладний, бо, нагадую, що це російсько-український словник, але він містить реєстрову одиницю, він містить відповідники до цієї реєстрової одиниці, ілюстративну частину, стилістичні або граматичні ремарки, пояснення до того, як вживати ту чи іншу одиницю, і от ті, хто готує електронну версію, всі ці типи інформації, вміщені в словнику, повторюю, структурують, виділяють і формалізують, тобто роблять таку розмітку за допомогою спеціальних знаків цього словникового тексту, яка стає зрозумілою комп’ютеру. Тому що комп’ютер, дозволю собі нагадати, це – технічний засіб, який не має людської пам’яті, людської інтуїції, людської мовної компетенції, і це ми знаємо, що «а» - це сполучник, а комп’ютеру це треба пояснити, і це ми бачимо, де в тексті словника ілюстративна частина, а де – ремарки, а комп’ютеру, знову ж таки, все це треба формалізувати і пояснити. І от в такій формалізованій і структурованій версії словник стає уже об’єктом, сировиною для подальших мовознавчих досліджень. Ну, тільки один приклад: якщо в нашому розпорядженні є електронна версія, скажімо, тлумачного словника, а тлумачний словник – це словник, який у найповнішому вигляді містить інформацію про слово, то ми завдяки підготовленій електронній версії цього словника дістаємо можливість з тлумачного словника за допомогою комп’ютера одержати словник синонімів, тому що ті, хто пам’ятає, скажімо, текст 11-томного тлумачного «Словника української мови», пам’ятають, що вже і в паперовому вигляді укладачі цього словника продумали ті знаки, якими можна виділити синоніми в цьому тексті. Ну, скажімо, іде якесь пояснення до слова, а потім іде крапка з комою, після якої ідуть синоніми, і цей знак уже може слугувати для комп’ютера сигналом для того, що далі можна вибирати синоніми і формувати автоматично словник синонімів. Ми можемо одержати з такої електронної версії словник фразеологічний, тому що в тексті тлумачного словника, ми пам’ятаємо, є спеціальні знаки або спеціальні шрифти, які виділяють так звані фразеологічні одиниці, тобто стійкі словосполуки, які передають те чи інше поняття, і залежно від того, наскільки ця словосполука зрощена, тобто неподільно передає те чи інше значення, з’являється знак, скажімо, ромба – це так звана ідіома, ну, скажімо, «ґав ловити» або «теревені розводити» – всі одразу пригадують, який відповідник, яка реєстрова одиниця словника може бути пояснена за допомогою такого фразеологізма. Отже, поява комп’ютера у словникарстві радикально, на наше переконання, змінила саму технологію мовознавчої, зокрема словникарської, справи, з’явилося таке поняття, як «лінгвістична» або «мовознавча технологія»: комп’ютер дає нам можливість, якщо ми відповідно підготували «сировину», об’єкт опрацювання, а це, як я вже сказала, може бути електронна версія того словника, який і, скажімо, є первісним для нашого аналізу, якщо ми продумали засоби опрацювання цієї «сировини», скажімо, працюючи з електронною версією тлумачного словника, ми продумали, в який спосіб з тієї електронної версії можна видобути матеріали для інших типів словників, ми можемо на комп’ютері, як от в цьому безперервному технологічному процесі одержати новий продукт. І перше, чим вирізняється комп’ютерна лінгвістика з кола інших дисциплін, які використовують формально-логічні, математичні методи, комп’ютерні технології – це можливість реалізації такого безперервного процесу від «сировини», вихідного об’єкта нашого опрацювання до нового продукту, який ми з цієї «сировини» одержуємо. І такі продукти ми називаємо у комп’ютерній лінгвістиці «нові лінгвістичні об’єкти». Чому вони нові – тому що вони дають нам можливість одержувати якісно нову інформацію про мову.

Але я показала зараз версії традиційних словників, тобто показала способи, за допомогою яких паперові словники, словники, укладені вручну, можна переводити у комп’ютерне середовище, і такі словники, передусім, призначені для широкого загалу, взагалі для культурної громади, яка дістає в такий спосіб можливість на комп’ютері, по-сучасному з цими словниками працювати. Але далі на екрані уже висвітилися – на жаль, я перепрошую, тут немає нашого драйвера, і замінилися наші «і», «ї» і «и» наголошені, перепрошую, ну, але це, повірте мені, «лінгвістика», «іспит» і «український», от. Те, що ви бачите, вельмишановні панове, на екрані – це реєстр українських слів, які ми у своєму відділі, у відділі структурно-математичної лінгвістики підготували як «сировину» для подальших досліджень морфемної і словотвірної будови українських слів, це – генеральний реєстр комп’ютерного морфемно-словотвірного фонду відділу структурно-математичної лінгвістики Інституту мовознавства імені О.О.Потебні Національної академії наук України. І от в залі, я рада, сьогодні присутня член-кореспондент Національної Академії наук України, Ніна Федорівна Клеменко, під рукою якої ми у 1988 році почали робити такий генеральний реєстр. Яку мету ми перед собою поставили і в який спосіб у цьому реєстрі представлена інформація традиційних паперових словників. Тобто, що це за електронна, комп’ютерна сировина і як ми її далі використовуємо. Ми поставили перед собою мету: передусім за матеріалами різнотипних, академічних, тобто нормативних, показових за своїми реєстрами словників української мови радянської доби, тобто словників, які видані були у період 1970-1989 років, подати якомога повніше якісний склад сучасного українського лексикону. Зробити надійну показову модель українського лексикону. І як такі для формування цього реєстру було дібрано спочатку три словники, а потім ми їх доповнили ще двома словниками. Першим був 11-томний тлумачний «Словник української мови». Нагадаю, обсяг його реєстру близько 137 тисяч слів. Чим для нас був цікавий цей реєстр? Це не просто нормативний склад українського лексикону, можна багато дискутувати з приводу того, що таке норма, в який спосіб вона відбита в 11-томному словнику, я думаю, що це привід для дискусії і обговорення, але словник ґрунтувався на чинних на той час нормах літературної української мови. Словник подавав не тільки загальномовну лексику, але і лексику професійну, яка була вживана у загальномовних текстах, словник подавав великою мірою лексику діалектну, яка представлена у творах майстрів української літератури XIX-XX століття і так само великий масив лексики історичної, теж тут був представлений.

Інформація 11-томного тлумачного словника була доповнена відомостями з академічного "Словника іншомовних слів", перше видання якого побачило світ 1974 році за редакцією академіка Олександра Савича Мельничука. Обсяг реєстру цього словника близько 25 тисяч слів і він великою мірою доповнив реєстр СУМу, тому що, зрозуміло, рідковживана, професійна іншомовна лексика до СУМу, так ми називаємо словник української мови, не потрапляла, а вона для нас була цікавою. Тому ми доповнили реєстр цією інформацією.

Ну і, третій основний словник на початках нашої роботи, це був двотомний «Частотний словник сучасної української художньої прози», який було укладено у нашому відділі структурно-математичної лінгвістики протягом 1970-х років, виданий він був у 1981 році за редакцією першого завідувача нашого відділу і взагалі фундатора нашої школи структурної, математичної, прикладної і комп'ютерної лінгвістики в Україні професора Валентини Сидорівни Перебийніс. Ми всі учні Валентини Сидорівни Перебийніс. Чим був для нас цікавий цей словник? В цьому словнику, оскільки це мова художньої прози, було чимало оказіоналізмів, індивідуально авторської лексики, індивідуально-авторських новотворів, які, звичайно, теж не потрапляють до нормативних академічних словників, а вони для нас були цікаві і з погляду морфемної будови українського слова, і з погляду його словотвірної структури. Скажімо такі одиниці як райгусак, райкарась, заготкачечка, доплуганитися, зебра-ковбаса і так далі, і тому подібне. Навряд чи ми з вами їх зустрінемо в 11-томному тлумачному словнику, а от в цьому словнику такої лексики чимало, як чимало і цікавої для мовознавців було лексики суржикової, бо художній твір - це не лише мова автора, але й мова персонажів. А для тих, хто вивчає так звані мовні хвороби, для тих, хто цікавиться такими небезпечними ділянками українського лексикону, тобто ділянками які передусім повинні привернути увагу і нормувальників нашої мови, і тих, хто цікавиться покручами, і тих, хто цікавиться кальками, яким не місце в лексиконі на зразок "співпадати" і "міроприємство", і "столова", і "пирожне" і так далі, і тому подібне. Для звичайного нормативного словника, ну,така лексика навряд чи туди потрапить, а для дослідника вона була дуже цікавою. І чимало такого до нашого реєстру ввійшло. Ми цю нашу сировину, цей генеральний реєстр сформували в такий спосіб. Як ви бачите, один блок від другого відокремлений комами, це так званий зонний принцип запису інформації про слово. Коли є об’єкт, до якого збирають інформацію, такий об’єкт у нас - це українське слово, та ще й слово, яке поділене на мінімальні значущі його складники, на морфеми. А такі морфеми, це у нас був корінь, ви бачите його у скісних дужках, це були флексії, вони стоять після зірочки, це були префікси, ви їх бачите після амперсанда і перед скісною. Це були суфікси, ви їх бачите після скісної перед зірочкою. Скажімо "лінгвістика", "студент". От слово в такий спосіб було структуровано і формалізовано для подальшого опрацювання в комп’ютері. Але до слова, за всіма словниками, за якими ми цей реєстр збирали, зібрана за зонами інформація. Ну, перша зона, це зона словника, яким ми доповнили оті три словники, про які я казала, це був двотомний словник Івана Тимофійовича Яценка, який називається "Морфемний аналіз". Цей словник вийшов у Києві, у видавництві "Вища школа" у 1980-81 роках, Ніна Федорівна була його відповідальним редактором, а Іван Тимофійович Яценко, на жаль, його немає вже з нами, але це відомий український мовознавець, який багато років завідував кафедрою української мови у Черкаському, тоді ще педагогічному інституті, а зараз це Черкаський національний університет імені Богдана Хмельницького. Словник дуже цікавий для нас тим, що він багато подав термінологічної лексики і звичайно він полегшив нам формування реєстру, тому що в цьому словнику, нагадаю, він називався "Морфемний аналіз" уже слова було подано поділеними на морфеми.

От перша зона, літера "М" – це перша зона словника – морфемний аналіз. Друга зона, яка відкривається літерою "Т" – це зона тлумачного 11-томного академічного словника. Цифра після літери показує, яку кількість значень в цьому словнику має це слово. Ну, скажімо, слово "комп’ютер", ми бачимо, одне значення, а слово "мова" – шість значень, а слово "іспит" – два значення, і так далі, це теж було для нас важливим для того, щоби далі вивчати розподіл однозначної, багатозначної лексики в українському лексиконі.

Зона словника іншомовних слів позначена літерою "Х" і оскільки це теж словник пояснювального типу, то цифра після цієї літери вказує теж на кількість значень в цьому словнику. І ми з вами бачимо, як по-різному словники різних типів подають навіть інформацію про кількість значень слова. От приклад слова "університет", яке прийшло до нас з латини і в словнику 11-томному воно має два значення, а в словнику іншомовних слів – три значення. А чому така розбіжність? А ті, хто працював з цими словниками, одразу зрозуміють, що оскільки настанова словника іншомовних слів податі ті прообрази в мовах-джерелах запозичення, від яких українська мова прийняла те чи інше слово, то для укладача "Словника іншомовних слів" було дуже важливо подати те первісне значення, в якому слово "університет" прийшло в українську мову, от в тому значенні "університет", як той навчальний заклад, який дає загальне уявлення, загальне знання про світ. Це не зовсім те значення університету як вищого навчального закладу, в якому це слово побутує сьогодні в українській мові.

Ну, і нарешті іще два словники, які подані в цьому реєстрі. От літерою «F» латинською позначено зону двотомного «Частотного словника сучасної української художньої прози». Чому «F»? Ну, англійське «frequency» - «частота». Так нам було зручно позначити цю зону, тому що завжди і самі оці формальні знаки, сигнали для комп’ютера ті, хто робить електронну версію словника, намагаються робити так, щоби прозорим був зміст цього знака, що він позначає: чи тип словника, чи якусь якість інформації, яку ця зона передає. Цифра після латинського «F» - це абсолютна частота вживання такого слова у півмільйонній текстовій вибірці, на основі якої укладали словник сучасної української прози. Чому п’ятсот тисяч, - спитають мене ті, хто знає, що нині корпуси оперують уже обсягами у сотні мільйонів слововживань. А тому що лінгвостатистика уже давно довела, що не треба займатися для виконання багатьох завдань гігантоманією, а цілком досить для того, щоб одержати вірогідні характеристики частоти вживання слова в тексті – достатньо вибірки не меншої в 300 тис. слововживань. І будуть надійними ті статистичні характеристики, які ми одержали. Отже, обсягу текстового у 500 тис. слововживань було цілком вдосталь, для того щоби визначити частоту вживань того чи іншого слова в нашому реєстрі.

Ну, і нарешті літера «G» латинське – це позначення зони словника, який для нас був цікавим тому, що у 1988 році, коли ми почали формувати наш реєстр, в українській лексикографії не було ще жодного словника нових слів. У нас були тільки такі додатки лексики, яка не ввійшла, скажімо, в томи одинадцятитомного тлумачного словника. Ну, от одинадцятий том вмістив такий додаток. Там була і нова лексика, просто пропущені слова на літери А-П. А спеціальних словників нової лексики, таких, які уже на той час виходили і в польській лексикографії, і в російській лексикографії, у нас іще не було. Вони з’явилися лише на початку XXI століття. І от словник Сергія Івановича Головащука, який вийшов у 1989 році, і називався цей словник «Словник-довідник з правопису та слововживання». Він у своїй першій орфографічній частині містив чимало нових слів, які не ввійшли до одинадцятитомника і були на той час новими для українського лексикону. І ми такі слова теж ввели до свого реєстру. Ну і нарешті, оскільки це слово, то для нас було важливим до кожного слова подати показник частиномовної належності. І ви бачите, що в кінці запису стоять літери «і.» - іменник, «п.» - прикметник і т.д. Зауважу, що крім показників десяти частин мови, які виділяє традиційна граматика українська, ми додали ще показники спеціальні для дієприкметника і дієприслівника, оскільки хоча це і форми дієслова, але вони мають велику специфіку і у своїй будові, і у своєму вживанні, і тому для нас було цікавим і важливим виділити їх як самостійні розряди слів. Підготували ми таку сировину і що ж далі ми з цією сировиною почали робити? А ми для нашого фонду морфемно-словотвірного зробили спеціальну систему «Морфолог», яка давала нам можливість працювати і з самою сировиною. Ви бачите, те що подане у розділі «База» - це різноманітні процедури вдосконалення самої нашої сировини: коригування, скажімо, виправлення помилок, вилучення певних записів, які ми вважали непотрібними, або навпаки додавання таких записів. Зауважу одразу, що я показую робочу версію цієї системи, а зараз ми працюємо над новою версією і, скажімо, те що стосується самої сировини, то як окремі записи, ми зараз додаємо показники різних функціональних варіантів слова. Ну скажімо, якщо ми уявімо собі одинадцятитомний «Тлумачний словник української мови» подає, скажімо, дієприкметник «трудящий» і уже в самій статті може бути така ремарка – «у значенні іменника». То ми отакі от записи, що дієприкметник може виступати і в ролі дієприкметника, у первісній своїй функції, і в ролі іменника, і в ролі дієприкметника, і в ролі прикметника, або, скажімо, прислівник може виступати в ролі прийменника і навпаки – ми всі такі речі зараз подаємо як самостійні записи. Ми готуємо свідомо зараз сировину для роботи над новою академічною граматикою української мови, створенням якої уже на засадах планової теми від початку цього року зайнятий академічний Інститут української мови.

Отже, у нас є можливості в нашій системі «Морфолог» роботи з самою сировиною, але є і можливості з цієї сировини формувати нові мовні продукти. Що це може бути? Це може бути режим Слова. Я зараз не буду це демонструвати, але тільки скажу, що в цьому режимі ми одержуємо всі слова нашого генерального реєстру не у записі, поділеному на морфеми, а у записі орфографічному без отих усіх зон інформаційних, які ви щойно бачили на екрані. Одержуємо просто реєстр українських слів, який може бути цікавим з тих чи інших міркувань для роботи дослідників. Другий режим – Слова з відповідними функціональними характеристиками – це, власне кажучи, реєстр у тому вигляді, в якому ви його зараз бачили. Тобто, ми працюємо зі словами у морфемному записі і з усім інформаційним кортежем до таких слів, з усіма зонами нашої інформації. Але в нашому морфемно-словотвірному фонді ми за допомогою комп’ютера окремо виділили словники префіксів, словники суфіксів, словники коренів, словники морфемних моделей слів і я далі їх покажу. Перш ніж до них перейти, я хочу крім такого загального інтерфейса, тобто в такому візуальному вигляді засобів доступу і ведення нашої бази даних. В такому узагальненому вигляді інтерфейс подає усі можливості роботи з нашим матеріалом. Так от, крім такого загального інтерфейсу, я хочу ще показати інтерфейс спеціальний, який може виконувати функції не лише інформаційно-довідкової системи, але і системи навчальної і системи дослідницької.

Що ми можемо робити з нашою інформацією і за якими параметрами ми можемо видобувати те, що нас цікавить і просто як користувача комп’ютера, і як дослідника-мовознавця? Ви бачите, це може бути вибір слів за їх буквеною маскою, це може бути вибір слів за маскою морфемною. Що таке морфемна маска? Ну, скажімо, йдеться вже не про окремі літери, з якими ми граємося так, як граються учасники гри «Поле Чудес», тут у нас в морфемній масці – це показники класів морфем. Тобто, ну, наприклад, ми хочемо вибрати всі слова, які містять корінь і флексію, або всі слова, які містять корінь, будь-яка морфема після кореня і флексія – і комп’ютер нам за такою морфемною маскою цю інформацію видає.

Далі ви бачите, ми можемо вибирати слова за різною довжиною і ті, хто, скажімо, сьогодні зацікавлений у завданнях суто практичних – скажімо, подивитися, а скільки в українській мові довгих слів, слів коротких, які це слова, яку семантичну навантагу в лексиконі вони мають? От ми даємо таку можливість роботи з нашим лексиконом і одержання інформації, причому, можна вибирати такі слова не лише за довжиною в літерах, але і за довжиною в складах, і за довжиною в морфемах. А морфема, ми знаємо, може містити до 7 літер. Тобто, і довжина різна може бути для дослідника залежно від того, що його цікавить.

Далі, оскільки я вже казала про те, що ми подаємо різні типи отаких мінімальних значущих одиниць слова, ми дали можливість і таку інформацію користувачам нашого фонду одержати: ми можемо вибирати слова за коренем, за суфіксом, префіксом, причому, з різною позицією, яку вони займають у слові і за різним їхнім графічним виглядом. Тобто, ми можемо набрати конкретну морфему, яка нас цікавить, скажімо, «рук» - «руч», або «гір» - «гор» і ми одержимо не тільки слово «гора», а і слово «гірка». І в такий спосіб ми дістаємо можливість формувати вже певні кореневі і словотвірні гнізда. І цю можливість, я, наприклад, використала, коли робила свій «Кореневий словник української мови», і я покажу його коротенько далі. Ну і нарешті, ми можемо вибирати слова за їхньою частиномовною належністю, ми можемо вибирати слова за їхньою наявністю в тому чи іншому словнику-джерелі нашого фонду. Ми можемо за потребою працювати з кожним з цих параметрів окремо, а можемо і задавати комп’ютеру різні комбінації тих параметрів, які нас цікавлять.

Я хочу одразу сказати, що те, що стосується навчальної функції оттакого реєстру українських слів, то цю функцію реалізували наші колеги з Київського національного університету імені Тараса Шевченка. От в залі присутня Наталія Петрівна Дарчук – керівник лабораторії комп’ютерної лінгвістики університету. Наші колеги зробили електронний підручник української мови, і він для цікавої громади виставлений на сайті на лінгвістичному порталі Київського національного університету. Адреса цього порталу, якщо не помиляюся, mova.info. Так, Наталю Петрівно? Там можна попрацювати з цим електронним підручником, який дає можливість і робити морфемний розбір слова, і розбір словотвірний, можна себе перевірити, а скажімо, і викладачеві університету, і вчителеві школи – це вже готовий сучасний матеріал для уроків з певної проблематики.

Ну, але я вже сказала, що за допомогою комп’ютера ми намагалися робити нові лінгвістичні об’єкти для нашого подальшого мовознавчого аналізу. От як, розкидавши слова на ті складники, які вони містили, ми побудували за допомогою комп’ютера окремі словники морфем. Отак виглядає словник українських префіксів. Це невеличкий його фрагмент, заабеткований, а можна подати цей словник і в іншому вигляді – у вигляді рангового списку, оскільки тут є інформація про абсолютну частоту вживання того чи іншого префіксу у словах нашого генерального реєстру, тому можна впорядкувати за спадом цих частот і виділити в такий спосіб найпродуктивніші префікси і дійти до префіксів, унікальних в українській мові. Отаких, скажімо, уламків історичних як префікс «ко», який зберігся лише в одному слові, яке викликає ще й великі сумніви щодо його правомочності в сучасному українському лексиконі – слово «закоулок». Але воно є у нашому лексиконі, у нашому генеральному реєстрі. Так само виглядають і словники суфіксів, коренів, флексій і у складних словах ми ще виділили так звані сполучні голосні на зразок «о», «е» - буревій, пароплав. Які вони можуть бути оці міжкореневі прокладки в складних словах? Ну, скажу одразу, вельмишановні колеги, оскільки наш генеральний реєстр досить показовим виявився, на сьогодні в його складі понад 171 тис. українських слів, то досить показові і надійні і самі отакі словники окремих морфем.

Ну, скажімо, наш словник префіксів містить 145 одиниць, словник суфіксів – 682 одиниці, список коренів, який ми подаємо нашим користувачам, - понад 22 тис. коренів. Це досить потужні списки. Ну, для порівняння скажу, що шкільний морфемний словник, який уклав на базі у 38 найуживаніших українських слів Левко Михайлович Полюга, містить 90 префіксів, містить 120 суфіксів, містить 200 коренів, тобто для дослідника такі списки, звичайно, становлять неабиякий інтерес.

А це дійсно принципово новий лінгвістичний об’єкт. Що це таке? А це, шановні колеги, «Словник символьних моделей морфемної структури слова». Ми за допомогою комп’ютера, от за тими знаками, сигналами того чи іншого класу морфем, перевели запис конкретного слова у запис символів, які позначали ті морфеми, які слово містить. Ну, скажімо, якщо у нас було слово «мова», то у переліку морфемних моделей воно замінилося символьною моделлю «RF», тобто корінь-флексія. Якщо це було слово «український», то воно замінилося моделлю «RSF», тобто «R» - корінь, «S» - суфікс, «F» - флексія. І так далі. І от ми одержали такий перелік моделей, за якими будуються на сьогодні слова української мови і ми, крім усього іншого, стиснули наш реєстр у понад 171 тис. слів до 495 моделей. А 495 їх тому, що тут не тільки прості, а й складні слова. А моделей, за якими будуються прості слова української мови, а прості – це ті слова, які містять лише один корінь, так от їх всього 51. 51 модель дає в нашому реєстрі понад 130 тис. різних слів. Тобто, символьна модель – це для нас був дуже зручний інструмент для вивчення законів конструювання українського слова. І це наша спільна з Ніною Федорівною Клименко робота, яка була оприлюднена у журналі «Мовознавство» в 1991 році, а після цього в 1998 році вийшов підручник Ніни Федорівни «Основи морфеміки сучасної української мови» і вийшла книжка «Як народжується слово», і вийшло ще багато чого, де ми розвивали оці ідеї законів конструювання українського слова. Які вони ці закони? Передусім – це закон простоти. В українській мові переважна більшість слів побудована за найуживанішими, найпростішими символьними моделями будови. Нам навіть вдалося вивести показник оптимальної кількості отаких елементів-складників у структурі українського слова. Ми, вивчивши особливості механізму побудови іменників, дієслів, прикметників, прислівників, тобто тих частин мови, яким властиві і різноманітні типи морфемної структури, і розгалужене словотворення, яке якраз і дає таке нанизування складників у слові, виявили, що переважна більшість таких слів містить 4 плюс-мінус 1 морфема. Тобто, ядро українського лексикону становлять слова, в яких 3 – 5 морфем. І такий висновок наш зайвий раз довів типологічні характеристики української мови як, нагадаю, мови флективної з перевагою синтетизму в її номінації. Поясню: ідеться про перевагу однослівних номінацій в нашому лексиконі.

Крім закону простоти, це був іще закон симетрії, тому що українське слово тяжіє до, складне особливо, до рівноваги – от скільки префіксів, стільки й суфіксів. А якщо слово просте, то ми бачимо тут асиметрію, яка, знову ж таки, доводить флективний тип нашої мови. А чому переважають суфікси в структурі українського слова? А тому, що всі граматичні, словотвірні значення вони передаються за допомогою наших суфіксів або флексій, які виконують роль суфіксів. Отака робота була зроблена за допомогою комп’ютера.

Що іще давав нам можливість зробити наш «Словник символьних моделей українського слова», яке завдання ще вирішити? Перед вами, вельмишановні панове, так звана морфемна сітка українських слів. Що це таке? Це змодельовано в такий спосіб самий механізм творення слів тієї чи іншої частини мови. Я взяла для прикладу іменники, тому що, по-перше, іменники – це найпотужніша частина мови в складі лексикону, в нашому реєстрі іменників понад 55 тис. А крім того іменники дають і найрозгалуженіші типи самої будови слова. Саму морфемну сітку як формальну модель запропонував свого часу, такий спосіб зображення запропонував німецький учений Поль Менцерат. Я подала це у вигляді прямокутника, а у Менцерата це було зображено у вигляді паралелограма, і ця формально-логічна модель у комп’ютерній лінгвістиці, у лінгвостатистиці відома саме під назвою «Паралелограм Поля Менцерата». Він застосував його для аналізу можливостей, тобто самого потенціалу, закладеного системою мови, для творення графемної і фонемної структури німецьких слів. Це робота його, яка була надрукована у 1953 році, а ми з Ніною Федорівною використали паралелограм Менцерата у вигляді такої сітки, для аналізу морфемної будови, механізму конструювання морфемної будови українських слів. Сама ця сітка – це, власне кажучи, орієнтований граф, точка розгортання якого – мінімальна структура морфемна, в даному разі іменника, ми її бачимо у правому верхньому кутку, це структура «R» - з самого кореня складаються слова, одна тільки морфема. Це переважно або звуконаслідування, або запозичена лексика. Для іменників – це запозичена лексика: «кашне», «бра» і т.д., невідмінювана, «плато» і т.д. Розгортання на правій і лівій осі – це збільшення такої ядерної морфемної структури за рахунок післякореневих елементів, тобто того, що підставляється до такого кореня – і це суфікси або флексії. А те, що розгортається вліво від такої ядерної структури – це докоренева частина слова, тобто це нанизувані префіксальні морфеми.

І морфемна сітка будувалася спочатку в такий спосіб: зафіксовані були (світлим кольором ви їх бачите) з показниками кількості слів, які дає в лексиконі українському, в нашому генеральному реєстрі та чи інша структура – це реальні структури українських слів. Це те, що було засвідчено нашими словниками-джерелами формування нашого реєстру. А далі сітка була доповнена, і те, що замальовано сірим кольором, – це потенційно можливі, але ще не засвідчені в джерелах, з якими ми працювали, типи морфемної будови слова. І от в такий спосіб змодельований механізм творення іменників, давав нам можливість і з’ясувати, чому так мало великих слів. От я показала, що теоретично, приклади прошу подивитися внизу, на такі унікальні структури українських слів. От ми з’ясували, що в простому українському слові, де може бути один корінь і одна флексія, може бути максимально 4 префікси (причому, це лічені слова на зразок «поназдоганяти» або такий унікальний прислівник «доневпоїду», наприклад), може бути до 6 суфіксів (наприклад, «матеріалізуватися», це слова, які легко написати, але важко вимовити).

Теоретично можлива формула простого українського слова – це 12 морфем. Але 12 морфем не засвідчило жодне слово. Максимальна кількість морфем в тих словах, які ми виявили, це 11. І це таке теж неоковирне слово, як «неоподатковуваність»: 3 префікси, корінь, 6 суфіксів і флексія. Ну не більше, слів, як ви бачите і на інші громіздкі морфемні структури. Ця морфемна сітка доводить, що таки дійсно переважна більшість українських слів містить 3 – 5 морфем. Їх легко вимовити і легко запам’ятати.

І ще один словник, і ще один новий лінгвістичний об’єкт, який можна було укласти за допомогою комп’ютера – одержати, знову ж таки, якісно нову інформацію про систему української мови – це «Кореневий гніздовий словник української мови», для якого з того реєстру кореневого, який подавав наш морфемно-словотвірний фонд, я відібрала лише корені, так звані омографи. Що таке омограф? Це корінь, який має спільну форму, але різне значення. І от перед вами, вельмишановні панове, приклади двох таких гнізд, з коренями-омографами «пол-». Перше гніздо – це корінь «пол-», реалізований у слові «пола». І ви бачите в наповненні цього гнізда все, що цей корінь дає на сьогодні у нормативних академічних словниках, тобто в тих словниках недіалектних, неісторичних, які відбивають таку загальну мовну свідомість сучасного українського мовця. Друге гніздо – це корінь «пол-», реалізований у слові «поле». І, знову ж таки, ну тут тільки фрагмент цього гнізда, ви бачите, в чому він може реалізуватися.

Яку, знову ж таки, нову і цікаву і для мовців, і для дослідника інформацію подавав цей словник? Він передусім дав можливість подивитися, як в структурі українського лексикону працює корінь-омограф, тобто, як одна форма дає можливість зібрати довкола себе різний зміст, як те, що легко запам’ятати, знову ж таки спільна форма – як вона дає можливість впорядкувати лексикон, які ці омографи, що вносить у таке впорядкування лексикону запозичена лексика. От скажімо, був неомографічний для українців корінь «кліп-» - кліпати очима, так? А з’явилося запозичення з англійської мови - слово «кліп» і у нас з’явився корінь-омограф. Тому що у нас є кліп, у нас є відеокліп, у нас уже є дієслово кліпувати, є віддієслівний іменник – кліпувальник, є конкурент кліпувальнику – кліпмейкер і похідні від нього, і формується нове таке гніздо.

І ще одне, про що я хотіла у зв’язку зі словниками сказати, це робота, якою ми зайняті сьогодні і якою, на глибоке переконання і моє, і моїх колег, ми даємо відповіді тим, хто цікавиться тенденціями розвитку сучасного українського лексикону і тенденціями розвитку сучасної української мови. Ми уже понад 10 років працюємо над вивченням нової української лексики. От в кінці цього року, і ми вже відзвітували цією роботою вченій раді нашого інституту, ми подаємо на суд громади новий тип словника української лексики – це «Словник концептуальних полів нової лексики». Тобто, вже не просто реєструвальний словник, який фіксує окремі нові слова, які з’явилися в українському лексиконі.

От я бачу в залі мою колегу з Інституту української мови Оксану Миколаївну Тищенко, спілка Оксани Миколаївни і її колег зробили словник нової лексики власне реєструвального типу, так званий «Словник-щорічник». От як щороку і якими словами прибуває український лексикон?

А ми поставили з колегами перед собою інше завдання, уже зібравши таку нову лексику, спробувати показати, а як розробляються в цілому в сучасній українській мові ті чи інші поняття, а якщо слово було відоме, то які нові аспекти цього поняття розробляють носії сучасної української мови. І от те гніздо, яке я показую вам на екрані, воно якраз і стосується тих слів, які вже були відомі українській мові, але як ці гнізда поповнюються за рахунок нової лексики і як значуще для сучасного українського мовця поняття вербалізується, тобто ословлюється в сучасному українському лексиконі.

От слово «коаліція», яке українському лексикону відоме ще з часів правописного словника Григорія Голоскевича. У цьому правописному словнику є і слово «коаліція», є і слово «коаліційний», а от жовтим кольором замальовано все те, що з’явилося буквально за останні 10 – 15 років, причому, вельмишановні колеги, ви бачите, що тут не лише лексика нейтральна, лексика яка не викликає у нас питань щодо своєї нормативності, але і лексика виразно експресивно і оцінно забарвлена. Правда? Ну, от у нас не виникає питань щодо слів «коаліційність», «коаліційно», щодо назв самих членів коаліції, хоча ми тут з вами бачимо виразне конкурування, правда? І «коаліціянт», і «коаліціонер», і «коаліціоніст». І ми сьогодні стоїмо перед проблемою – а що виживе? А що, власне кажучи, найприпустиміше для сучасного українського лексикону? Але ви бачите тут і такі слова, як «коаліцієподібний» або «коаліціада». Навряд чи ці слова потраплять до нормативних академічних словників, але для тих, хто вивчає сучасну українську мовну діяльність, я і мої колеги переконані, такі слова дуже цікаві.

Звичайно неможливо, іще раз скажу, охопити всі проблеми і всі завдання, які стоять перед комп’ютерною лінгвістикою, тому що я торкнулася тут лише того, як використання комп’ютера дає можливість нам по-новому опрацьовувати словникові матеріали, будувати словники нових типів. Я не торкнулася тут дуже драстичної для української мови проблеми створення корпусів українських, і у нас на сьогодні, на жаль, ми змушені це констатувати, немає у вільному доступі національного корпусу української мови, хоч багато ми чуємо про нього і читаємо в публікаціях розробників такого корпусу. Це наші колеги з Українського мовно-інформаційного фонду, але корпусу цього у вільному доступі, виставленого в Інтернеті на сьогодні, на жаль, немає. Є в Україні так звані дослідницькі пошуково-експериментальні корпуси, їх чимало, як чимало і електронних українських бібліотек. І, звичайно, вони дають можливість працювати не лише зі словниками як моделями мовної системи, але і з текстами як моделями функціонування цієї системи. Це і корпус поетичного мовлення, публіцистичного стилю, наукового стилю, який створили і розвивають далі колеги з лабораторії комп’ютерної лінгвістики Київського національного університету. Це і корпус творів прозових Івана Франка, який створює наша львівська колега пані Соломія Бук, до речі, і самий корпус, і частотні словники, конкорданси, тобто словники сполучуваності, які пані Соломія укладає на матеріалі цього корпусу, виставлені у вільному доступі в Інтернеті. Це дуже цікаві для дослідників авторської мови корпуси мови письменника.

Виставлений в Інтернеті і дуже цікавий конкорданс творів Григорія Сковороди, який створили наші харківські колеги з університету імені Каразіна. Це надзвичайно цінний для нас конкорданс поетичних творів Тараса Шевченка. Він називається «Конкорданція поетичних творів Тараса Шевченка». Це робота наших канадських колег з Інституту українознавчих студій університету Альберти Юрія Гавриша і Олега Ільницького, і він виставлений в Інтернеті, цей конкорданс, але він існує і в паперовому вигляді – це 4 потужних томи, які є в наших бібліотеках, і це дуже корисний і цікавий матеріал для тих, хто працює з текстами.

Я не торкнулася тут і такої дуже важливої проблеми, як використання словників і корпусів, які готує комп’ютерна лінгвістика, для розв’язання назрілої проблеми підготовки нової редакції «Українського правопису». Я вважаю, що це сьогодні одне з найбільш гострих і важливих завдань, які ставить перед мовознавцями суспільство, тому що та правописна війна, свідками якої ми є з 1999 року, після того як мої колеги оприлюднили проект нової редакції «Українського правопису», підготовлений як слово фахівців для дискусії, а довкола цього почалося чимало політиканства, абсолютно не потрібного в таких справах. Так от, і надійні словникові матеріали, і надійні текстові матеріали дають можливість поставити вироблення правописних норм на надійний грунт, довести, що це має бути так в правописі, а не інакше і не тому, що це комусь так подобається, а тому що це відбиває типологічні риси мови і відбиває саму суть української мовної діяльності. Я глибоко переконана, що комп’ютерна лінгвістика тут може сказати своє вагоме слово і надати допомогу тим, хто сьогодні, принаймні є таке завдання академічним установам підготувати нарешті до остаточного обговорення редакцію нового «Українського правопису», і ми віримо, що це таки станеться.

І останнє, про що я хотіла сказати, це, знову ж таки, дуже важливе завдання, яке перед нами ставить суспільство, підготовка академічної нової української граматики. Тому що, що гріха таїти, остання українська граматика, вийшла у світ протягом 1968–73 років. У 1979 році світ побачив том про словотворення, як додаток до цієї академічної граматики і, власне кажучи, вже майже… не майже, а вже понад 30 років Україна живе без нової граматики, а це за тих інтенсивних, стрімких, кардинальних змін, які сталися і в лексиконі, і в граматиці нашої мови. І, знову ж таки, підготовка на нових засадах академічної граматики потребує передусім і нового фактографічного підґрунтя, а його може дати саме комп’ютерна лінгвістика у тих своїх словникових і текстових моделях, про які я намагалася сьогодні коротко розповісти. І, крім того, академічна нова граматика стане надійним підґрунтям для підготовки нових практичних граматик української мови, нових підручників української мови і для школи, і для університетської освіти, а в такий спосіб, я думаю, мовознавці дадуть свою виважену і професійну відповідь тим завданням, тим замовленням, які перед ними ставить українська держава, допоможуть дійсно виробити надійну мовну компоненту дієвої мовної політики української держави.

Дякую за увагу!

(оплески)

Обговорення лекції

Каденко: дякую, Євгенія Анатоліївна. В нас такий регламент: як завжди будуть питання з залу, а перше питання від ведучих. І в мене два запитання, по-перше, як я розумію, словник це – завжди аналіз, завжди структура, завжди алгоритм. Чи не є комп’ютер тільки інструментом для обробки та зберігання даних, зберігання праці і просто він більший ніж дозволяє друкований словник? Це перше питання. Тобто, чи існує насправді комп'ютерна лінгвістика? І друге питання: хто користується напрацюваннями комп’ютерних лінгвістів окрім спеціалістів в галузі лінгвістики? Чи можуть з цими словниками працювати ну, я не кажу учні, ну, мабуть, студенти?

Карпіловська: Дякую. Є дуже гарне визначення словника. Кажуть, що словник – це відповідь на будь-яке лінгвістичне завдання. І взагалі на будь-яке завдання. Так от, словник це – просто зручна форма впорядкування, узагальнення і подання інформації. І, звичайно, як і сама діяльність наукова, є діяльність спрямована на широкий загал, є ті словники, які адресовані і учням, і будь-якому грамотному члену суспільства, так є словники, які адресовані професіоналам. Є словники, які потребують для роботи з ними спеціальних знань, зокрема, спеціальної філологічної освіти. Звичайно, ті словники, про які я говорила, це – і матеріал для тих, хто, скажімо, сьогодні готує і учнів у школах, і нових філологів у системі нашої університетської освіти, і це словники, які використовують наші колеги-мовознавці. Ну, скажу, що морфемно-словотвірний фонд, це – дослідницька система, вона не виставлена у відкритому доступі в Інтернеті, але всім нашим колегам, які цікавляться і нашим реєстром, і хочуть одержати якусь інформацію з нашого фонду, ми відкрито, ніколи не відмовляємо, цю інформацію надаємо. Але, скажімо, словником і кореневим , і нашим шкільним словотвірним словником, який вийшов у 2005 році, це наша робота з Ніною Федорівною Клименко і з присутньою тут у залі нашою молодою колегою Ларисою Павлівною Кислюк, так от шкільний словотвірний словник це – наша допомога школі. Це словник, який можуть використовувати учні навіть у початковій школі. Словник афіксальних морфем, тобто, префіксів і суфіксів, ми адресували уже нашим колегам в університетах. Будь ласка, він не просто в паперовому вигляді виданий, він виставлений у відкритому доступі в Інтернеті і колеги можуть послугуватися ним. А що стосується того, чи існує комп’ютерна лінгвістика і чи комп’ютер це – просто засіб, який дає нам можливість у більшому обсязі уявити мовну інформацію, то я хотіла би підкреслити, звичайно, ми не робимо з комп’ютера фетиш, бо як казала колись нам Валентина Сидорівна, якщо ви не знаєте, як відповісти на це питання, і думаєте, що комп’ютер за вас дасть відповідь на це питання, то і не сподівайтеся. Ні, ми комп’ютер розглядаємо і як потужний помічник у нашій роботі, і як той адресат, який змушує нас в інший спосіб моделювати мовну інформацію. А всі, хто працює з системами будь-якими, знає, що уявити собі, як побудована система, в межах самої системи дуже важко. А коли ми виходимо за межі цієї системи і от з погляду комп'ютера, який не знає, що таке іменник, що таке прикметник, що таке слово, ми дивимося на систему мови, то, це та можливість для мовознавця глибше зазирнути у структуру об'єкта свого дослідження, яка просто дорогого вартує. І багато речей, ну скажімо, в процесі створення систем машинного перекладу настільки детально було проаналізовано граматичний лад мови, вийшли на такі речі, на такі деталі, які в традиційній граматиці здавалися самі собою зрозумілими, а тут ми побачили нові грані, нові аспекти. Тому я думаю, що комп’ютер це – новий адресат, який формує і новий об’єкт, і нові засоби його опрацювання і нову проблематику. Я би його порівняла, скажімо, з поданням мови іноземцю. Ми знаємо, що от в один спосіб ми українську мову викладаємо носіям української мови і зовсім інакше ми її подаємо тим, хто цієї мови має тільки навчитися. От комп’ютер для нас такий не просто іноземець, а інопланетянин.

Каденко: дякую. І ще одне коротеньке питання: чому автоматичний переклад такий недосконалий?

Карпіловська: почну, вельмишановні панове, з того, що якщо пропонують певний засіб опрацювання якогось матеріалу, то, не хочу нікого образити, але цим засобом треба ще оволодіти, опанувати. Бо дуже часто ці анекдоти, які ми чуємо про систему Плай, а це – продукт праці моїх колег, от сидить Наталя Петрівна Дарчук у залі, це один з розробників, один з творців систем Рута і Плай, взагалі українського офісу в операційній системі Windows фірми Microsoft. Так багато таких анекдотів, ми розуміємо, пов’язані з тим, що люди просто не підключають ті опції, які пропонує для вдосконаленого машинного перекладу система Плай. Ну, скажімо, опція не перекладати власні імена і тоді академік Богомолець не перетвориться на прочанина, а залишиться академіком Богомольцем. І Франкфурт-на-Майні не буде нічого мати спільного з тим майном, а залишиться Франкфуртом-на-Майні. А щодо недосконалості, то я, вельмишановні колеги, хочу нагадати слова Еріка Ханта, це один з перших розробників систем штучного інтелекту, він казав: "З розвитком техніки і з розвитком нашого уявлення про штучний інтелект, ми кожен раз, те, що здавалося нам рутиною, робимо штучним інтелектом, для нас це стає інтелектуальним завданням. І навпаки, ми завдяки техніці, і нашим знанням просуваємося далі, і для нас те, що було інтелектуальним, і це робила людина, перетворюється на рутинне". Якщо ми сьогодні порівняємо перші системи машинного перекладу, ну, скажімо, в тому вигляді, в якому іще це робили в тридцятих роках минулого століття у тодішньому ще Ленінграді, це була система Тронського і інших дослідників, коли перекладали окремі слова на дуже обмеженому тематично і структурно тексті, порівняємо з тим, що сьогодні робить Плай або Прагма, або Промт, або інші системи машинного перекладу, то ми, може, в історичній перспективі побачимо великий крок вперед. І над системами продовжують працювати. Ми бачимо на сьогодні, Наталю Петрівно, якщо не помиляюся, четверта версія Плаю, так? Чи може, вже й п'ята є?

Наталія Петрівна Дарчук (сміється): Ні, вже на цьому зупинилися.

Карпіловська: Ну, чотири версії, від версії до версії ми бачимо вдосконалення системи. Але людину, я сподіваюся, нам би не хотілося, щоби комп’ютер замінив на сто відсотків. Все одно буде якесь постредагування.

Каденко: да, хотя наш лектор, Татьяна Черниговская, тоже лингвист сказала, что это вопрос десятилетий, когда компьютер заменит человека. Дякую.

Карпіловська: я би не хотіла, щоб він його замінив. Комп’ютер це – помічник і інструмент дослідження.

Каденко: точнее, она сказала "срастется". Вот.

Холмогорова: да, у меня тоже есть небольшой, короткий вопрос, а потом мы перейдем к вопросам из зала, вот. Вы сказали в лекции про "мовні хвороби". А вот, какие способы есть их лечить, да? И нужно ли их лечить? И как в этом конкретно может помочь компьютерная лингвистика?

Карпіловська: ну, я вжила визначення мовна хвороба, а, мені дуже сподобалося, на одному з міжнародних з’їздів славістів виступав такий дуже відомий фразеолог, до речі, петербурзький колега ваш Валерій Михайлович Мокієнко і він сказав: "Немає мовних хвороб. Є мовні явища і ми повинні їх вивчати". Але "хвороба", я сьогодні вжила це слово як можливий відступ від норми, відступ від того, що є доцільним, зручним в тому чи іншому випадку. Ну, от скажімо, суржик, ми розглядаємо і як явище, і як мовну хворобу. Тому що, ну, в будь-якому разі це – порушення мовної норми. Це – недостатня мовна компетенція, яка не дає можливості людині вжити те, що є доцільним, відповідним чинним нормам і тоді з’являється "міроприємство" або "співпадати". Лікувати – створювати показові і надійні моделі нормативної мовної системи. Допомагати мовцеві знаходити такі доцільні, зразкові варіанти. Я бачу тільки такий шлях.

Холмогорова: спасибо. Да, переходим тогда к вопросам из зала. Напоминаю, что просьба представляться и называть, откуда вы, и говорить в микрофон.

Карпіловська: я тільки перепрошую, оскільки в залі присутні представники видавництва «К.І.С.», то у нас була домовленість, що буквально на п'ять-сім хвилин вони покажуть громаді кілька тих словників, про які йшлося. Якщо ваша ласка, то дати моїм колегам таку можливість. Пан Олександр Телемко.

Олександр Телемко: я коротко розкажу про онлайнові словники. Сайт r2u.org.ua. Чесно кажучи, вже не один раз ми презентували ці словники, можливо, вже всі бачили їх, тому я дуже коротко про них буду розповідати. Стосовно того, як ведеться пошук на цьому сайті, тобто і передбачена можливість пошуку за великою кількістю різних словників російсько-українських і тепер вже й додані різні словники, зокрема і українсько-російський, і словник Грінченка є, і так далі. Дуже, ну, наприклад, використання зірочки, якщо там видно та*, *само *ся. От використання зірочки дозволяє шукати слова, які починаються на са- мо-, а закінчуються на -ся. Ну, і інші є там можливості використання. Але за рахунок такого можна дуже вдосконалити пошук. Можна робити вибір різних словників, коли видно серед усіх словниках, там набір всіх цих словників. Можна вибрати певні словники, в яких, тільки в тих словниках можна буде шукати. Серед усіх слів це можна вибирати, шукати серед , наприклад, російських слів, чи шукати серед українських слів, в цитатах і так далі. Так, загалом зараз вже близько 10 тисяч статей в цих різних словниках і на сьогодні пошук можна робити за десь вже десятком словників. Он угорі видно з лівого боку словники, за якими вже можна робити пошук і внизу, і словники, крім того, крім перекладних словників ще йдуть допоміжні словники, правопис: це словник Голоскевича, «Словар української мови» Грінченка і зараз в роботі словник Ніковського, українсько-російський словник. Плюс йдуть ще словники, за яким поки що не можна вести пошук, але ними вже можна користуватися, принаймні, можна собі скачати і користуватись ними. І ця колекція завдяки пану Віктору розширюється. Так, от врешті останні доповнені джерела, словники М.Уманця-А.Спілки, а вже буквально за останні тижні, це – Яворницький, перший том, на жаль, єдиний, і словник Грінченка за редакцією Єфремова-Ніковського. А так і вже додані ще декілька словників Білецького-Носенка. Ну, це буде буквально на днях, так що можна буде зайти і користуватись цими словниками. Дарморосів і ще когось. Вже навіть не пригадую.

Карпіловська: Пане Олександре, а можна показати, що в вас таке частотний словник. Як ви його робите за всіма словниками. Ось у вас там є частотний словник, кількість вживань того чи іншого слова.

ОлександрТелемко: ні, в нас такого немає тут.

Карпіловська: Є на сайті вашому.

Олександр Телемко: а, ми можемо зробити, ми можемо зібрати всі слова українські, які є на сайті.

Карпіловська: якщо можна, покажіть.

Олександр Телемко: якби був інтернет, то можна було б, а тут тільки те, що мені підготували, я не готувався до виступу. Мала бути, інша людина, мала бути. Ну, от, але є така.

Карпіловська: Можливо, пан Віктор розкаже.

Віктор Кубайчук: Справа в тому, що організація комп’ютерних програм, організація машини цього сайту це −Андрій Рисін. Людина відома серед тих, хто має відношення до системи Linux. Це людина, яка відома клавіатурою UkrUnicode і Spell − програма, для перевірки написання слів. Зараз в Linuxі найпотужніша. Сама машина розвивається дуже потужно. Вона зараз вміє значно більше, ніж вона вміла на початку. І я думаю, що поки що вибірка слів з частотністю зроблена, але це поки що, так би мовити, статично. Але її можна буде зробити динамічною, якщо це комусь потрібно. Замовлення на те, що вам потрібно, треба просто є контакт, і якщо людина бачить, що є щось, що хотілось би мати – пишіть розробнику Андрію Рисіну.

Карпіловська: Пане Вікторе, одразу можу сказати, що всіх зацікавило, - це можливість пошуку слова за всіма словниками, які у вас виставлені на сайті.

Віктор Кубайчук: так.

Карпіловська: от Оксана Миколаївна зараз не дасть мені збрехати, що це дуже допомогло в уточненні реєстру нових слів, які ввійшли до їхнього словника. Коли ми задаємо слово "змислóвий" і зразу бачимо, і в словнику Ніковського, і в словнику Грінченка, і в словнику Кримського і Єфремова та ще й з відповідниками та з ілюстраціями, тобто, контексту, це дуже потужна річ на вашому сайті.

Віктор Кубайчук: ну,це те, що є результат, кумулятивний результат використання комп’ютера. В принципі - це набір словників, але комп’ютер дозволяє швидко проаналізувати і отримати результат, який геть зовсім не є тривіальним.

Карпіловська: це правда.

Віктор Кубайчук: причому, ніхто про це не думав тоді, коли починали.

Карпіловська: от вам і технічний засіб, який відкриває нові можливості.

Віктор Кубайчук: знову-таки, абсолютно елементарна річ − новий формат djvu. Це формат, який був вигаданий для образів, для фотографій. Але формат djvu дозволяє мати в самому файлі текстовий шар. Розпізнаний. Тобто, він недосконалий, він не підтримує форматування тексту. Тобто, ви не побачите там ні курсиву, ні болда, нічого. Просто звичайний текстовий файл, але дозволяє виділити прямо по фотографії, скопіювати і вставити в текстовий редактор. Це знову-таки перший крок до таких словників, вже де є пошук і так далі.

Холмогорова: ну что? Переходим тогда к вопросам из зала.

Сергій Тряшін (газета “Русская мысль”): перше питання: ви закінчили словом "коаліция", а чи нема там слова "фракция"? Потому что столько сейчас новых словообразований, фракцийные мы еще.

Карпіловська: якого слова я не розчула

Тряшін: фракція. Фракція. По-перше, те питання, що задавав: чи проводився машинний аналіз “Слова о полку Ігорева” в пошуках до якої сучасної мови він ближче? Потому, что есть разные точки зрения. И уже не вопрос, а скорее замечание. Когда-то такой российский поэт Маяковский написал, что: изводишь единого слова ради тысячи тонн словесной руды. Так вот это то, о чем вы рассказывали, помогает именно в этой работе. Спасибо.

Карпіловська: дякую. Ну, зразу скажу, що неможливо було сказати про все на світі, але що стосується аналізу текстів і аналізу "Слова о полку Ігоревім", то є дуже цікаві розвідки. Ну, я скажу, що комп’ютер допоміг багато в чому з’ясувати історію і "Тихого Дону", коли доводили авторство. Комп’ютер допомагає дешифрувати давні писемності. Це роботи і Юрія Кнорозова і роботи Бориса Сухотіна. Тобто, використання комп’ютера зараз має дуже широкий спектр. Звичайно, неможливо охопити все на світі, але саме здатність комп’ютера за багатьма параметрами оперативно аналізувати великі масиви мовного матеріалу відкриває можливість побачити якісь нові грані в багатьох проблемах. А що до “фракції”, у нас не потрапило до нашого словника це слово. Чому? Тому що повторю, нас цікавили не окремі слова, а цікавили похідні, нові словосполуки, гнізда, які дають ці слова. Нема "фракції", але є "блок", який дав такі розкішні нові утворення. Тут і "мегаблок", і "мегаблокувальник", і "блокотворчий", і "блокоподібний", і "блокада" і "блокіратор" у нових значеннях. Тобто, є де працювати і заради чого зводити тони словесної руди. Дякую.

Холмогорова: еще вопросы.

Доктор филологических наук Золотухин Геннадий Алексеевич: я, все-таки, хотел вернуться к болезням языка. "Хвороби мови". Мне кажется, если продолжить вот эти медицинские аналогии, то мы можем, вправе говорить, что это даже не болезнь, а это − даже эпидемия. И вот эта некоторое снисходительное отношение филологов-профессионалов к этим болезням, я сейчас уточню, какая болезнь, мне кажется глубочайшим заблуждением. Я имею в виду болезнь, если уже эти аналогии дальше вообще продолжать, то вот эта болезнь, ну если сравнить, может быть, с венерическим заболеванием, которое нужно изучать в каком-то изолированном, тесном пространстве. Я имею в виду нецензурную лексику, бранную лексику. В советское, целомудренное время, когда, как всем известно, секса не было, известный филолог, Галкина -Федорук защищала, насколько мне известно, свою диссертацию о нецензурной лексике в сугубо закрытом помещении, изолированном. Вот вам аналогия с венерическим заболеванием.

Карпиловская: на закрытом совете в Институте русского языка.

Золотухин: вам известно это, да?

Карпиловская: да, конечно!

Золотухин: и в связи с этим возникает вопрос: энергетика слова, надеюсь, ни у кого здесь из присутствующих, страшной, действительно, может быть, уничтожающей. Не кажется ли вам, что она сыграла свою страшную роль у автора небезызвестных словарей, вот он лежит, только что я из книжного магазина "Є", "Українська мова без табу". Нецензурная лексика. Словник нецензурної лексики Леси Ставицкой. Женщина посвятила, это же не один ее словарь этой теме, да? Вы знаете, как судьба ее сложилась, да? Как вы на это на все смотрите?

Карпиловская: я просто хочу уточнить ваш вопрос. Так вы против таких исследований?

Золотухин: это однозначно "против". Они непостижимы для меня. Я наблюдал сцены в книжных магазинах, когда молодежь начинала хихикать возле этих словарей. Они и в русском языке выходят. Мат. Словарь русского мата, по-моему, я не помню. Причем, автор армянка, по-моему, если мне не изменяет память. Так вот смысл вот этой работы? И какая нам видите, мне кажется, что это не случайность, что человек вот так вот рано ушел из жизни. По-моему, ей и пятидесяти лет не было.

Карпиловская: вы знаете. Да ей было…

Золотухин: это не мистика.

Карпиловская: да, Лесе Алексеевне было сорок восемь лет. Это наша коллега из Института украинского языка. Я не хотела бы сейчас касаться, это тема очень деликатная, вы со мной согласитесь, судьба Леси Алексеевны. Я скажу по сути вашего вопроса. Я считаю, что как и в любом деле, здесь не должно быть крена. То есть, наложить запрет на такие исследования, я тоже не считаю правильным. Потому что лексика эта, знаете, как любой запретный плод, она очень соблазнительна для современных наших писателей. Она пошла в тексты и даже для того, чтобы объяснить это социальное явление, я его для себя объясняю термином "праздник непослушания". Вот все, что раньше запрещали, а сейчас нам все это можно и естественно, что вот этот праздник, он у нас буйствует уже не одно даже десятилетие. языковеды это изучать? Должны языковеды объяснить себе причины этого феномена? Я думаю, что – "да". Другое дело, что этим не надо чрезмерно увлекаться. Потому что я считаю, что у нас очень много других проблем, скажем, развитие украинского языка, более важных, чем изучение ненормативной лексики. И мы, можем быть, им должны больше внимания уделять, чем этому. Например, для меня более важной является проблема развития книжной украинской лексики, развитие такого высокоинтеллектуального пласта, стиля украинской речи, которого нам так не хватает, потому что ну, из совершенно понятных соображений нам многие десятилетия внушали, что "тільки на народно-розмовній основі українська мова виникла" і просто було абсолютно незрозуміло, а де поділася книжна українська мова? И вот этим, может быть, сейчас надо больше заниматься. Лесю Алексеевну привлекла эта лексика. Она как исследователь имела право этим заниматься. И я считаю, что она сделала своим, скажем, словарем украинского жаргона, где не только ненормативная лексика, очень много полезного для исследования современной украинской языковой деятельности. Потому что в ее Словаре украинского жаргона очень много элементов языковой игры, которые показывали интересные вещи в современном украинском языковом сознании. Не надо только негативное видеть во всем том, что она сделала и оставила нам в своих словарях. То есть, подходить к этому трезво и рассудительно. Да, а запретить, запретить легче всего. Нам очень много чего запрещали в советское время, и мы сейчас пожинаем плоды этих запретов. Но сейчас, может быть, слишком много разрешили всего. Может быть, и это плохо. Вот занимаемся сейчас наведением порядка в нашем хозяйстве. Вот надо нормы литературного языка опять пересмотреть. Может быть, тогда меньше будут интересоваться ненормативной лексикой.

Золотухин: Знаете, что больше всего меня поразило. Это пиар-акция этих словарей на телевидении и абсолютный восторг некоторых украинских прозаиков, как будто бы свершилась их давнишняя мечта, и они получили в руки руководство к написанию гениальных произведений, вот. И с другой, извините, и с другой стороны абсолютно нейтральная, я бы даже сказал, позиция невмешательства со стороны филологов-профессионалов, понимаете?

Карпиловская: ну, профессионалы тоже сказали свое слово. Потому что на эти словари вышло много рецензий и в академических журналах, и рецензий очень профессиональных и вдумчивых, и, кстати, Леся Алексеевна, очень многое, надо отдать ей должное, приняла во внимание.

Андрєєва Аліса polit.ua: в мене до вас таке питання, я вам його задам, тому що воно мене цікавить ще з дитинства, можливо ви дасте на нього відповідь. Мені завжди було цікаво, ми говорили про мелодійність мов, про те що існують різні списки, за якими українська мова посідає або третє після французької і італійської, або там, друге після французької мови, мене цікавить чи не допомагають ваші дослідження дізнаватись про те, якою є наша мова, тобто наскільки вона є мелодійною, і взагалі, чи можлива така програма, яка здійснює такі дослідження, тому що для мене було цікаво, яким чином взагалі можна дослідити таке питання, як мелодійність мови.

Карпіловська: дякую за питання, скажу одразу що звичайно, комп’ютер відкриває такі можливості. Тому що, все, що виражене у формі, а мелодійність виражена у формі, піддається комп’ютерному аналізу. Що таке мелодійність? Це переважання голосних над приголосними, і голосних певних типів. І до речі, є дуже цікаві дослідження, які уже і новітні технології і методи опрацювання мовного матеріалу беруть до уваги. Ну, от недавно вийшла дуже цікава брошура Юрія Мосенкіса, присвячена милозвучності української мови і засадам виявлення такої милозвучності. Є роботи дуже цікаві Ніни Іванівни Тоцької, яка багато зробила взагалі для вивчення такої фонемної структури українського слова. Ми в нашому колективі, оскільки охопити неохопне неможливо, не можемо займатись всім на світі, але українські дослідники цим займаються і, скажімо, навіть оці шкільні програми, які називають "розмовлялками", тобто це програми оцифровування у звуковій формі українських слів. Вони і унаочнюють школярам – а які особливості українського слова, а як це слово побудоване, а що таке неоковирне слово, яке важко вимовити, а як українська мова усуває перешкоди, коли скупчення приголосних, от, скажімо з’являються випадні приголосні і так далі, тобто це теж дія законів милозвучності, тобто і ці комп’ютерні програми дають можливість розв’язувати такі завдання. До речі, дуже ґрунтовно до цієї проблеми підходили українські кібернетики, вони сказали своє вагоме слово, це, може, знайомі вам роботи Тараса Климовича Вінцюка, це були спроби створити перший такий український комп’ютерний диктор, програми «Мова», які робив наш Інститут кібернетики. Тобто і ця проблема не обійдена увагою дослідників.

Холмогорова: еще вопросы?

Татьяна Човпун, polit.ua: Евгения Анатольевна, у меня к вам вопрос немножко другого характера. Если брать, к примеру, маленьких деток, которых только учат разговаривать. Есть ли какие-то программы развития речи для совсем маленьких? Есть ли смысл в этом? Или все-таки не стоит заменять обучение традиционное языку, речи ребенка или стоит обращаться к компьютерной лингвистике в этом плане?

Карпиловская: Спасибо вам за вопрос. Я думаю, что, как и вообще в жизни, и в этом деле должна быть разумная гармония. Потому что вряд ли голос мамы, папы и бабушки заменит компьютерный диктор. Правда? Другое дело, что сейчас появились, естественно, что и компьютерные лингвисты в этом приняли участие, появились электронные книги. Мамы и папы у нас люди занятые, не всегда могут прочитать на ночь сказку, и если это будет сказка на украинском языке в исполнении Петра Тодосовича Бойка, то я думаю, що дітки з задоволенням і казочку, і вірші Наталі Забіли… Ніно Федорівно, правда, ваш онук Васько з задоволенням і бабусю послухає, і Петра Тодосовича послухає. Поэтому да, есть такие вещи – это не программы, это уже программы, реализованные в определенных компьютерных, электронных продуктах. То есть, есть книги, которые уже сопровождаются видеофайлами, мы можем и увидеть какие-то изображения на экране, и голос диктора, который читает нам текст. Ну, если есть такие возможности, почему их не использовать? И то и другое. Но я не хочу, чтобы мы все превратились в «кібериків» и если пафос моей лекции был воспринят так, то я не за то, чтобы компьютерная лингвистика заменила самих лингвистов, потому что мы тогда останемся без работы.

Надія Міщенко: програміст, колишній.

Карпіловська: ні, пані Надіє, не колишній, а нинішній.

Міщенко:…і нинішній теж, так. У мене такі питання. Я помітила, що службові слова, зокрема прийменники і сполучники дуже часто зустрічаються. Їх частота заважає мені інколи в тексті. Я би хотіла знати приблизно, яка їх кількість, скільки прийменників: тисяча, півтори, п’ятсот? Якщо можете відповісти на це питання: сполучників і прийменників. Це одне, а друге ще – яке найдовше слово є у вашому фонді?

Карпіловська: я його передавала, неоподатковуваність –просте слово, і з тринадцяти морфем у нас антенно-приймально-передавальний прикметник.

Міщенко: а я обмежила себе двадцятьма п’ятьма буквами.

Карпіловська: А, літерами, ні, у нас більше. У нас може бути до тридцяти двох літер.

Міщенко: ой, як жаль, потрібно програму переробляти…

Карпіловська: тому ми подаємо Вам можливість з нашим фондом працювати і вибирати слова за довжиною в літерах. І Ви тоді можете задати ту довжину, яка вас цікавить, і вибрати те слово, якщо воно в нас є, яке вас цікавить.

Міщенко: ні, в мене слова є, але інколи треба знати, яке ще мені попаде, більше слово, ніж це. І ще одне питання, чи можна за допомогою вашої системи скласти словник лексики з хибною омонімією флексій.

Карпіловська: що Ви маєте на увазі під «хибною омонімією флексій»?

Міщенко: ну, коли є флексія, наприклад, слово «але». «Е» - флексія.

Карпіловська: ну, для нас «але» – це неподільне слово. Ми тут флексію не виділяємо.

Міщенко: ну, я, можливо, поганий приклад привела. Але є, скажімо…

Карпіловська: просто кінець слова, який може збігатися з іншим, так?

Міщенко: Ну, в російській мові є такий словник, його якось там використовують, я не знаю

Карпіловська: Кулагіної. Є такий словник. Ольги Сергіївни Кулагіної. От Ніна Федорівна внесе вагому лепту в нашу розмову.

Ніна Федорівна Клименко, член-кореспондент НАН України: я спочатку хотіла сказати, чому такі службові слова, як ми називаємо, прийменники, сполучники, такі частотні в текстах. Тому що ми їх називаємо традиційно кріпильним матеріалом зв’язного тексту. Без цього жодного зв’язного тексту немає. І тому в усіх мовах світу за даними частотних словників найбільше, вони потрапляють у тисячу першу найчастотніших слів будь-якого тексту, це по-перше. Тепер щодо омонімії флексій, я можу, тільки треба трошечки набратися терпцю чи терпіння, у нас, мабуть, в наступному році вийде граматичний словник словозміни української мови, величезний, де зібрано, ну, такий інтегральний словник, за найавторитетнішими словниками української мови, і там все це буде із, він інверсійний, тобто обернений, картина буде така, що можна буде користуватися і вчителям, і студентам, і учням, і робити різні дослідження і методички і все інше. Трошки терпіння – і буде вся омонімія, замість омографії, як у Калугіної чи інших, це буде справді гарний словник.

Репліка із залу: дякую, але все-таки скільки сполучників і скільки прийменників?

Ніна Федорівна: є словник прийменників української мови Загнітка, виданий окремий словник Загнітка прийменників, і є…

Карпіловська: я перепрошую, Ніно Федорівно, і Анатолій Панасович, розумієте, пані Надіє, тут іще все залежить від того…

Репліка із залу: є ще словник сполучників

Карпіловська: сполучників Катерини Григорівни Городенської. Все залежить від того, як ви визначаєте прийменник. От, скажімо, можна ґрунтуватися на тому, що прийменники – це тільки первинні, от, такі, як «на», «в», «до» і так далі. А Анатолій Панасович з своїми колегами виділив іще так звані «еквіваленти прийменників», от, скажімо, «під орудою», «під маскою», те, що словосполука, яка еквівалентна прийменнику, вони це називають «вторинними прийменниками», і у них в реєстрі словника 138 прийменників. Але традиційна граматика це розглядає ще як словосполуки, не розглядає як прийменники, тобто треба подивитися, на якій концепції стоїть автор, а потім уже рахувати кількість, розумієте.

Надія Міщенко: З цим словником можна працювати?

Карпіловська: так, але Ви можете зайти, на сайті лінгвістичного порталу Донецького університету, mova.dn.ua, виставлена база українських прийменників з усіма засобами доступу і опрацювання її Анатолія Панасовича Загнітка і його колег, і ви можете самі подивитися на цей реєстр, попрацювати з ним, повибирати з цього реєстру те, що вас цікавить, бо він у вільному доступі там поданий.

Холмогорова: еще вопросы есть, коллеги? Ага, вижу.

Наталя Петрівна Дарчук: Євгеніє Анатоліївно, я хотіла згадати одну ситуацію, яка відбувалася в цьому році на конгресі з російської мови у Москві в Московському університеті. Там виступала професор Майя Всеволодова, яка виступала останньою на пленарному засіданні і сказала, її основна думка була, вже така узагальнююча, про те, що настав час створити граматику для лінгвістів і створити словник для лінгвістів, і тоді багато питань, які виникають, і сьогодні виникали, і виникають у нас, щезли б. І тоді, коли вона сказала цю думку, ви знаєте, зал, який був, актовий зал, який був вщент заповнений лінгвістами, всі аплодували і аплодували стоячи. Це означає, що настав час, коли нам перед тим, як створити академічну граматику української мови, треба спільними зусиллями створити граматику для лінгвіста, і створити тлумачний словник не для загального користування, а тлумачний словник для лінгвіста. І багато таких словників, які сьогодні ми з вами перетворюємо у комп’ютерну форму, вимагають нашого ретельного вивчення, тому що, коли ми працювали над створенням тезауруса для Microsoft – у нас була, був контракт з Майкрософтом, щоб створити тезаурус, мається на увазі, в англійській традиції це – словник синонімів – то, уявіть собі, нам довелося весь словник синонімів, який був укладений нашими колегами з Інституту української мови, переробити. Чому? А тому, що там, наприклад, була така, такий синонімічний ряд: "горілка", "калинівка", "малинівка", "рябинівка" і так далі. Я питаю всіх, скажіть мені, будь ласка, чи це є види горілки? І, я думаю, ви мені скажете, чи це є синоніми до горілки? І я думаю, ви мені всі скажете, що це – не синоніми, а це є види горілки, бо це є настоянки. І таких, таких неоковирностей було досить багато, тобто коли ми зробили цей словник, тезаурус для Microsoft, і він тестувався в Ірландії, то, я вам мушу сказати, що це був абсолютно інший словник. Це означає, що, перед тим, як ми будемо користуватися цими електронними копіями книжкових словників, а я мушу сказати, що, для того, щоб вони були вбудовані, взагалі електронний словник був вбудований в інтелектуальну систему типу «машинний переклад», «автоматичне реферування, анотування тексту», «автоматичне здобуття смислу з тексту», там повинен бути абсолютно інший тип словника, тобто тип, який, такий тип, який формується на базі знань з певної галузі. І я думаю, що тільки тоді, коли ми всі разом об’єднаємо зусилля, я думаю, що тільки тоді, коли будуть такі словники, ми можемо говорити про майбутнє у лінгвістиці. І те, що сьогодні нам Євгенія Анатоліївна розповідала про надзвичайно ретельно зроблену морфемно-словотвірну базу сучасної української мови, можна стверджувати, що вже початки такої граматики для лінгвістів на рівні морфемному вже є. І можна тільки сподіватися на те, що так же буде пророблена морфологія, і точно так же буде пророблений синтаксис – але без корпусу текстів це зробити просто неможливо, тому що треба знати, як реалізується кожна одиниця, як реалізується кожна словоформа, і нам треба мало того, що знати, як реалізується, ну, наприклад, одноелементні, так, але ще й аналітичні форми. Тобто проблем дуже багато, і в тому ми й вбачаємо майбутнє комп’ютерної лінгвістики, тому що вона дає нам сьогодні надзвичайно великі потужності для традиційної лінгвістики, але я хочу сказати, що на сьогоднішній день традиційна лінгвістика комп’ютерній лінгвістиці дуже мало дала можливостей, наприклад, для семантики, вона дуже мало дала і для синтаксису, тому що доводиться створювати формалізовані інструменти. Тому хочу сподіватися, що Євгенія Анатоліївна, може, очолить цей напрямок, пов'язаний зі створенням лінгвістики, те, про що сказала Всеволодова, якій, мої дорогі, 86 років, це людина, яка має такий досвід лінгвістики і є таким авторитетом в московській лінгвістичній школі, а я думаю, що ми не повинні відставати. Дякую.

Холмогорова: вопросы еще?

Анонім: ще таке невеличке питання, ми його трошки вже торкнулися, це питання правопису. Я на цю тему вже читав років, може, чи два, чи три назад в «Дзеркалі тижня», в нашій такій цікавій газеті, який сучасний стан нашого правопису, так сказать? Цей правопис у нас, можна сказати, що є дві стіни, це скрипниківський і радянський, і оцей сучасний правопис, він або сюди, або туди, і отак-от. Це правильно я розумію?

Карпіловська: оскільки в залі присутня Ніна Федорівна Клименко, один з авторів нового проєкту українського правопису, я попрошу Ніну Федорівну відповісти на це питання. То сам Бог велів Вам сказати, чому ж виникла нова редакція.

Клименко: я знаю вас стільки років, але ніколи не думала, що ви така підступна жінка.

(сміх)

Клименко: я хочу сказати, що новий проєкт правопису — найкращий, той варіант — і на сьогодні мене ніхто не переконав, що може бути щось краще того, який подав Німчук, комісія попередня, національна комісія, і був затверджений він на шостому і на сьомому конгресі україністів, він намагається, цей проєкт, врахувати, так би мовити, тенденції розвитку української мови насамперед, і врахувати органіку української мови — друге, третє — всі правописи світу, які нові укладаються, вони враховують, ідуть за принципом уніфікації: чим менше правил, тим кращий правопис. І тому однозначно зараз не можна говорити, що «чи те, чи інше». Я вважаю що, наприклад, що як є правило дев’ятки, то воно повинне бути одне і для загальних назв, і для власних назв. Чому я повинна писати «Арістотель», коли я знаю, що греки його вимовляють як ми, Аристотеліс, і ми можемо писати там «и», і чому ми повинні повертатися, бо кажуть: «Ми звикли до цього, ми будемо писати «Сіцілія». Я вважаю, що за винятком деяких географічних назв, де не можна розпізнати, скажімо, який топонім лежить в основі назви, ми повинні дотримуватися і тих правил чергування, які є в українській мові, бо, наприклад, ономасти кажуть, не можна казати «лейпцизький», бо пересічний носій мови не може розпізнати слово «Лейпциг» — я думаю, що це неправильно. Ми повинні новим правописом закласти такі уніфіковані правила, які дозволять нам, ну, може, не дуже глибоко ворушити деякі там релікти, які вже усталилися у мові, але дати правила згідно з тенденціями розвитку української мови. І тому ніякі читаючі автомати і розпізнаючі пристрої… Але і сумівні автомати теж не повинні бути, в нас повинен бути правопис і норма — от я хочу сказати відповідь повну на це питання. Є комісія, яка працює, але знову ж таки, що якої спільної думки вони дійдуть, я не знаю. Ця нова комісія дотримується правила, що треба еволюційним шляхом змінювати правопис. Я не знаю, доки буде ця еволюція, але я знаю і інше: правопис потрібен. Чому правопис особливо зараз потрібен? Тому що у часи глобалізації і, будемо казати чесно, не будемо казати, якої хвилі, русифікації, у нас реально ми перебуваємо в тому стані, коли ці впливи активізуються, і є в деяких діячів від освіти намагання їх зробити нормою. То у часи глобалізації, на сьогодні доведено, виживає та мова, яка захищена стандартами норми літературної мови. Так, норма літературної мови несе якийсь компонент консервування мови, але їх треба відстоювати і на рівні правописному, і на рівні граматичному, і на рівні словотвірному, і стилістичному, і всіх рівнях. От коли в комплексі буде прийнято правопис — я думаю, що він буде розумно прийнятий і дотримуватиметься рівноваги, а не розхитування, і коли будуть переглянуті і уявні, експліцитні форми, висловлені вимоги і стилістичні, і граматичні, й інші, — от тоді у нас буде українська мова захищена з усіх боків. А допоки що ми спостерігаємо тут мовну політику, яка розриває тріаду. Мовна політика виходить непродумана і беззахисна. Є національна свідомість, є національна мова, є національна держава. Цю тріаду треба дотримувати, треба розвивати всі три компоненти і добудовувати всю мовну політику навколо них, а не перетворювати балаканину про правопис на рівні балаканини, яка вже в нас триває скільки років? Я вже не знаю, я була в двох комісіях, третьої вже…

Карпіловська: Десь понад десять років. Після виходу «Проєкту» Німчука.

Клименко: так. Я вважаю, що правопис, який був в проекті Німчука, там у нас було 19 пунктів, по яких було розходження, уніфікації. З них 13 пунктів прийняли усі, так би мовити, сторони, які там брали участь у роботі над цим правописом. Залишилося небагато, але треба воля, щоб ця комісія засідала, щоб вона його прийняла і щоб він став законом для пересічного громадянина. Але в нас один журнал пише так, інший інакше, а третій іще якось пише і каже: «А всі в нас так пишуть, в нас зараз все можна писати!» То ми допишемось так до краю.

І тому треба, я не знаю, на якомусь вже рівні суспільному ставити проблему якомога швидшого затвердження правопису — це наш кодекс правописний, і це наша норма і це наш самозахист. Така моя думка, а не «або той, або той». Повинні бути сучасні виважені правила, згідно із органікою української мови.

Карпіловська: дякую, Ніно Федорівно.

Репліки із залу: Хімія чи хемія?

Ніна Федорівна Клименко: Ну, на це питання вже краще відповість пані Ольга Кочерга.

Ольга Кочерга, кандидат фізико-математичних наук: Хемія.

Каденко: будь-ласка, всі дискусії — до мікрофону. Якщо можна.

Ольга Кочерга: є в українській мові три слова із коренем «хім». Це «хімія», «хімікат» і «хімічний». Ну, і відповідні скорочення, «Хіммаш» там, «Хімстрой». Всі решта слів мають корінь «хем». Зокрема, всі складені слова. А в останньому, що вийшов, досить повному словнику природничої термінології є порядка ста слів складених, які містять в собі оцю от морфему «хем». І тільки три слова з морфемою «хім», Навіть статистичний підхід свідчить про те, що має бути «хемія». До речі, голова хімічної термінологічної комісії Київського університету пан Корнілов свого часу сказав: «Та це питання не правописне і не термінологічне, це питання політичне».

Валерій Лисенко, комп'ютерник, викладач: у мене таке дуже приземлене, можливо, питання, але все-таки, оскільки тут дуже багато висококваліфікованих філологів, чільників української філології, я так розумію, то дуже прагматичне питання від рядової маси до наших вершин. От всі ці дуже складні питання, дуже часто конфліктні… Як би від аналізу перейти до синтезу? От ми всі синтезуємо безліч текстів, і звичайно, всі наші тексти контролювати науковим чином на такому високому рівні неможливо. Але, можливо, хоча би надати допомогу нашим виданням, от тільки що казали шановні науковці, звертали увагу на те, що навіть у чільних виданнях, столичних, дуже поважних виданнях, пишуть інколи так, що соромно читати! Так чи не постане нарешті в Інтернеті така довідкова служба, для початку хоча би вручну, хоча би по черзі люди сиділи й пошту читали, і відповідали хоча би так, хоча би в такій формі? Я не кажу про автоматизовану подібну службу, подібну до автоматизованого машинного перекладу…

Наталія Петрівна Дарчук: Ви знаєте, я чому втручаюся — справа в тім, що ми створили років сім, чи більше, сім років так, — ми створили портал, який називається mova.info, і туди надходять питання — правописні питання, і постійно у нас є колеги, які дають відповіді на ці питання. І зараз ми плануємо дуже цікавий проект… Я не буду сьогодні розповідати, ви знаєте, що треба спочатку, щоб були підстави, але правопис буде вбудований в цю систему. І я думаю, що тоді ви будете і не тільки людиною, яка одержить відповідь, але ще й одержить її таким чином, що буде зацікавлена її одержати самотужки з цієї системи. Тобто це буде дуже цікава система!

А в принципі, я думаю, що ті, майже… Щодня ми одержуємо до десяти питань . Це безкоштовна служба, і вона насправді нас багато чому вчить, тому що ми через ці питання розуміємо, що людям сьогодні незрозуміло, на що треба звернути увагу в підручниках. Так, тому що ці питання є для нас предметом аналізу.

Карпіловська: дякую, Наталіє Петрівно, перепрошую, шановні колеги, захрипла під кінець. Але я думаю, що коли буде нова редакція українського правопису, та якщо ця редакція буде прийнята так, як це належало колись, що це приймала Верховна Рада України, тобто цей правопис набував сили закону, то служба службою, а кожна грамотна і культурна людина зможе просто звернутися до правопису і виконувати його як закон. Це по-перше. А по-друге, мовна діяльність, виражена в текстах, теж розмаїта. І одна справа — дотримання норм української мови у офіційно-діловому мовленні, або, скажімо, у професійному мовленні, і зовсім інше — коли ми будемо змушувати обмежуватися тільки чинними нормами, відображеними в правописі, наших письменників. І я думаю, що це просто загальмує їхню уяву і, очевидно, там не треба… Тобто, закон законом, але треба вміти і знати, де його застосовувати. І норма теж річ динамічна, бо в розмовно-побутовому мовленні, коли в нас мовна гра, коли в нас якась цікава алюзія, ми відступаємо від норми, і це якраз, як тепер модно казати, родзинка нашого мовлення. Навіть вкраплення російські — вони дуже часто надають якогось перцю висловленню. І це робиться свідомо, а не тому, що людина має недостатню мовну компетенцію.

Тобто, треба вміти користуватися словниками і треба вміти користуватися правописом, якщо ми хочемо, щоб у нас і далі існувала літературна мова. Бо, вибачте, я вважаю, що це — ну, може, я помиляюся, але я сприймаю як вияв неповаги до фахівців, коли в Інституті української мови або в Інституті мовознавства лунає телефонний дзвінок, і нас питають: «А закінчення слова «біржа» у родовому відмінку яке?» Їм кажуть: «Вибачте, та є ж орфографічний словник!» — «Нам нема коли заглядати»… Ну, тобто сприймати науковців як «чого зволите?» теж не треба, для цього видають словники й правопис, щоби люди дотримували норми.

Репліки в залі: Та є ж служба!

Карпіловська: служба є. Я перепрошую, сьогодні є безкоштовна служба культури мови в Інституті української мови. По певних днях будь-яка людина може подзвонити і одержати професійну відповідь.

Ніна Федорівна Клименко: Є ще й погоджувальна рада.

Карпіловська: І погоджувальна рада є в Інституті мовознавства і української мови, от ми нещодавно збиралися на таке засідання, бо ми з Ніною Федорівною є членами цієї погоджувальної ради, і ми погодилися з Ніною Федорівною, що слово «а-ля фуршет» треба писати разом, як нам пропонували. Бо ми вирішували: як писати, «хакер» чи «гакер», «хіджмейкер» чи «гіджмейкер».

Ольга Кочерга: Звідки там а взялося?

Карпіловська: пані Олю, вас не було на погоджувальній комісії, це третій варіант, який би ми розглядали.

Ольга Кочерга: Це від hack – рубати, сокира, гекер – той, хто рубає сокирою програму.

Карпіловська: ну от ми на наступному засіданні комісії скажемо, що треба ще «а-е» там перевірити, в цих словах.

Коротше кажучи, мовознавці цим займаються, не стаємо ми в позу снобів, що «це не ті проблеми, які нас цікавлять, що ми зайняті тільки високою наукою», і суспільно корисними практичними справами теж займаємося.

Вельмишановні колеги, вже всі стомилися, а деякі лектори вже захрипли, і це показник, що треба, мабуть, закінчувати нашу сьогоднішню зустріч.

Каденко: дякуємо.

Карпіловська: дякую гарно всім.

Каденко: дякую, Євгеніє Анатоліївно. Спасибо нашим слушателям. И мы хотим сказать, что последняя лекция до новогодних каникул у нас будет в следующую среду, 22 числа. Будет совершенно замечательный и уникальный лектор, в своем роде, это Иван Бегтин, человек системы, человек, который занимается системами, можно назвать его и хакером, можно системным аналитиком, он ведет раздел «Гослюди» и «Открытые данные» на polit.ru, и тема лекции будет «Открытые данные в современном мире». Не могу сказать, что он — будущий создатель российского Wiki Leaks, но приближается к тому. Приглашаем вас.


Адреса джерела:  http://www.polit.ua/lectures/2011/01/19/karpilovskaya.html
Джерело:  Полiт.ua
Показів: 3719

N_Knoka_10u.jpg
N_Knoka_13_support_U.jpg
найпопулярніші статті
17.06.2013 Трохи про «незвіданий елемент життя»
автор: Бет Скварецьки
переглядів: 30278
відвідуваність
Розташування відвідувачів сайту