Нови Технологии

Преслав Наков: В QCRI учим компютрите да разбират човешки език

Computer World

Д-р Преслав Наков е научен сътрудник в Катарския институт по компютърни изследвания (QCRI - Qatar Computing Research Institute). Научните му интереси са в областта на компютърната лингвистика и обработката на естествен език, и по-специално на машинния превод, лексикалната семантика, използването на уеб като корпус и компютърната обработка на биомедицински текстове.

Д-р Преслав НаковД-р Наков (на снимката) завършва магистратура по изкуствен интелект в СУ "Св. Климент Охридски" през 2001 г., след което започва докторантура в Калифорнийския университет в Бъркли със стипендии на университета и на Българо-американската комисия за образователен обмен "Фулбрайт" и през 2007 г. защитава дисертация на тема "Използване на Уеб като неявен източник на знание: приложение за разрешаване на синтактичната и семантичната многозначност при сложни съществителни в английски език". След това специализира в Лабораторията по лингвистично моделиране в Института по паралелна обработка на информацията на Българската академия на науките, както и в Националния университет на Сингапур, преди да започне работа като научен сътрудник в Катарския институт по компютърни изследвания. Работил е като хоноруван преподавател в СУ "Св. Климент Охридски".

Д-р Наков е автор на над 100 научни публикации с около 1600 цитирания в областта на компютърната лингвистика, вкл. на конференции като ACL, HLT-NAACL, EMNLP, CoNLL, EACL, ECAI и RANLP и в списания като JAIR и TSLP, както и на три книги: Semantic Relations Between Nominals, Основи на компютърните алгоритми и Програмиране = ++алгоритми. Последната е в съавторство с Панайот Добриков и е считана за „библия“ в програмистките среди в България (с над 5000 download-а през 2013-а година).

Д-р Наков е съорганизатор и редактор на сборниците на няколко международни конференции и работни срещи. Редовен член е на научните комитети на конференции като AAAI, SIGIR, IJCAI, ACL, HLT-NAACL, EMNLP, CoNLL, EACL, COLING, IJCNLP, LREC и RANLP и рецензира за списания като AIJ, Comput. Ling., CBM, DKE, IS, JAIR, JCST, NLE, LRE, TALIP, TASLP, TKDE. Изнасял е лекции в редица университети (вкл. MIT, Кембридж, Уошингтън, Мелбърн, Хайделберг, и др.) и изследователски лаборатории (вкл. Макс Планк, Microsoft Research, Google Research, Yahoo! Labs, XRCE, NICTA, NICT) у нас и в чужбина (САЩ, Великобритания, Германия, Франция, Швейцария, Италия, Сингапур, Япония, Австралия и Нова Зеландия и др.). Ръководител на студенти и дипломанти, някои от които продължават като докторанти в университети като Станфорд и ETH.

Д-р Наков е носител на редица национални и международни награди и отличия, включително на наградата за млад учен на конференцията RANLP'2011, както и на първата награда "Джон Атанасов" на Президента на Република България, присъдена му през 2003 г. за постижения в развитието на информационното общество.

Наградата „Джон Атанасов“ на Президента на Република България, учредена на името на създателя на първия електронен компютър - известният учен от български произход Джон Атанасов, се връчва в подкрепа на личните постижения на младите български изследователи, работещи в сферите на ИКТ. Крайният срок за кандидатстване за отличията е 6 август 2014 година.

- Д-р Наков, как възникна интересът ви към „екзотични“ езици като арабския и китайския?

Когато човек иска да се развива в областта на превода, това винаги е свързано с поне два езика. Днес основните изследвания в областта на машинния превод са в 2 направления: арабски–английски и китайски–английски.

- Разкажете повече за работата си в Катарския институт по компютърни изследвания.

Старши научен сътрудник съм в Катарския институт по компютърни изследвания (QCRI - Qatar Computing Research Institute), част от Катарската фондация (Qatar Foundation) от около три години, почти от самото му основаване. Когато постъпих на работа, имах около 15-20 колеги, а сега броят на служителите е 120 и се очаква да нараснем още 2-3 пъти в близките 4-5 години. Разполагаме с много добри учени. Хората, които са при нас, особено на по-високи позиции, са предпочели работата тук пред академична кариера и постоянно място в организации като Масачузетския технологичен институт (MIT), Университета Карнеги Мелън (CMU), Университета на Уотърлу (University of Waterloo), Университетът Пардю (Purdue University), IBM Research, Yahoo Research, и др.

Институтът се развива много динамично. Имаме сътрудничества на ниво Катарска фондация с Масачузетския технологичен институт, както и съвместни проекти с MIT.

Работим с водещи изследователи в областта на разпознаване на говор, на машинен превод и на компютърна лингвистика с MIT.

В Катарския институт по компютърни изследвания се занимавам с обработка на естествен език, като целта е да научим компютрите да разбират човешкия език.

Аз съм в групата по арабски езикови технологии, където арабският е най-важният език, но имаме потенциален интерес и към други езици, които са важни за региона, например фарси, турски, но най-вече някои индийски езици, защото в Катар голяма част от емигрантите и чуждестранните работници са от Индия, Бангладеш, Шри Ланка и др. и понякога има проблем от гледна точка на машинния превод. Когато такъв пациент отиде в болницата и не говори добър английски или арабски език, възниква проблем с комуникацията.

В нашата група работим над два големи проекта.

Единият е в областта на машинния превод - превод на срещи, обхващащ разпознаване на говор с различни участници, различни микрофони, с различно качество и т.н. Искаме да можем да правим симултанен превод и в двете посоки. За тази цел си сътрудничим с Института по превод към Катарската фондация. В Катар обичат арабския език и предпочитат, когато има възможност, да се говори на официални събития на арабски, при което има симултанен превод. Ние записваме от подобни събития оригиналния презентатор, както и симултанния превод. Това са уникални данни, върху които искаме да обучим системи, които да се учат от стратегиите на човека-преводач. Когато имаме готов текст и запис, който искаме да разпознаем, там е по-лесно. Когато искаме това да стане в реално време, нещата са по-трудни, защото професионалният преводач може да пропусне част от казаното, да го перифразира, да допълни. Най-важното правило е да не се измисля нищо допълнително.

Начинът, по който правим превод, е статистически. Учим се от готови примери на превод. Това е добре разработено, особено за езици като арабския и английския.

Когато става въпрос за текст, разполагаме с огромни корпуси с високо качество на превода от около 160-200 милиона думи.

Опитваме се да стандартизираме диалектите, за да приличат повече на стандартния арабски език, преди да пристъпим към превод. Същите проблеми стоят и при разпознаването на говор.

Имаме сътрудничество с Ал Джазира за автоматично разпознаване на говор, добавяне на субтитри, с по-нататъшна перспектива за превод. Когато става въпрос за телевизионни предавания, в които се говори стандартен арабски език, задачата в общи линии е проста от научна гледна точка.

В областта на машинния превод, строим реални системи, които работят, правим и фундаментални изследвания.

Участваме в различни състезания за машинен превод, повечето от които печелим.

В Катар само 15% от населението e местно, а 85 на сто са чужденци. Затова работим по проект, наречен Doha City Browser, чиято идея е да създадем диалогова система в помощ на туристите и на жителите на Катар.

През 2022 г. в Доха ще се проведе световното първенство по футбол. Ние искаме по това време, когато феновете дойдат, да могат да изтеглят това приложение на своя смартфон или Google glass или друго устройство, и да получат разнообразна полезна информация, като откъде да си купят билети, преглед на последните голове на най-известните футболисти, къде се намира стадиона, какви забележителности има наоколо и др. Работим по проекта с дълбоко разбиране на езика и езиков анализ, не с просто разпознаване, и искаме това да работи за английски и арабски език, както и да имаме реална диалогова система.

Групата по арабски езикови технологии към Катарския институт по компютърни изследвания работи по три други по-малки проекта.

Една от инициативите е за разпознаване на текст – OCR. Местната библиотека разполага с богата колекция от стари арабски писмени документи, които в момента са сканирани, но искаме да ги дигитализираме и да ги направим searchable, т.е. текстовете в тях да могат да се търсят и ползват от учени и заинтересовани лица.

Друга дейност, с която сме ангажирани, е интерактивна система, която подпомага ученето на арабски език чрез игри, упражнения и т.н.

Работим и над NLP stack – помощни средства за обработка на арабски език като синтактичен анализ, семантичен анализ, автоматично коригиране, автоморфологично търсене и др.

- Дълъг ли беше пътят от Бъркли през Сингапур до Катар? Помогна ли ви спечелването на Наградата на Президента на България „Джон Атанасов“ за бъдещата ви кариера?

Винаги поддържам връзка с България. Една от причините да поискам да се върна в България, след като завърших докторантура в Бъркли в края на 2007 г., беше мотивацията да работя за развитие на информационното общество и на научните изследвания в България.

През 2008 г. започнах работа в БАН като научен сътрудник, но дипломата ми не беше призната. Тогава трябваше да защитя дисертацията, с която вече бях получил докторантура от Университета в Бъркли, пред Висшата атестационна комисия, като напиша резюме от 40 страници, след което го издам за своя сметка в определен тираж, да дам на ВАК по три копия от всички публикации, свързани с дисертацията, и да чакам месеци наред. Това блокира всякаква възможност за научна кариера в България за мен, защото от гледна точка на държавата аз нямах докторска степен.

По тази причина заминах да работя в Сингапур, докато ВАК утвърди дипломата ми, което наистина се случи впоследствие.

За съжаление, през 2009 г. световната криза се отрази и на България, и това ме спря да се завърна тук. Виждате как се развиват нещата в България – трудно е да се прави нещо в областта на науката.

- Освен всичките ви професионални занимания и въпреки че не живеете в България в момента, успявате да водите и лекции към Факултета по математика и информатика на Софийския университет „Св. Климент Охридски“?

Водя курс по магистърска програма заедно с трима други колеги от ФМИ по извличане на знания от текст. Когато имам възможност да идвам, водя лекциите на живо, останалите ги следя през Skype.

Получих покана и от Софтуерния университет – инициатива на моя брат Светлин Наков, и водих лекции и там.

Разговора води Констанца Григорова





© Ай Си Ти Медиа ЕООД 1997-2019 съгласно Общи условия за ползване

X