Olyan kísérteties egybeeséseket fedeztem fel egy tudományos kutatás-fejlesztésről szóló hír és a StarTrek sorozat egyik eleme között, hogy igazán zavarban vagyok, igaz lehet vagy sem?
A hír. A Microsoft kutatói kifejlesztettek egy beszédszintetizálóval összekapcsolt fordító eszközt, amely a felhasználó saját hangján képes megszólalni. Az eszköz, miután azonosította a fordítandó szöveget, a felhasználó hangján mondja el olyan nyelven, amelyen a felhasználó valójában nem beszél. A fejlesztés során tehát nemcsak a gépi fordítást oldották meg különböző nyelvek között, hanem a beszédfelismerést és a beszédszintetizálást is. A felhasználó beszédét (és annak prozódiai elemeit is) körülbelül egy óra alatt képes az eszköz elsajátítani olyan szinten, hogy képes legyen azt szintetizálni. Az eszköz 26 nyelvpár között képes oda-vissza fordítani, és megszólalni a memóriájában tárolt személy hangján. Itt lehet meghallgatni a példákat. A példából nyilvánvaló, hogy ezek nem ugyanannak a szövegnek a fordításai, hanem valószínűleg egy szöveg folytatásai.
És ami miatt azonnal a StarTrekre asszociáltam, a következő. Először is, a StarTrek filmsorozatban központi szerepet játszik az univerzális fordító, amelynek segítségével az Enterprise csillaghajó legénysége fel tudja venni a kapcsolatot idegen kultúrákkal. De ez nem lenne elég, hanem tegyük hozzá azt is, hogy a StarTrek The Next Generation sorozatában Datának, az androidnak kiváló univerzális fordítója és beszédszintetizátora van, és a film története szerint Data alkotója a zseniális Noonien Soong professzor volt. És a Microsoft jelenlegi fejlesztéseit Frank Soong professzor vezette. Kísérteties a nevek és a téma egybeesése. Olyannyira, hogy fölmerült bennem a kétely: lehet, hogy egy jó kis médiahackről van szó? Kétségeimet viszont eloszlatta a források ellenőrzése: a cikk eredeti változatát az MIT Technology Review című orgánumán publikálták, Soong professzorról pedig olvasni lehet a Microsoft Research oldalán.
Azt mindenesetre meg kell jegyezni, hogy a fejlesztés során számos tudományos és technológiai kihívással kellett megküzdeniük a kutatóknak, mérnököknek. Ha csak a nyelvészeti problémákat nézzük, először is, egy valós idejű fordító automatára van szükség, amely 26 nyelvpár között működik, ez nem kis kihívás. Másodszor pedig meg kellett alkotni egy olyan eszközt, amelyik képes szintetizálni egy hang- és szövegminta alapján a felhasználó beszédét. Harmadszor, a nyelveknek és beszédkörnyezetnek megfelelő prozódiai sajátosságokat is szintetizálnia kell az eszköznek. Vagyis a nyelvek és a tartalmak jellemzőinek megfelelő, helyes nyomaték, beszédritmus, szünet, hanglejtés és hangerő váltakozási módokat kell alkalmazni. A publikált eredmények alapján kijelenthetjük, hogy különösen e tekintetben még van mit tenniük a fejlesztőknek.
Bódi Zoltán
Utolsó kommentek