Netidők Blogtársaság

Netnyelvész2011. november 01. 06:00

Titkosírás megfejtése számítógépes nyelvészeti támogatással

Az Index.hu híre szerint egy számítógépes szakértő és nyelvész társai a modern gépi fordítóprogramok technikáit is felhasználták egy 1730-as évekből származó rejtjelezett könyv titkosításának felderítéséhez.

Módszerében is különlegesnek számít az, ahogy egy amerikai-svéd kutatócsoport megfejtette a mindeddig elolvashatatlan tartalmú, 105 oldalas, 18. századi kézírásos könyv, az úgynevezett Copiale Cipher szövegét.

A metódus során felhasználták számítógépes nyelvészet és azon belül a gépi fordítóprogramok módszertanát, melynek köszönhetően a csoport az első 16 oldal megfejtését mutatta be. A kutatás szerint ez a szöveg egy olyan titkos társaság szertartásainak és politikai nézeteinek a leírása az 1730-as évekből, melynek tagjai valamilyen oknál fogva le voltak nyűgözve a szemészettől, bár maguk nem voltak szemészek.

A kézirat megfejtésekor az áttörést akkor érték el, amikor rájöttek, hogy a vegyesen latin betűkből és változatos jelekből álló szövegben a latin betűk jelzik a szóközöket, a szimbólumok pedig a betűket, illetve a jelzett hangzók mennyiségi jellemzőit (hosszú, rövid hangzók).

A módszer újdonsága és a siker egyik titka, hogy felhasználták a statisztikai alapú fordítórendszerek új eredményeit. Erre alapoztak, amikor a német nyelvet feltételezve szógyakoriság-elemzést végeztek a kódolt szövegen.
(A cikk forrása: http://index.hu/tech/2011/10/27/szamitogeppel_fejtettek_meg_egy_titkosirast/)

Az eredeti könyv egyik oldalpárja, melyen jól láthatók a latin betűkkel összekapcsolt változatos formájú jelek.

A számítógépes nyelvészet lényege, hogy a nyelvi szerkezetek, alkotóelemek mennyiségi jellemzőit, illetve az ezekből levezethető minőségi összefüggéseket az informatikai eszköz nagy számítási kapacitásának igénybe vételével elemzik, számolják. Ennek köszönhetően a kutatók olyan összefüggésekre jöhetnek rá, amelyekre hagyományos, kézi módszerekkel csak igen nehezen, mert a számítógépek olyan hatalmas nyelvi anyagot képesek egyszerre áttekinteni, amekkorában az emberi elme képtelen átfogó összefüggéseket fölfedezni. A jelenlegi kriptográfiai elemzésnél is igen fontos mozzanat volt, hogy a hatalmas terjedelmű szövegben az ismétlődéseket, és azoknak a nyelvi szerkezetekkel való összefüggését igen nagy számítási kapacitás igénybevételével tudták feltárni, összeszámolni és meghatározni.

A másik eljárás, pedig a manapság már igen fejlett számítógépes fordítástámogató rendszer igénybevétele volt, ennek köszönhetően pedig a statisztikailag feltárt mintázatokat, szerkezeti hasonlóságokat különböző nyelvek szerkezeti alapjellemzőivel hasonlították össze. Így jöttek rá arra a történeti kutatásokkal korábban már valószínűsített tényre, hogy a szöveg német nyelvű tartalmat titkosított.

Minden bizonnyal bravúros az eljárás módszertana, amelyet a kriptográfia tudománya távlatilag is beépíthet a módszerei közé. Így az erősen interdiszciplináris titkosírás, illetve titkosítás-megfejtés, -elemzés tudományában tovább erősödik az informatikai, statisztikai, nyelvészeti terület.

Akit érdekel a felfejtett szöveg eredetije, az itt találgatja:
http://stp.lingfil.uu.se/~bea/copiale/images150/00.png az első oldala, majd a végén a 00.png helyére kell 01.png, 02.png-t írni, egészen az 54.png- ig, amelyen a csodás borító látható.

Bódi Zoltán

(Az Index.hu hírének nyomán)

| Még több lehetőség

Kövess minket, hogy első kézből értesülj mindenről, ami velünk történik, vagy iratkozz fel a napi hírlevelünkre.

Email címed:

0 Tovább

Netnyelvész2011. máj 31. 06:00

Lingodroid - elmélkedés a nyelvtudás nélküli nyelvi robotról

Az ausztrál University of Queensland és a Queensland University of Technologykutatói olyan robotokat fejlesztettek ki, amelyek hozzájárulnak a térbeli orientáció, a nyelvi kommunikáció kapcsolatának és a nyelvi rendszernek a kutatásához. Ruth Schultz, Arren Glover, Michael J. Milford, Gordon Wyeth és Janet Wiles a Lingodroids: Studies in Spatial Cognition and Language (Lingogroidok: A területérzékelés és a nyelv tanulmányozása) című publikációjukat 2011 májusában közölték az IEEE International Conference on Robotics and Automation (ICRA) című konferencián Shanghaiban.

Azért jó ötlet egy nyelvi képességekkel felruházott robot használata az általános nyelvészeti kutatásokra, mert így előállítható az a közel ideális helyzet, hogy a nyelvi rendszert olyan módszerrel kutassák, amelyet nem befolyásol a kutató saját nyelvismerete, nyelvi kompetenciája. Ez a nyelvtudomány régi kutatási paradoxona, miszerint csak olyan kutatók tudnak pontos képet adni a nyelvekről, amelyeknek a kutatási módszereit nem befolyásolják a saját nyelvtudásuk. Ehhez az ideális kutató egy nyelvtudás nélküli szereplő lenne, ami ugye paradoxon. Ezt lehet feloldani a robotokkal.

A nyelvtudományi ágak végső célja minden esetbe az, hogy a végső kérdésekre keresse a választ: milyenek a nyelvek valójában és miért olyanok, hogyan alakultak ki, és miért alakultak ki a mai formájukban, miért és hogyan változnak a nyelvek, milyen általános jellemzői vannak a nyelveknek. Ez utóbbi kérdéskör megvilágítása az általános nyelvészet körébe tartozik.

Az általános nyelvészet tehát a nyelvek egészére, vagy bizonyos csoportjaira általában jellemző, közös sajátosságokat, úgy nevezett univerzálékat kutat, másrészt pedig nyelvtípusokba sorolja a nyelveket, hogy a tulajdonságait jobban meg tudja ismerni. A nyelvi univerzálék tehát függetlenek a nyelvrokonságtól, hisz egymással rokoni kapcsolatban nem lévő nyelveknek is lehetnek közös univerzáléik. Ahhoz, hogy ezeket az univerzálékat megismerhessük, a nyelvi rendszerek alapos ismeretére van szükség. A hagyományos módszerrel ez olyan hatalmas és széles körű nyelvtudással rendelkező kutatót igényelt, amelynek az általános nyelvismerete alapján megfelelő intuíciói lehettek, majd ezeket kellett a vizsgált nyelveken ellenőrizni. Az informatikai eszközök segítségével nyelvi modelleket, adatbázisokat lehet felállítani, és ezekből tud meríteni az informatikai eszköz, ezt a korpuszt tudja összehasonlítani. Sokkal nagyobb kapacitással és gyorsasággal tud dolgozni egy ilyen eszköz, mint egy ember. Ám a nagy felkészültségű kutatóra ezután is szükség lesz, mert a számítógépes elemzés által elvégzett összehasonlítások, statisztikai eredmények valóságtartalmát értékelni kell, és ki kell szűrni belőlük az ismétlődéseket, értelmetlenségeket.

A bejegyzés kiindulópontjául szolgáló cikk a Lingodriodokról itt olvasható.

Bódi Zoltán

| Még több lehetőség

Kövess minket, hogy első kézből értesülj mindenről, ami velünk történik, vagy iratkozz fel a napi hírlevelünkre.

Email címed:

0 Tovább

Netnyelvész2011. máj 24. 06:00

Nyelvtörténet számítógéppel

Koreai eredetű a japánnyelv címmel jelent meg az Index.hu-n az alábbi hír:
A japán nyelv eredetével kapcsolatban számítógépes modellezéssel kimutatták, hogy valamennyi úgynevezett japánnyelv egyetlen közös őstől származik mintegy 2182 évvel ezelőttről - ez az időszak egybeesik a Koreai-félszigetről elindult hatalmas vándorlási hullámmal. A Tokiói Egyetem kutatói, Sean Lee és Haszegama Tosikazu a japánnyelv 210 kulcsszavából listát készítettek, és kivetítették a listát 59 különböző dialektusra. A kutatók olyan alapszavakat választottak, mint például a testrészek elnevezése, a számok, a főbb főnevek és névmások. A tanulmány a japánnyelv eredetéről a Proceedings of the Royal Society című szaklapban jelent meg.

Image: Nutdanai Apikhomboonwaroot / FreeDigitalPhotos.net

A nyelvek közötti rokonság kérdésével a több mint kétszáz éves történeti összehasonlító nyelvtudomány foglalkozik, tehát megvan a kifinomult módszertana, amely szerint a mai nyelvek rokonságának kutatásában igazán jelentős, új eredmények már csak elszórva valószínűsíthetők.

A népek vándorlásának megvan a nyelvi hatása is, ezt areális (területi) hatásnak hívjuk, amely kulturális kölcsönhatásoknak, a rövidebb-hosszabb ideig tartó érintkezésnek köszönhető, melynek során kultúrák, nyelvek és népek keveredhetnek. Ez nem rokoni kapcsolat, csak érintkezés.

Nehéz eldönteni, hogy melyek a rokonnyelvek és melyek az areális vagy kulturális érintkezésben lévő nyelvek. Ennek az alapja a történeti összehasonlító nyelvtudomány, amelynek az alapmódszerei már a 18. század végén megjelentek!

A módszer lényege: megfelelően kiválasztott nyelvi adatok mennyiségi és minőségi összehasonlítása. Lényegében adatbázisok közötti szignifikáns szabályszerűségek kereséséről van szó.

Image: jscreationzs / FreeDigitalPhotos.net

Az összehasonlítandó nyelvi adatbázisokból kizárjuk a hasonló hangzást, a gyermeknyelvi szavakat, a hangutánzó, hangulatfestő és indulatszavakat. A lényeges, összehasonlítandó nyelvi rendszertani elemek: a) hanzgókészlet, b) nyelvtani rendszer (ragozás, szerkezetek, nyelvtani jelentések kifejezőeszközei stb.), c) szókészlet. A leglátványosabb mindezek között a szókészlet, mert azzal szembesül leginkább a laikus, ám ez a legbizonytalanabb és leggyorsabban változó részrendszer, és a nyelvtani rendszer változik a leglassabban, az a legállandóbb.

Tehát viszonylag nagy és szabályozott számú nyelvi adatbázisok elemei közötti szignifikáns és egyben szabályszerű mintázatok kereséséről van szó: ezt kiválóan meg lehet gyorsítani számítógépes eszközökkel, melynek köszönhetően olyan szabályszerűségeket is felfedezhetünk, amelyeket a kézi, intuitív módszerrel csak igen nehezen. Jegyezzük meg rögtön, hogy ez a statisztikai, számítógépes módszer olyan szabályszerűségeket is fölismerhet, amelyek nem használhatók a nyelvészeti kutatásban. Az adatbázisok feltöltése, illetve tisztítása tehát továbbra is emberi munka lesz, mert a nagy szószámú, már eleve meglévő számítógépes korpuszokban mindenféle szó van, nem csak alapszókincsbeli, ám a történeti összehasonlító módszer szerint csak alapszókincsbeli, alapnyelvbeli elemeket szabad összehasonlítani. Az adatbázisok megfelelő szabályszerűségek szerinti összehasonlítása viszont jól végrehajtható statisztikai módszerekkel! Mindez a modern számítógépes nyelvészet területeihez tartozik.

Bódi Zoltán

| Még több lehetőség

Kövess minket, hogy első kézből értesülj mindenről, ami velünk történik, vagy iratkozz fel a napi hírlevelünkre.

Email címed:

0 Tovább

Netidők Blogtársaság

Titkosírás megfejtése számítógépes nyelvészeti támogatással

Lingodroid - elmélkedés a nyelvtudás nélküli nyelvi robotról

Nyelvtörténet számítógéppel

Netidők Blogtársaság

Legfrissebb bejegyzések

Utolsó kommentek