A címben elhangzott mondat rengetegszer szerepel a Star Trek: The Next Generation sorozatban, általában a Sir Patrick Stewart által alakított Jean-Luc Picardtól hallhatjuk, amint az ételreplikátorból kéri a kedvenc italát.
A hangvezérlés már régóta izgatja az emberek fantáziáját és az első hangasszisztensek megjelenésével a fenti mondat akár a mi háztartásunkban is elhangozhatNA. Na de miért ez a feltételes mód?
Ezt beszéltük végig a hangasszisztensek kialakulásától kezdve napjainkig.
Kapcsolódó anyagok:
ELIZA, az első "chatbot": https://web.njit.edu/~ronkowit/eliza.html
A magyar nyelv nehézségét/szépségét tükröző versek: https://okosotthon.club/vers.html
Beragad a skót a hangasszisztenssel működő liftben: https://www.youtube.com/watch?v=NMS2VnDveP8
Amazon Silver (nem csak)időskorúaknak: https://www.youtube.com/watch?v=YvT_gqs5ETk
Itt kereshetsz minket: info@okosotthon.club
Nézz be a közösségünkbe is: Okosotthon Club
Hosztok:
Zsák Péter
Fabó Gergő
OkosOtthon Club
A címben elhangzott mondat rengetegszer szerepel a Star Trek: The Next Generation sorozatban, általában a Sir Patrick Stewart által alakított Jean-Luc Picardtól hallhatjuk, amint az ételreplikátorból kéri a kedvenc italát.
A hangvezérlés már régóta izgatja az emberek fantáziáját és az első hangasszisztensek megjelenésével a fenti mondat akár a mi háztartásunkban is elhangozhatNA. Na de miért ez a feltételes mód?
Ezt beszéltük végig a hangasszisztensek kialakulásától kezdve napjainkig.
Kapcsolódó anyagok:
ELIZA, az első "chatbot": https://web.njit.edu/~ronkowit/eliza.html
A magyar nyelv nehézségét/szépségét tükröző versek: https://okosotthon.club/vers.html
Beragad a skót a hangasszisztenssel működő liftben: https://www.youtube.com/watch?v=NMS2VnDveP8
Amazon Silver (nem csak)időskorúaknak: https://www.youtube.com/watch?v=YvT_gqs5ETk
Itt kereshetsz minket: info@okosotthon.club
Nézz be a közösségünkbe is: Okosotthon Club
Hosztok:
Zsák Péter
Fabó Gergő
OkosOtthon Club
- Sziasztok! Ez itt az Okosotthon Klub következő adása. Itt van velem Fabó Gergő.
- Sziasztok! Sziasztok! Helló! Helló!
- Én Zsák Péter vagyok, és gyorsan csapjunk is bele a közepébe: a mai alkalommal a hangasszisztensekről fogunk beszélgetni. Hogyan jönnek ezek az okos otthonhoz, honnan indultak? Gergő, neked milyen sztorid van a hangasszisztensekkel?
- Én nem szeretem őket, el is mondom, miért. Nagyon az elejére megyek, vagy hát így nagyon a mai adásunk végére inkább így mondom, én Vandával beszélgetek. Nekem, én ugye Samsung párti vagyok, és ott van csodás Bigsby-nk, ami hát úgy rossz szerintem, ahogy van, tehát szörnyű. Sirivel szoktam beszélgetni - nekem nincsen Apple cuccom, de a közelemben vannak olyan emberek, akiknek van Apple cucca -, és Siri-vel néha beszélgetek, de nekem az is ilyen nagyon, bár vele még azért jobban ki lehet jönni, és amivel én leginkább találkozom, vagy legsűrűbben, ő Vanda, a Telekomnak az asszisztense, és egyszerűen gyomorgörcsöm, szekunder szégyenérzetem, és nem is tudom, annyi frusztráció előjön belőlem, amikor beszélgetnem kell ilyen, elmondom a helyzetet. Felhívsz egy szolgáltatót, és tudod, hogy egy gép, és próbálsz neki beszélni, és közben tudod, hogy amúgy nem, tehát nekem annyira ilyen nyakatekert ez az egész, úgyhogy én nagyon-nagyon nem szeretem a hangasszisztenseket, vagy hát eddig nem volt jó tapasztalatom velük, attól függetlenül ügyesek, okosak, nagyjából megértik, amit mondok, de nekem az érzés olyan nagyon fura. Hozzáteszem, nincs otthon Alexa-m, külön olyan bármilyen eszközöm, amivel én elindítanék dolgokat, az lehet, hogy más lenne úgy, de az, hogy nekem Vandának annak el kell mondanom, hogy Helló, figyelj, nincs net, amit még úgy meg is ért,de amikor azt próbálod neki elmondani, hogy a számlázással kapcsolatban van egy probléma, az már nekem nagyon nem. Úgyhogy én nagyon, hogy mondjam, ilyen furán állok a hangasszisztensekhez. Ja, igen.
- És chatbottal szoktál-e csetelni?
- Hát ők nem hangasszisztensek,
- Ez így van. De közük van egymáshoz.
- Igen. A nagyon-nagyon régen, én nagy chat.hu chat és cset.hu császár voltam még általános iskolás koromban, és ott is már voltak ilyenek, ha valamit beírsz, akkor arra válaszol. Aztán volt a chatbot.org vagy .hu nem tudom mi, akiről ugye, nem tudom, ez a 2010-es évek elején volt ő nagy menő, mert ott csomó olyan kép kijött, vagy beszélgetés kijött a netre, hogy elkezdték szidni, és akkor úgy válaszolt, és egyből ellened, meg mindent, azt nyilván kipróbálta az ember. Chatbotot - Hú, ez most nagyon nem lesz szakmai,- de hogy chatbotot már csináltam, ez így nem igaz.
- Konfiguráltál.
- Igen, egy nagyon alap chat-bot funkciót már létrehoztam. Dolgoztam már olyan céggel, akik kifejezetten chatbotokat csinálnak, azok nagyon ügyes dolgok voltak, beszélgetek igen politikusok chatbotjaival a Facebookon, meg amikor kijön valamilyen szolgáltatónak chatbot funkciója, azt azért ki szoktam próbálni, de hát hogy mondjam, még arra azt mondom, hogy az talán úgy kezelhető, vagy annak úgy több értelmét látom, vagy nem is az, hogy több értelmét látom, hanem sokkal jobban látom mögötte az emberi mivoltát a beszélgetésnek, mert hogy azt valaki előre nekem odaírta, és akkor úgy jön a válasz, de amúgy nem ... Találkoztam már vele nyilván, meg mondom, dolgoztam is olyan céggel, akik komolyan foglalkoznak chat-botokkal, elég menő chat-botokkal, például szegedi fejlesztésű, a ZALEHY-ék például a MÁV-nak nem a hivatalos, vagy most már lehet, hogy a hivatalos chatbotját ugye ők csinálták meg. Lekérdezte ezt minden infót, hogy mi a menetrended, mikor jön a vonat, ezt ugye itt Szegeden fejlesztették, meg ez a csapat fejlesztett nagyon sok másik chatbotot, ezekkel én sűrűn találkozom. Sőt, a Netflixnek is csináltak egy chatbotot. Ugye ezeket úgy csinálják, hogy nem felkérésre, hanem saját maguk szórakoztatására, és hátha megveszi a nagy cég, és a Netflixnek csináltak, na, az nagyon jó volt. Ott nyilván az volt a lényege, hogy amit amúgy Netflix alkalmazásból kikeresgélnél, ezt nem magán az alkalmazáson keresztül keresed ki, hanem egy chatbot rendszeren keresztül és sokkal lényegibb és hogy mondjam, ilyen célzott információkat kaphatsz meg, mert ugye én a Netfix algoritmusát annyira nem szeretem, hogy milyen filmeket ajánl nekem, de ha ezen a chatbookon keresztül keresgéltem, akkor azért az úgy jobban működött, úgyhogy a rövid válaszod igen, szoktam chatboltokkal beszélgetni.
- Na de miért kérdeztem ezt a chatboltot? Azért, mert ha megnézzük, akkor az Alfája és Omegája az összes hangasszisztensnek, azok a chatbot funkciók. Anno 1960-as években fejlesztették ki az ELIZA nevezetű, nevezzük chatbotnak, igazából ez egy tudományos kísérlet volt eredetileg, amit utána átültették, és a RadioShack-ban kapható számítógépek, a RadioShack az USA-ban volt a, nem is tudom minek nevezzem, Keravill, mondjuk hívjuk így, nagyjából ennek lehetne megfogalmazni, csak ott nagyon menő számítógépes cuccokat és egyebeket lehetett kapni, és az ottani számítógépeken jelent meg először ez az ELIZA, tehát a végfelhasználók is tudtak vele beszélgetni. Nyilván ez kezdetben nagyon minimális dolgokra ment ki, viszont ő adta meg utána a szöveges kalandjátékoknak az alapját, mint azok is igazából, ha azt nézzük, chatbotok ilyen szinten, olyannyira, hogy azokat adták vissza. Ebben egyébként Magyarországon azért eléggé vezetők voltunk, bár nagyon sok nemzetközi ilyen chatbot jellegű játék volt, de azért ott voltak a Rátkai-féle hihetetlen, Commodore 64-re és a többi platformra, akkori platformon megjelent szöveges kalandjátékok. Na, ezek mind ezt a chatbot funkciót használták ki, már volt mondatfelismerés, ige van vagy izé, mi a tárgy és hasonlók. Ezek nagyon fontos paraméterek ahhoz, hogy kialakuljon majd később tényleg a hangasszisztens. Az első ilyen hangfelismerés, ez még a chatbotoktól, meg a hangasszisztenstől nagyon messze áll. A hangfelismerés az a '60-'70-es évek környékén volt. Az IBM nagyon -most is, meg akkor is - nagyon nyomult ezzel a hangfelismeréssel, hangszintetizációval, és akkor csinálta meg az első olyan számológépét, amibe be tudtad mondani, hogy öt meg négy, és akkor még csak kiírta, hogy mennyi az eredmény, aztán utána elkezdtek közösen fejleszteni mindenféle egyetemekkel. Most puskázok a dátumról. Az első hangfelismerő írógép az IBM-től. Ugye ez a Speech-to-Text kategóriájú. Az egyik lépés, amikor a hangot szöveggé alakítjuk, és a megértett szöveget utána mondattá próbálja alakítani, és az alapján próbálja kiszűrni, hogy az adott szó, amit érthet, az valóban ahhoz áll-e közel. Ugye ilyet láttunk már egyébként, hogyha diktálunk mondjuk bármelyik ilyen diktálós felületen, vagy Google Translate-ban vagy hasonlók, hogyha diktálunk, akkor ő cserélgeti a szavakat annak megfelelően, hogy a szövegkörnyezet, a kontextus hogy néz ki. És az első, nevezzük hangasszisztensnek, a '90-es években jött ki Virtual Personal Assistant-nek nevezték az IBM Simon nevezetű cuccát, ami igazából a Speech-to-Text-et kombinálta Text-to-Speech-csé, tehát egy hangszintetizátora volt, amíg már megszólalt, azért a mostani asszisztensekhez képest nagyon limitált volt a tudása, de lehetett tanítgatni. És utána a 2000-es években, amikor az internet elterjedt úgy nagyjából globálisan, akkor jöttek az első chatbotok, amik végül is ezekre a funkciókra építettek, ezek kifejezetten írásban próbáltak kommunikálni, és itt tényleg a rögzített szöveget próbálták visszaadni, felfedni az adott kulcsszavakat a mondatban és azokra válaszolni, ahogy azt mondtuk, a szöveges kalandjátékok esetében is így volt. Nagyjából tíz évet kellett várnunk, mert 2010 februárjában jelentette be az Apple - ugye két évvel később, mint ahogy kijött egyáltalán az iphone-nal - hogy létrehozott egy Siri nevezetű alkalmazást, amit fel lehet telepíteni a telefonokra. Majd ebben az évben, októberben megjelent a 4S, ami már rendelkezett beépítve a Sirivel, ő volt az első ilyen jellegű hangasszisztens, ami már felhőben végezte ilyen szinten a számítást. Ugye ha azt nézzük, a chatbotok is valamilyen külső számítógépen végezték, de az a számítógép nem arra volt dedikálva kifejezetten, hogy csak ezt a chatbotot lássa el, míg a Siri esetében az első ilyen felhős mikroszolgáltatásokra épülő megoldás volt, ami tényleg 100 százalékban oda települt ki és arra épült fel, hiszen miután kihozták a Siri-t, hamarosan megjelent az Apple Home Pod is, mint okoshangszóró, hívjuk így.
Minek hívhatnánk egy hangszóró egyébként, ami semmitől nem lesz okos, merthogy benne nem sok okosság van. Ami most már nem annyira igaz, tehát a Home Poad Mininél már vannak olyan funkciók, amiket lokálisan képes végrehajtani. Itt a hangfelismerésre és válaszadásra is értem. De általában ezek a hangszórók, mondjuk így, rendelkeznek több mikrofonnal, hogy meg tudja állapítani, hogy milyen irányból szóltak hozzá, és nyilván, hogy minél jobban értse, hogy mit mondtunk, meg rendelkeznek egy hangszóróval, illetve egy minimális elektronikával, ami biztosítja azt, hogy ez az eszköz hálózatra tudjon kapcsolódni, esetlegesen meghajtson külső hangszórókat, tehát hogyha hangrendszerre akarnánk kötni, illetve felismerje azt, hogyha neki szólunk. Tehát, ha megnézzük a hangasszisztenseket, mindegyik hangasszisztensnél igaz, hogy ugye nem úgy működik, mint mondjuk a Vissza a jövőbe tipikus részébe, amikor elmennek 2015-ben, és nincsen hívószó abban az esetben. Megnézed, a korábbi filmekben is ez volt, hogy nincsen hívószó, csak azt mondják, hogy kapcsold fel a lámpát, meg hasonlók, és akkor ugye úgy gondolták, hogy ez így fog működni. És miért van hívószó? Hát, több okból is. Az egyik az, hogy ha felhőbe akarjuk végrehajtani, akkor mindenkinek folyamatosan a szövegét fel kéne tolnunk, ami elég nagy sávszélességet jelent. Nézzük ebből az oldalból, hogy ebből az oldalból csak az elhangzott hívószó utáni részt vesszük föl. A másik meg az, hogy azért sok félreértést okozhat, hogyha ő csak úgy hallgatózik, és akkor mindenféle parancsot, amit ő kikap onnan a szövegkörnyezetből, szóljon a rádióból, tévéből, felolvasás, egymás közötti beszélgetés, végrehajtaná. Ezért jöttek elő a hívószavak, és ezeket a hívószavakat lokálisan tárolja. Ha megnézed a gyártóknak a hívószavait, akkor általában véges számú lehetőségből választunk, általában négy-öt hívószó van, amiből lehet választani, és itt lehet variálni, hogyha valakinek valamiért az egyik nem szimpatikus, vagy az ő környezetében többször elhangzik. Ilyen például, ugye hát alapból, hogyha most itt a mikrofonba beletolom a Síri, az Alexa, vagy a Google nevét, most direkt nem mondom a teljes hívó szót, mert akkor mindenkinek pütyögne az eszköze, hogyha nem úgy van beállítva, akkor ezek közül, ha valamelyik nem tetszik, lehet cserélni, illetve ugye az egyes hangasszisztenseknél vannak ezek a menőségfaktorok, tehát lehet Jarvis-nak hívni, például Google-nél, akkor ugye az Alexa-nál lehet computer-re, és akkor Star Trek-re lehet utalni vele. Tehát hogy ezeket a geek az ember geek énjét próbálják cirógatni ezzel, hogy nem tudsz bármilyen nevet adni egyelőre ezeknek a megoldásoknak. Úgyhogy eljutottunk odáig, hogy megjelent az Apple-nek a megoldása, kezdetleges volt, nem nagyon értett semmit sem, de ott volt a telefonon. For free, idézőjelbe téve, tehát ingyen kaptad a megoldást, nem kellett előfizetni rá semmit, és ez adta a lökést, ez a lépés adta a lökést, hogy tizenkét évvel később, ha azt mondom, hogy hangasszisztens, akkor nem néz ki senki sem rám úgy, mint a sült hal, hogy én most miről beszélek. Lehet szeretni vagy nem szeretni, de az emberek tudnak róla. Tehát, hogy a hétköznapnak valamilyen szinten részévé vált. Ha mást nem, felhívunk valamelyik szolgálatót.
- Igen, igen.
- És ott egy ilyen hangasszisztens veszi fel és pótolja az embert kb. 20 percig, mire sikerül kiküzdened, hogy akkor most tényleg ügyfélszolgálatossal intézd el azt a teendőt, ami egyébként lehet, hogy húsz másodperc lenne, de nyilván ez egy filter a szolgáltató szempontjából. Számos olyan humánerőt megspórol vele, amit egyébként nem lehetne kihagyni. És a hangasszisztenseknek attól függ, hogy mire használjuk őket. Nyilván ez az egyik célja is, hogy az életünket könnyebbé tegyék. Ha jól működnek.
- És itt kapcsolódik az okosotthonos történethez is, hogy a hang vezérelt otthon, az nem okos otthon lesz. Ugyanúgy, mint a távirányítós otthon sem lesz attól okos otthon. Mert hogy ezeket úgy kell alkalmaznunk, és a hangresszisztenseket is be lehet jól lakni. De ugye nálunk a legnagyobb probléma az, hogy jelenleg, amikor felvesszük ezt az adást, 2022, ha netalántán véletlenül holnap kihoznának egy hangasszisztenst, szóval nincsen olyan magyar nyelvű hangasszisztens, TTS és STT szolgáltatások vannak, de 100%-osan működő magyar hangasszisztens nincsen jelenleg a piacon. Mindenféle magyar startup fejlesztések vannak ebben a témában egyébként, illetve a nagy gyártók is adnak bizonyos jeleket rá, hogy aktívan dolgoznak ezen az irányvonalon. Nyilván a magyar nem lesz az első ötben, amire ki szeretnék hozni, de meg fognak jelenni ezek a hangasszisztens irányultságú megoldások is, már csak azért is, mert ugye most is az egy újabb adás témája lesz, hogy a hangasszisztens és a tanuló algoritmusok, illetve mesterséges intelligencia hogyan kapcsolódhat ebbe bele ebbe a képbe. De menjünk vissza a Siri-re, hogy utána megjelent ugye az Amazonnak a megoldása ilyen szinten, majd megjelent a Google, még mindig el nem nevezett Voice assistant-je, vagy GAssistance-nek szokták még nevezni, mert hogy neki nincsen se neme, mert gendersemleges. sem pedig neve nincsen, úgyhogy most maradt ez a krumplis zsákba csomagolt szerencsétlen kisgyerek, akiről nem tudunk semmit se, kategória. Mi erről a háromról szoktunk tudni általában itt a régióban. Ez a három, amivel találkozunk, de ezen kívül egyébként rengeteg hangasszisztens van, ha csak tényleg Vandára utalunk, ami kifejezetten egy üzleti megközelítés, és üzleti hangasszisztensekből nagyon sok van. Elsősorban ez az ügyfélszolgálati kommunikációs megkönnyítése a cél, vagy olyan esetekben, amikor nem lehetséges valami miatt kézi beavatkozás, tehát gombnyomogatás vagy hasonló. Ez több okra vezethető vissza, de lehet, tehát ilyen megoldásokat. Próbálkoznak nyilván egészségügyben, ahol mondjuk egy műtét közben az orvosnak nem kell nyomkodnia kézzel a dolgokat. Nyilván nem azt fogja mondani, hogy most itt metszél, mert rosszul érti, és akkor valami mást csinál, tehát nyilván nem ez a cél, de mondjuk azzal, hogy ő most a fényeket tudja állítani, vagy a levegőt tudja állítani, tehát a körülményeket tudja magának állítani vele, abban tud segíteni ez az irányvonal. Ezeket ne úgy képzeljük el, mint az általunk használt kis hangszórókat, hanem azért emögött lényegesen komolyabb felszerelés, komolyabb technológia, speciális technológiája áll, hiszen egy hétköznapi eszköztől mindent kérhetünk, amik itt azért nagyon-nagyon irányzottan csak szakszavak hangzanak el, sokkal jobban lehet ezeket pontosítani, és sokkal jobban el lehet menni a chatbotos irányba, ami ugye a hangasszisztenstől már inkább messzebb áll, és ez inkább hangparancs, hangutasítás irányban megy el. Ugye a kettő között van különbség.
- Igen, és akkor van az, amikor ez az egész összefolyik, hogy valamilyen gép beszél hozzád, de ha te beszélsz hozzá, akkor ő nem fog válaszolni, csak beszél hozzád, lásd, bármelyik nagyáruháznak az önkiszolgálós része. Én rendszeresen találkozom azzal, hogy ugye mit tudom én a Tesconak, ő beszél hozzád, hogy kérem, így indul, kérem a klubkártyát, meg mit tudom én, és nagyon sok ember, akivel én együtt szoktam vásárolni, mármint hogy így mellettem állnak, ők beszélnek vissza, és hogy így tudod, ez a miért beszélsz hozzá? De ha most ezt így nagyon szépen levezetted, akkor végül is tök logikus, hiszen annyira már itt van köztünk, hogy valószínűleg azt hiszi, hogy aki beszél hozzá és gép, annak lehet mondani bármit, hátha tudni fogja. Bár mondjuk itt nem, vagy hogy mondjam, a tapasztalataim alapján nem a legfontosabb parancsok szoktak visszaverni, hogy ne csináld, ne csináld! Hol van? Micsoda? Általában ez szokott lenni, és akkor utána az emberi beavatkozás, hogy jöjjön, legyen kedves, amit most így elmondtál, az a legdurvább ebben az egészben, hogyha tényleg megnézzük azt, hogy egy parancsot adni, mint mondjuk a chatbot-nál, mert ott ugye egy logikai hálót építesz föl, hogy nagyjából milyen kérdésre.mi? Na, akkor itt most mondok valamit, mert eszembe jutott, hogy én nem is chatbotot, hanem egyszer csináltunk a szegedi egyetemnek egy kampányt pár évvel ezelőtt, aminek az volt a lényege, hogy egy ilyen ügyfélszolgálati rendszert hoztunk létre a felvételizőknek, és hogyha ő felhívta az adott telefonszámot, akkor nem egy ügyfélszolgálatossal beszélt, hanem egy konkrét hallgatóval, és az, hogy eljussál ehhez a hallgatóhoz, mert ugye mit tudom én, tizenkét kar van, meg mit, az hát ugye, mint az ügyfélszolgálatnak, nyomja meg az egyest. Na, azt például én egyszer összeraktam egy ilyen logikai hálót, hogy ha itt van a kiindulópontnál, hogy jut el oda, ahova ő szeretne. És ugye ez egy logikai hálónak az összerakása kell ehhez, egy ilyen fát kell rajzolni, ami, hogy mondjam, én is meg tudtam csinálni, tehát egyszerű. Egy chatbotnak az összerakása is ebből a szempontból egyszerű, de egy hangasszisztens, aki ugye egyrészt figyeli azt, hogy én mit akarok, mit mondok neki. A beszéd az nem olyan, mint a leírt szó, hogy ott van egy karakter, vagy a karakterek összessége ad neki, hanem egy beszédből kell felismerni. Nekem a legdurvább ilyen élményem, amikor real time fordít mondjuk a Youtube és a mondatból szedi ki az egészet, miközben tudom, hogy azt már előtte is leellenőrzik, meg azért ott átmegy egy csomó szűrőn, de hogy az azért kemény, hogy milyen pici hibaszázalékkal, tehát hogy egy ilyen hangasszisztensnek azt is kell figyelni, hogy én mennyire beszélek tájszólásosan, meg mennyire ejtem ki normálisan a szavakat. Egyrészt meg nem egy általa birtokolt tudásanyagból kell neki kimazsolázni a dolgokat, hanem pont emiatt a felhő szolgáltatás, tehát ha én megkérdezem, hogy milyen az idő kint, neki már a netről kell leszednie, hogy a világ, tehát mi lesz ma a moziban? És hogy ebből ő tudja, hogy hova kell menni, mit kell megnéznie. Tudom, hogy ez is valószínűleg egy viszonylag egyszerű kód-sorozat, de hát azért a '60-as évekből eljutni idáig, és hogy ez most már annyira hétköznapi, azért ha belegondol az ember, hogy ez mennyire, ha nem is gyorsan, de azért egy bummal fejlődött ez az egész, és hogy ebben megint mennyi lehetőség lenne még benne, hogyha egy picit megint odafigyelnének arra, hogy mire van szüksége az embernek. Ugye az előző adásban pont a hűtő, mint központ.
- Mi értelme van. Itt is, hogyha tényleg arra vagy elkezdenék az emberek igényeit felfogni. Szerintem amúgy ezek közül, amit felsoroltál, szerintem az Alexa az, aki így a legjobban tudja ezt az egészet kezelni. Viszont ugye ott is leginkább az üzleti érdek az, ami mozgatja, mert kérdezhetsz tőle bármit, de ő mindig átvisz az Amazonra.
- El akar valamit adni neked.
- Egy porszívó ügynök van a lakásban.
- És nem pedig porszívó menedzser.
- Rossz porszívó ügynök van a lakásodban, aki ráadásul lány. Szóval, hogy így, ja, de nagyon durva ebbe belegondolni, hogy hova fejlődött, és hogy ennek milyen technológiai finomságai vannak, mert beszélsz hozzá, meg szidott Sirit, de, amúgy az, hogy felfogja, meg én nagyon szeretem, mint most, szerintem elmondhatjuk, hogy itt egy homepod minivel szórakoztunk itt adás előtt, és nekem a Siri-nél a kedvenc funkcióm az a Lumos, tehát az egy olyan finom fricskája az egész technológiai és popkulturális világnak, hogyha azt mondod neki, hogy Lumos, akkor felkapcsolja a vakudat, hogy na ezeket a finomságokat én nagyon szeretem, amikor ezt a technológia berántja, de az, hogy én most velük éljek, meg rájuk bízom az életemet.
Hát az már kérdéses.
- Abszolút. Ha megnézzük az asszisztenseket, akkor mögötte azért, és itt tegyünk különbséget a hangvezérlés és a hangasszisztens között. Ugye a hangvezérlés esetén van valamilyen rögzített hangminta, semmi más nem történik, mint a hangmintát fogja, és a most felvett hangmintát összehasonlítja a korábban felvett hangmintával, és ha ebben magában mintázatban egyezés van, és itt lehet szűrni ugye arra, hogy most teljesen egyezzen meg a hangja, tehát a beszélő ugyanaz legyen, vagy csak maga a hang, amit kiadtunk, az hangozzon ugyanúgy, de az mindegy, hogy kimondja. És itt azért fontos, mert ezeknél ha azt rögzítem, hogy nyisd ki az ajtót, akkor nem mondhatom, hogy az ajtót nyisd ki, vagy nyisd már ki, ezt nem fogja érteni, merthogy ott kötötten az, akár fütyülhetünk is kategóriájú megoldás van, tehát az a hangmint aa,mit rögzített, az hasonlítja össze, ha ahhoz rendeltünk valamit, akkor azt végrehajtja. A hang asszisztens esetében, és itt jön elő az, hogy ez nem csak sima programozás, hanem ez már szemantika is. Itt a nyelvészet nagyon keményen és a nyelvészet matematikával összefon.
- Szerintem ezért nem lesz soha rendes magyar izé, mert annyira bonyolult a magyar nyelv, hogy az valami elképesztő.
- Egyébként, ha belegondolsz abból az irányból, hogyha mondjuk a kivételeket nézzük, akkor az angol abból a szempontból nehezebb, hogy sokkal több kivétel van, de azt be lehet adni egy szótárba. A magyar esetében ugye általában ott jönnek, hogy teljesen más megközelítést kell alkalmaznod, és én most nem csak arra gondolok, hogy agglutináló nyelv, tehát hátulra ragasztjuk a dolgokat.
- Pontosan.
- Az csak egy dolog.
- Mert talán az az egyik legnehezebb.
- De matematikailag általában ez megfogható. Tehát abból az irányból nézed, az viszonylag logikus, hogy mit hogyan ragasztasz, de utána jönnek megint a kivételek, meg jönnek a szinonimák. Tehát azt, hogy azokat a finomságokat, amiket mondjuk kifejezel, és a magyar költészet erre épül. Tehát, ha megnézed a magyar szinkronipart, tehát egy teljesen hétköznapi filmből, mint az Asterix és Obelix-ből, ami egy középszintű francia
- Képregény film.
- Hát igen, amit egy élőszereplős képregényfilm, lehet egy olyan geges akármit összehozni, mert azokat a fricskákat azon kívül, hogy rímben van írva, de azt, hogy a szavaknál van egy vers, azt majd berakom a Show notes-ba, hogy azt, hogy az ember halad előre, azt hogyan lehet mondani, hogy a meggy, szalad, mászkál, járkál, és ebből van ötvenkét szavunk arra, hogy az ember hogyan halad előre, és ennek mindegyiknek, hogyha halljuk, akkor ezt magunk előtt látjuk, és tudjuk, hogy mi a különbség közte. Na, ezt viszont nemcsak hangasszisztensnek, de mondjuk, ha valakit tanítasz nyelvre, akkor is nagyon nehéz visszaadni. Most gondolj bele, hogy ugyanezt mondjuk egy tanuló algoritmusnak kell visszaadni.
- Nem, én magyar nyelvűként nekem nehéz volt a magyar nyelvet megtanulni. Nem is hiszem, hogy rendesen megtanultam, szóval nekem evvel mindig problémám volt, és életem végi problémám lesz, és tényleg ebbe belegondolni, hogy ezt valahogy megértesd azzal a géppel, hogy helló, ez így van.
- Így van, tehát szabályokat kell hozni, az, hogyha mondunk egy mondatot, és itt jön elő az élő szöveg, most vesszőt raktam, hogy amíg írásban vagy, amikor leírsz, azt végiggondolod, mondatokban fogalmazod meg. Most ezt a beszélgetést tapasztalatból tudom, hogyha ezt rábízom egy alorlitmusra, hogy írja le, amit beszélgetünk. Szóval ezt a beszélgetést, hogyha leírom, akkor annyi töredék van, hogy nehéz megtalálni, hogy ez a mondatnak ez a része, ez az eleje, ez most összetartozik, ez a részét most éppen kimaradt, mert közben egy gondolatot váltottam, amit az emberi agy kiegészít, hogy annak ott van a vége, és tudjuk, hogy ott van, de ezt meg kell értenie a mesterséges intelligenciának. Tehát, hogy egy élő szöveget, és itt jön elő a feliratozás, amit mondasz, és ha megnézzük, hogy közben mennyit javít pont megint csak a szövegkörnyezetből. Itt jön elő az, hogy egy élő szöveget sokkal nehezebb kezelni, mint egy írott szöveget, függetlenül attól, hogy normális esetben ez csak hangfelismerés lenne, amit leírsz, de mégsem, mert az a szöveg, amit leírsz, azt közben végiggondolod, mondattá fogalmazod, leírod, még amit mondasz, az kijön a szádon idézőjelbe téve, jobb esetben azért az embernek van valami elképzelése arról, hogy mit mond, rosszabb esetben tényleg csak minden kijön. De nem véletlenül tanítják egyébként az előadási módokat is, hogy hogyan kell előadni.
- Ahogy átadd rendesen az üzenet, hogy én evvel küszködök nagyon sokszor, és szerintem itt ebben a podcastban is, de más podcastban is, meg máskor, amikor így beszélek, hogy nekem mondjuk két gondolattal előrébb jár a gondolkodásmódom, és nagyon sokszor van olyan, hogy elkezdek valamit, és ugrok, és ugrok, és amikor visszahallgatom magam, ó, mondom, Jézusom, hogy ott miért nem fejeztem be azt, amit akartam. Igen, evvel nagyon. Én például küszködök ezzel. Jó, mondjuk nem folytatok akadémiai beszélgetéseket ezekkel a hangasszisztensekkel. Jó, meg akkor is, hogy megértse azt, amit mondok. Nagyon le kell butítani, nem tudom, egyszerűen kell kommunikálni, mint manapság a politikusaink, vagy nem is tudom. Velük lehetne gyakoroltatni a hangasszitenseket.
- Egyébként ez egy érdekes téma, és hogy mennyire nehéz is ez a történet, ha megnézitek, az Amazon egy jó példa, már csak azért is, mert hogy vicceket is rá szoktak elsütni, hogy mennyire nem érti azt, hogy mit mondasz. A másik meg azt, hogy ugye hány fajta dialektust ért például angolból. És tipikus viccek a beragad a skót a liftben, ahol hangasszisztens van, és ebből rengeteg videót és egyebet is meg lehet találni. Pont az a probléma ilyenkor, hogy ha nincsen beavatkozási lehetőséged, módosítási lehetőséged. Sokszor, sokkal egyszerűbben, egy gombnyomással megnyomjuk a falon a lámpát, ahelyett, hogy arról győzködnénk, hogy kapcsold már fel azt a nyomorult lámpát a nappaliban, ne a vécében, ne az olvasólámpát és föl. Tehát, hogy emiatt lehet őket jól használni, csak tudni kell, hogy mikor és hogyan, és amit mindig megbeszéltünk már korábban is, és azt azért mindig elmondjuk, hogy olyan, ami faék egyszerűségű és működik, azt azért lecserélni valamivel, ami bonyolult és nem biztos, hogy működik, nem szabad. Mellé odarakhatjuk, tetszik nekünk, lehet azzal is, de hagyjuk meg a lehetőséget, hogyha valaki kapcsolóval szeretné felkapcsolni a lámpát, akkor kapcsolóval is kapcsolja fel. Egy ideig nagyon fancy, de aztán rájön az ember mondjuk, amikor éppen megy haza és nem szeretné a családját felébreszteni, hogyha üvölt Alexával, mert nem érti, hogy mit mond, akkor az sokkal rosszabb lesz.
- Hát igen, most én is abba gondoltam bele, hogy igazából csak az ilyen nagyon extrém és nagyon nem mindennapi dolgokban jöhet jól ez a segítség, de most az, hogy nekem valaki kapcsolgassa a lámpát úgy, hogy beszélgetek vele ahelyett, hogy már nekem az is okos megoldás, hogy ott nem kell elsétálnom a falig, hanem a telefonomon megnyomok egy gombot, az nekem már sokkal egyszerűbbnek tűnik. Meg tudod, pont ezt a példát szokták hozni mindig az ilyen asszisztenseknél, hogy reggel felkelsz, és akkor ő képbe hoz mindennel. Aminek úgy látom is értelmét, hogyha neked fontos valamilyen információ a nagyvilágból, hogy amíg fogat mosol, meg amíg csinálod a kávédat, addig ő elmondja ezeket a dolgokat. Ez tök okés. Vagy, nem tudom, most mondok egy nagyon idétlen példát, de mondjuk, ha valaki figyeli jobban a tőzsdét, vagy az árfolyamokat, és hogyha valami történik, akkor ő azt napközben bemondja neked, de csak egy bizonyos intervallumokban, mert nyilván nem figyelsz, nem ülsz állandóan a monitor előtt, de ha valami történik, akkor ő szóljon, arra azt mondom, hogy tök okés. De az, hogy kapcsold már föl a lámpámat, légy szíves, nem. Meg ugye ez is olyan, hogy ha mondjuk ezt a példát vesszük, hogy szóljon nekem, ha valami történik a nagyvilágban, az sem az, hogy én szólok neki, hogy szóljál, hanem én azt előre beállítom, valószínűleg nem elmondva, hanem begépelem neki, vagy bekattintgatom ezeket a lehetőségeket. Ez így tök okés, de az, hogy nekem ezért van a Vandával bajom, hogy tudom, hogy nincs ott senki a másik végén és rosszul érzem magam beszélgetni vele, hiszen ő nem valaki, hanem...
- Sokkal kézre esőbb lenne neked ezt begépelni, megnyomni egy gombot.
- Igen, igen. Én például nagyon, én szörnyen nem szeretek telefonálni. Én inkább leírom, nem tudom, valamiért ez ilyen régi berögződés, de én nem szeretek telefonálni, de ha lehet, mindig kikerülöm, inkább e-mail, inkább messenger, inkább ez az, amaz. És amikor tudod, alapjáraton én tartok attól, hogy Vanda mit fog megérteni abból. Közben meg tök ügyes, meg jól lehet vele beszélgetni, és ilyenkor én mindig abba gondolok bele, hogy no offense nélkül, de hogy mondjuk így nyugdíjasok hogy beszélgetnek vele, érted, akik szerintem fel se fogják, hogy ott ők most nem valakivel, hanem valamivel beszélgetnek. Valószínűleg azt is megérti, csakhogy nem tudom, ebben van egy ilyen nagyon para a helyzet, hogy így jó, és így. Ja, meg az a legviccesebb, hogy ugye múltkor nem tudom, valami bevásárlóközpontban kellett Vandával beszélgetnem. Mások nézik, hogy én telefonálok, de idétlenül telefonálok, mert nem összefüggő mondatokban, hanem csak...
-Néha mondasz valamit.
- Igen, nem. Telefon szolgáltatás. Tehát nem értelmes mondat. És ezt tudod, kívülről úgy nézhet ki, mintha egy gyökér beszélne egy másik gyökérrel. Ráadásul ez, hogy nem úgy beszélgetsz, mint egy rendes ügyfélszolgálatossal. Én azért ott egy kicsit szoktam őket így, hogy mondjam.
- Kicsit cirógatni
-Igen, hogy á, tudom, hogy nem a te hibád, te csak ott ülsz és próbálod megoldani a dolgaimat, de ha már ott ülsz, akkor elmondod neki.
- Vandával ezt ugye nem tudod megcsinálni. Elmondasz neki pár szót, és te érzed magad hülyének, hogy fogod a telefont, és internet szolgáltatás. Szóval nekem van egy ilyen rossz érzésem ezzel kapcsolatban. Most még, aztán lehet, hogy ha megnézzük, hogy 12 év alatt ez mennyit fejlődött.
- Hát megnézzük ugye a Google-nek a kezdeményezését. Ugye ezt pont a Covid elején jelentették be. Ugye, ott 2019 végére tervezték, Covid elején jelentették be azt a szolgáltatásukat, ahol kvázi pont fordítva csinálják, tehát, hogy az automata felhívja az éttermedet, és ott megpróbál úgy beszélni, hogy átmenjen a Turing teszten, ugye a Turing teszt volt anno az az elképzelés. Sokszor utána el is mondták, hogy miért nem jó az úgy, de az elképzelés, hogyha te beszélgetsz valakivel, és bizonyos idő után nem derül ki, hogy az illető automata, tehát hogy valamilyen előre megírt válaszokat, vagy általa kombinált válaszokat ad, és nem pedig ember, akkor az a megoldás átmegy a Turing teszten. Ezt azért azóta már sokat finomították, meg sokat bele is kötöttek, hogy az miért nem jó úgy, ahogy van, ennek a mérésére, de hogy belegondolva éppen ez az irányvonal az, amiben ők tudnak segíteni, tehát hogyha valaki mondjuk valamilyen szinten, nem azért, mert én most nem akarok valakivel beszélni, hanem mondjuk siketnéma vagyok, tehát én csak gépelni tudok, stb. Az tud segíteni, mondjuk azt, hogy felhívja az adott fodrászt, és leegyezteti a fodrásszal az időpontot. És erre volt például ott példa, amit bemutatott a Google is, hogy a túloldalon lévő nem tudta, bár az elején elmondta, hogy én a Google asszisztense vagyok, nem élő személy, de látszott, hogy úgy beszélgetnek vele, mintha valós személlyel beszélgetnének, mert hozta azt a dinamikáját a beszélgetésnek, nem szakította meg, nem az volt, hogy most egy automata vagyok és várom a válaszodat közben, hanem tényleg volt egy dinamikája a beszélgetésnek, és ahhoz alkalmazkodott. És ez kell egyébként ahhoz, hogy eljussunk odáig, hogy valóban beszélgetés legyen, nem pedig ezek a rövid hangutasítások, amiket most adunk nekik.
- Jaja, meg hát visszatérve egy kicsit az otthonunk részére, hogy nem tudom, ettől mi lesz okosabb, bármi is, hogy én most elmondom neki. Például ugyanaz a tévém, tehát, hogy a Samsung tévém van, van hangutasítás benne. A büdős életben nem beszélgetnék a tévémmel.
- A legjobb, ugye az Amazonnak is van az Amazon Fire TV-je, és ezt úgy valósították meg, hogy a HDMI kábelen keresztüli kommunikációval tudja a tévét is irányítani. De nem raktak a távirányítóra gombot, hanem egy mikrofont raktak rá, és otthon kipróbáltuk, és akkor kapcsoljuk át másik HDMI csatornára, mert a gyerekek éppen játszani akartak a konzollal. Na, erre nincsen semmilyen képernyő utasítás, meg be kell mondanod neki, hogy "Alexa Switch to console", és akkor kapcsol át. Na most mennyivel egyszerűbb megnyomni egy nyomorult gombot azon a távirányítón, minthogy beszélgetni hozzá úgy, hogy mondjuk közben, tehát hogy este van mondjuk tegyen fel, saöbbi. És akkor üvöltözöl megint csak a tévét, de hogy kapcshogy már át akármire, tehát megint olyan funkciót hagytunk el, ami egy jól bevált funkció volt, oké, ha akar, legyen hozzá hangvezérlés, mert neki az tetszik, de az alapfunkciót ne vegyük el. Okos otthonnál is ez van, tehát saját gyerekemen látom, hogy ők szeretik, hogyha mondjuk hangutasítással tudnak valamit csinálni, mert nem tudnak írni meg olvasni. Ebben az esetben jól lehet, hogy azt a gátat áthidalja, hogy őneki most el kelljen olvasni, hogy mit kell megnyomnia stb. Elmondja, hogy mit szeretne, és akkor reagál rá az adott eszköz.
- Igen, ezért van például rengeteg olyan videofelvétel, hogy gyerekek, ők jól elvannak ezekkel az asszisztensekkel, kapcsold be az izét, ez a zene induljon el.
- Így van.
- Így van.
- És ez tök jó. Tehát nem tudom, az én telefonomon hányszor használtam a bigsby-t, szerintem a legelején.
- Ja, jó, oké, tudja.
- Kipróbálja, az kész, megyünk tovább.
- Most azon gondolkozom, hogy tudod, hol tudom elképzelni leginkább ezt majd, hogy ennek majd lesz jelentősége majd amikor a metaverzum.
- Hát az egy másik, így van.
- Megérkezik.
- Oké, nem, hogy nem az okosítás része.
- Nem, nem, nem. A kommunikáció része.
- A kommunikáció része, hogy ugye ott
- Nincs fizikai felületed.
- Igen.
- És nagyon gombom sincsen.
- Igen.
- Oké, lehet, hogy valami lesz a kezedben.
- De limitált.
- Igen.
- Nem rakhatsz egy billentyűzetet magad elé.
- Pontosan. És ott viszont lesz lényegi eleme. Szerintem arra nagyon jó lesz, de a való életben, vagy így az offline, ebben a verzumban nem nagyon.
- Nem tudom, oké, most mondtad, hogy ti arra használjátok, hogy mondjuk a gyerekek, meg a gyerekek, de hogy te ezt használod ilyenkor?
- Ott használom, és tipikusan ezek a jó felhasználási megoldásai, amikor koszos a kezed, nem tudsz odanyúlni hozzá. Valami mással vagy elfoglalva. Tehát én mondjuk a vezetés közben megyek hazafelé, és mondom neki, hogy figyeld már, nyisd már ki a kaput, és nem kell keresgetni, nyomkodni a gombot, hanem ő kinyitja, az egy kényelem pluszolgáltatás. Ott van a távirányító, ugyanúgy, hogyha szeretném elő tudnám kezelni, stb. De ez sokkal egyszerűbb, nem kell nyúlkálni, megérti, kész. Ugyanez mondjuk egy főzésnél. Figyelj már, akár indítsd el ezt meg azt, mert én közben főzök, tele van a kezem, koszos vagyok, nem nyomkodok semmit, tehát megint csak az orvos irányába megyek vissza, vagy a munkásnak mondjuk, akinek mondjuk valami felületen kell valamit csinálnia, és ott viszonylag egyszerű paranccsal el lehet, ott igen, de én sem szoktam ilyen szinten beszélgetni velük, hangvisszajelzésre alkalmazom őket, amit mondtál az elején, hogy nálam például reggel elmondja, hogy milyen időjárás lesz, mi a következő esemény, ami mondjuk fontos születésnap, satöbbi, satöbbi, vigyem ki a kukát, szelektív gyűjtési hét van, vagy ilyesmi, ezeket elmondja reggel, nagyon jó, de ilyen szinten nem szoktunk vele beszélgetni. Vagy nyilván a feleségem is ki nem állhatja, megmondom őszintén, és nem hibáztatom érte. Egy az ugye, hogy megint csak nem természetes beszélgetés, amit te mondtál, tehát hogy most miért ne nyomhatnék meg egy gombot. De mondjuk, ha azt mondod, hogy indítsd el ezt meg ezt a lejátszási listát a Spotify-ról. Arra jó, mert az nyilván öt gombnyomás helyett kiváltod egy hangutasításra. Az egyszerűbb, bár hozzáteszem, hogy ezt is egyébként a gombnyomásra meg lehet oldani.
- Tudod, annak nem lényegi funkciói szórakoztató eredménye van, hanem szórakoztató.
- Általában szórakoztató.
- Igen, de az, hogy nekem most, és az is nagyon jó, hogy nyisd ki a kaput, légy szíves, de már az, hogy még a kapcsolat este kapcsold le a villanyt, az is, de hát azt is megoldom.
- Általában ott szokott lenni, igen, ez a mindent föl, mindent le, és ezeket alapból beajánlja az összes. Nem csak a hangasszisztens, hanem egyáltalán mondjuk, hogyha az Apple home-ot nézed, vagy a Google home-nál ott is ott van ez a jó éjszakát, elmentem otthonról, hazaérkeztem, amikor valamilyen jelenetet, vagy feladatsort akarsz vele végrehajtatni. Nyilván, hogyha beköszönsz neki, hogy szevasz, Alexa, elmentem, annak ugye az lenne a lényege, mint mondjuk a Legrand gombjának vagy a Schneider gombjának, amire rácsapsz az ajtó mellett, hogy elmentem, és akkor lekapcsolgatja a lámpát, satöbbi. Tehát, hogy ezt hanggal is ki lehet váltani, nagyon jó tele van a kezed, nem kell vele szórakozni, és ezzel szokták nyilván megint csak reklámozni ezeket a dolgokat, tele van a kezed, jössz-mész erről-arról, akkor ez segítség. De egyébként nem életszerű, hogy mindig lemegyek a nappaliba, leszaladok, és azt mondom, hogy kapcsold fel a lámpát, megyek tovább, ne kapcsold le a lámpát. Ha már ebbe az irányba mozgunk el, akkor már ott vannak a mozgásérzékelők, megint csak egyszerűsítik az életet. Tehát, hogy van ezeknek helye, meg van olyan irányvonala, ahol tud ez segíteni. Például ez a viszonylag bonyolultabb felületeket ne kelljen kezelni. Időskorúaknál lehet ilyen irányvonalat elvinni. Na, de ott megint előjön az a probléma, amire megint volt egy nagyon jó Alexa Silver nevezettel az időskorúaknak kitalált Alexa paródia, hogy mindenre is hangzik, mert a hívószót nem tudják megjegyezni, hogy most hogy hívták, és minden másnak is hívják, és azzal elindul, meg amikor nem értik, hogy mit válaszol, és akkor hangosabban visszakiabálja. Nyilván tipikusan azokat a problémákat mutatja be, ami egyébként nem csak az időskorúaknál, hanem mindenkinél problémája a hangasszisztensnél, hogy mitől nem természetes, nem dinamikus ezeknek az esetleges használata.
- Hát igen, meg az, hogy pont amit mondasz, szerintem itt is ez a jó, ha van, de általában az okos eszközöknél a specifikált megoldás az sokkal lényegesebb, egyszerűbb, mint az, hogy egy mindent átfogó valami kezdjen el nekem mindent is csinálni, miközben amikor én felkapcsolom a villanyt, akkor nem megkérek valakit, vagy hát van olyan eset, de hogy nem parancsra akarom, hanem én megteszem ezt a mozdulatot, és igen, egy mozgásérzékelő, mondjuk a telefonomon, ha messze van a kapcsoló, egy lekapcsoló gomb, vagy én állítom be a színét. Most az, hogy én megmondjam neki, hogy légy szíves Hupi lilára, meg strandkorlát kékre állítsd be. Nem, azt majd én kiváló, de bizonyos esetekben belátom én is, hogy jól tud jönni. Mondom, én nagyon szkeptikus vagyok, én nem nagyon szeretem ezeket a hangasszisztenseket, de tökre el tudom fogadni, hogy van létjogosultsága, meg bizonyos dolgokra jó tud lenni, csak egy csomó mindenre van sokkal jobb és sokkal egyszerűbb, meg lényegre törő megoldás. Egy mozgásérzékelő az azért van, mert azt a problémát oldja meg. Egy Siri mindent meg akar nekem oldani. Alexa mindent el akar nekem adni. Na, meg egy Siri minden adatot be akar tőlem gyűjteni, és ez is nagyon fontos, hogy nem biztos, hogy én minden adatomat oda akarom adni. Én nem használom, nincs Apple termékem, de azt tudom jól, hogy azért a Siri lényegesen jól, vagy hát ahhoz képest nagyon jól működik. Nekem ismerősi körömben, akinek még van ráadásul Air Pods-a is, meg vezet, meg minden. Ott azért úgy kommunikálni, hogy ezt hívd, azt hívd, amazt hívd, arra tök jó, de az is inkább a telefonos rész.
- Igen, hát megint azt váltja ki, hogy ne kelljen nyomkodni, ha úgy van. Abszolút és ugye két dolgot említettünk, az egyik az az irányvonal, hogy ezek ugye mind online működnek. Vannak olyan megoldások, a Microftnak van például most jön ki majd szeptemberben a Mark II-ese, ami egy ilyen kis kocka a '80-as évekbeli Apple 1-eshez hasonló megoldást mutat, és ő lokálisan képes a hangutasításokat feldolgozni. Nyilván egy csomó minden nem fog tudni lokálisan, mert ha megkérdezem tőle, hogy milyen az idő, ahhoz fel kell menni az internetre. Csak nem mindent az interneten végez el, hanem sok mindent helyben. Tehát amit te kérdezel, azt nem küldi el valakinek, és akkor ott azt nem dolgozza fel valaki más számítógépe, hanem ő meg csak azt a kérést küldi el valahova, hogy időjárás ezen a területen. Tehát egy fontos paraméterük ezeknek a megoldásoknak, hogy ők általában felhőben futnak, merthogy összevetve az árát, tehát ha megnézzük a Microftnak a viszonylag egyszerű kialakításával, ez 290 dollárba kerül, míg ugye megvesszük a legolcsóbb google-t, most ugye Nest mininek nevezett cuccot, az mai árfolyamon olyan 13-14 ezer forint környékén van bruttó, tehát azért ott van egy nagy árbeli különbség. Nyilván ez azért van, mert hol van a hardver másik része. Tehát, hogy a Google-nél is ugyanaz kelleni fog hozzá, csak azt éppen a felhőben valaki más számítógépén oldják meg ugyanezt a történetet. Tehát, hogy ezt mérlegelni kell, és ez beletartozik ebbe a körbe, és itt nagyon sok mindent nem soroltunk fel. Ott van a Yandex, Alice, az Ali babának az Aligini-je. Ott van a Microsoft Cortana, amivel egyébként anno nagyon sokat nyomultak korábban és próbálkozott a Microsoft betörni a hangasszisztensek világába. Aztán rájöttek, hogy ezt az egészet elfelejtik, és csak üzleti oldalát adják meg, és ott jól működik, tehát megint csak sikerült lefinomítani, hiszen ott van az IBM Watson, ami hangasszisztensként is üzemel, de annak egy sokkal nagyobb funkciója igazából egy-egy AI funkciója van, és ott azt a részét veszed igénybe, amit akarod. Vagy ott van a Sonos, aki még most nem jött ide, felvásárolta a Snaps AI-t, ami szintén egy hangasszisztens megoldás volt, ami képes lokálisan futni. Rengeteg ilyen megoldás van a piacon, és nagyon sok, amit nem említettem, mert kicsi vagy dedikáltan egy-egy cél feladatra, tehát marketing megkeresésekre vagy hasonlókra céloz. Tele van ezzel a piac és ezek mennek előre és haladnak előre. Nyilván nekünk magyaroknak az lesz majd a nagy ugrás ezen a szinten, amikor érteni fog magyarul, és tényleg azt mondom, hogy bármilyen időskorú vagy bárki, a gyerekek is nem kell, mert a gyerekeknek megtanulni, bár nagyon jó nyelvtanulás hozzáteszem, tehát pillanatok alatt olyan kiejtéssel mondják neki, ahogy egyébként a hangasszisztens őket rögtön megérti.
- Úgyhogy
- Téged ott kevésbé?
- Engem nem, tehát hogy ezzel mókáztunk is, hogy amikor két és fél, három éves volt a fiam, és akkor mondta az utasítást az Alexának, hogy játssza le a Paw Patrol című számot a Spotify-on, és akkor megtanulta tőlem, és a kisebbik is elkezdte tanulni, és másfél éves nem volt, és ez a "pé-popapo popi". És lejátszotta, érted? Amikor én mondom neki, akkor nem érti. Tehát hogy valahogy megvan az a dinamikája itt is, amit a gyerekek felvesznek automatikusan és működik, amit én öreg fejjel nem tudok ilyen szinten, úgyhogy nekem majd kell, hiába beszélek angolul vele, kell azért a magyar hangasszisztens, mert talán akkor majd magyarul fogok vele zsörtölődni.
- Hát igen, én valószínűleg akkor fogok használni ilyet, hogyha egy real jarvis.
- Igen.
- Egy olyan Jarvis
- Abszolút
- És egy dolgot egyébként most nem említettünk és nem véletlenül nem tértünk ki se a Google Home, sem az Apple Home, meg a Home Kids, meg az Amazon Alexa mögötti okosotthon okosításra, mert most csak letisztítva szerettünk volna a hangasszisztens részéről beszélni, ugyanis az a része még majd megint ki fog tenni egy egész adást, hogy ezek hogyan működnek, mikor működnek, mikor nem, milyen megoldásokkal működnek, és hogyan lehet őket bevonni az okosotthonba, vagy mikor érdemes őket bevonni. Most arra próbáltunk fókuszálni, hogy egyáltalán ezt a hangasszisztens irányvonalat egy kicsikét összefoglaljuk.
- Nyilván itt bele lehetne menni abba, hogy akkor a jelnyelvet hogyan lehet majd átkonvertálni, mert hogy ugye van a jelnyelv, meg van az egységes jelnyelv, ami nem egy beszélt nyelvhez kapcsolódik, hanem egy ilyen egyetemes, de van az, amikor a beszélgetés.
- Adott országnak a jelnyelve.
- Igen, az is nagyon érdekes ebben a formában, meg az, hogy ha majd, amikor már ezeket a finomságokat tudni fogja, mint mondjuk a magyar nyelvben, akkor majd milyen problémák jönnek elő, meg mit tudom én, de most még egyelőre örüljünk Sirinek, meg Alexának, meg mindenkinek, hogy megérti azt, amit akarunk neki, és jobb esetben meg is csinálja.
- Köszönöm szépen, hogy itt voltatok ma is a mai adásunkkal. Legközelebb is jövünk, addig is hallgassátok korábbi epizódjainkat, értékeljetek minket Ituneson, Spotify-on, vagy abban a podcasthallgató alkalmazásban, amit éppen most hallgattok. Ha esetleg ismerősök nektek, hasznos lehet a mai epizód, akkor dobjátok tovább nekik! Köszönjük, hogy itt voltatok ma is! Sziasztok! Sziasztok!