Kolm uut KASUTA mitmekeelset moodulit on tulemas TensorFlow'i

Tech / Kolm uut KASUTA mitmekeelset moodulit on tulemas TensorFlow'i 2 minutit loetud

Google Voice Search



Google on üks tehisintellekti teerajajatest ja paljud nende projektid on pööranud pead. AlfaZero Google'ilt DeepMind meeskond oli läbimurre tehisintellektis, tänu programmi võimele ise õppida keerulisi mänge (ilma inimkoolituse ja sekkumiseta). Aastal on Google teinud suurepärast tööd Loomuliku keele töötlemise programmid (NLP), mis on üks Google'i assistendi tõhususe põhjuseid inimkõne mõistmisel ja töötlemisel.

Google teatas hiljuti kolme uue väljaandmisest KASUTAGE mitmekeelseid mooduleid ja pakkuda semantiliselt sarnase teksti hankimiseks mitmekeelseid mudeleid.



Esimesed kaks moodulit pakuvad semantiliselt sarnase teksti allalaadimiseks mitmekeelseid mudeleid, millest üks on optimeeritud otsingutulemuste jaoks ja teine ​​kiiruse ja väiksema mälukasutuse jaoks. Kolmas mudel on spetsialiseerunud küsimuse-vastuse otsimine kuueteistkümnes keeles (USE-QA) ja see on täiesti uus USE rakendus. Kõiki kolme mitmekeelset moodulit koolitatakse a abil mitme ülesandega kahe kodeerija raamistik , mis on sarnane inglise keeles kasutatava algse USE-mudeliga, kasutades samal ajal väljatöötatud tehnikaid topeltkooder koos aditiivse marginaali softmax lähenemisega . Need ei ole mõeldud mitte ainult selleks, et säilitada head ülekandeõppe tulemuslikkust, vaid täita hästi sem semantilisi otsinguülesandeid.



Keele töötlemine süsteemides on jõudnud kaugele, alustades süntaksipuu parsimisest kuni suurte vektorite assotsiatsioonimudeliteni. Konteksti mõistmine tekstis on NLP välja üks suurimaid probleeme ja universaalne lausekooder lahendab selle, teisendades teksti kõrgemõõtmelistes vektorites, mis muudab teksti järjestamise ja tähistamise lihtsamaks.



UTE märgistamise struktuuri allikas - Google'i ajaveeb

Google'i sõnul on Kolm uut moodulit on üles ehitatud semantilisele päringuarhitektuurile, mis tavaliselt jagab küsimuste ja vastuste kodeerimise eraldi närvivõrkudeks, mis võimaldab otsida miljardite võimalike vastuste vahel millisekundite jooksul. Teisisõnu aitab see paremini andmeid indekseerida.

' Kõiki kolme mitmekeelset moodulit koolitatakse a abil mitme ülesandega kahe kodeerija raamistik , mis on sarnane inglise keeles kasutatava algse USE-mudeliga, kasutades samal ajal väljatöötatud tehnikaid topeltkooder koos aditiivse marginaali softmax lähenemisega . Need ei ole mõeldud mitte ainult selleks, et säilitada head ülekandeõppe tulemuslikkust, vaid täita hästi sem semantilisi otsinguülesandeid . ” Funktsiooni Softmax kasutatakse sageli arvutusvõimsuse kokkuhoiuks vektorite eksponentimisega ja seejärel iga elemendi jagamisega eksponentide summaga.



Semantiline otsinguarhitektuur

„Kõik kolm uut moodulit on üles ehitatud semantilistele otsingukonstruktsioonidele, mis tavaliselt jaotavad küsimuste ja vastuste kodeerimise eraldi närvivõrkudeks, mis võimaldab otsida miljardite võimalike vastuste vahel millisekundite jooksul. Topeltkoodrite efektiivseks semantiliseks leidmiseks kasutamise võti on kõigi kandidaatide vastuste eelkodeerimine oodatud sisendpäringutele ja salvestamine vektorandmebaasi, mis on optimeeritud lähima naabri probleem , mis võimaldab suure hulga kandidaate heaga kiiresti otsida täpsus ja tagasikutsumine . '

Need moodulid saate alla laadida TensorFlow Hubist. Lisateavet leiate GoogleAI täielikust lehest ajaveebipost .

Sildid google