Tehnologia de Voce

Tehnologia de Voce are o istorie bogată de dezvoltare care a condus-o la ceea ce este astăzi. În ultimii 70 de ani omenirea s-a ocupat de studiul, dezvoltarea și implementarea Tehnologiei de Voce. Acum se află în centrul vieții moderne, oferindu-ne capacitatea de a îndeplini sarcini doar vorbind cu un dispozitiv.

Evoluția Tehnologiei de Voce de-a lungul anilor:

În 1952, primul sistem de recunoaștere a vorbirii proiectat de Bell Laboratories era cunoscut sub denumirea de sistemul „Audrey” și putea recunoaște doar o singură cifră de voce rostită cu voce tare.S-a crezut că Audrey ar putea fi utilizată pentru apelarea telefonică fără mâini. Însă Audrey nu a avut succes scontat printre utilizatori din cauza dimensiunilor mari, a cerințelor crescute de energie și a costurilor ridicate de producție și întreținere.

Zece ani mai târziu IBM a introdus Shoebox „Cutia de pantofi”, care a fost capabil să înțeleagă și să răspundă la 16 cuvinte vorbite în engleză, precum și să înțeleagă numerele 0-9. Ca și Audrey, dispozitivul a încercat să recunoască și să acționeze asupra frecvenței specifice a vocalelor din fiecare cifră rostită

În anii 1970, Agenția Proiectului de Cercetare Avansată a Departamentului de Apărare al SUA a început programul de cercetare Speech Understand (SUR), care s-a concentrat pe dezvoltarea și cercetarea tehnologiei de recunoaștere a vorbirii la Universitatea Carnegie Mellon. Scopul DARPA a fost să dezvolte o tehnologie de recunoaștere a vorbirii care să poată înțelege până la 1.000 de cuvinte. Ca rezultat al cercetărilor și lucrărilor efectuate de SUR în anii 1970, Carnegie Mellon a reușit să dezvolte sistemul de vorbire „Harpy” în 1976, care a înțeles peste 1.000 de cuvinte vorbite în engleză. Harpy a procesat vorbirea care a urmat vocabularul, pronunția și structurile gramaticale preprogramate. La fel ca asistenții vocali disponibili acum, Harpy a returnat un mesaj „Nu știu ce ai spus, te rog repetă” atunci când nu a putut înțelege vorbitorul”. Dar, din nefericire, asemeni sistemelor anterioare, Harpy era încă limitat în capacitatea sa de a înțelege limbajul natural.

La sfârșitul anilor 1970, a fost lansată prima aplicație comercială IVR (răspuns vocal interactiv), proiectată și dezvoltată de Steven Shmidt. Sistemele IVR sunt sisteme telefonice automatizate pe computer care utilizează hardware telefonic specializat și manipularea unei voci digitalizate.

În anii 1980, dezvoltarea modelului Markov a contribuit la continuarea cercetării și dezvoltării tehnologiei vocale prin utilizarea statisticilor pentru a „determina probabilitatea ca un cuvânt să provină dintr-un sunet necunoscut”. Această metodă statistică a fost revoluționară deoarece „în loc să folosească doar cuvinte și să caute modele de sunet, HHM a estimat probabilitatea ca sunetele necunoscute să fie cuvinte”.

Anii 1990 au adus progrese tehnologice uriașe, inclusiv marile mase având un acces mai larg atât la computerele personale, cât și la tehnologiile de recunoaștere a vorbirii. DragonDictate, dezvoltat de Dr. James Baker, este primul produs de recunoaștere a vorbirii pentru consumatori, care utilizează metode de dictare discrete, care au cerut utilizatorului să facă o pauză între fiecare cuvânt rostit. Mai târziu, în 1997, a intrat pe piață Dragon NaturallySpeaking, primul produs de recunoaștere continuă a vorbirii disponibil pentru consumatori. Dragon NaturallySpeaking a fost capabil să recunoască și să transcrie vorbirea umană naturală, la o rată de aproximativ 100 de cuvinte pe minut. Dragon NaturallySpeaking nu a cerut utilizatorilor să facă o pauză între fiecare cuvânt, așa cum cerea Dragon Dictate. „Prin pionierat în recunoașterea vocală continuă, Dragon a făcut practic pentru prima dată utilizarea recunoașterii vorbirii pentru crearea de documente”. Dragon NaturallySpeaking este încă disponibil pentru descărcare și este utilizat de persoane precum profesioniștii medicali. În plus, în anii 1990, centrele de apeluri au început să investească în integrarea telefoniei computerizate (CTI) cu sisteme IVR, ceea ce a dus la nașterea apelului telefonic automat.

Primul software de recunoaștere a vorbirii încorporat și software-ul de control activat prin voce pentru computerele Apple, au fost prezentate ca făcând parte din computerele Mac. La începutul anilor 2000, Microsoft a lansat o caracteristică similară pe computerele sale.

Evoluția recentă a Tehnologiei de Voce:

Din anii 2010 până în prezent, creșterea cercetării, dezvoltării și implementării tehnologiei de voce a crescut vertiginos. Deceniul a început cu Watson de la IBM, un sistem de răspuns computerizat capabil să înțeleagă limbajul natural. Mai târziu în acel an, Apple a introdus Siri pe toate dispozitivele sale mobile. Odată ce Siri a fost lansat, implementarea tehnologiei de recunoaștere a vorbirii în limbaj natural a luat amploare, iar în 2013, Microsoft a introdus Cortana, un asistent virtual similar cu Siri, care urma să fie implementat pe toate dispozitivele Windows.

La scurt timp după, Amazon a introdus dispozitivul Alexa numai pentru membrii Prime. În 2015, Amazon a fost lansat în Statele Unite, Google Home fiind lansat în anul următor. Acum, vedem asistenții virtuali promulgați ca vorbire obișnuită atât în casele noastre, cât și în mașini.

Ce este Tehnologia de Voce?

Tehnologia de recunoaștere a vocii este un program software sau un dispozitiv hardware care are capacitatea de a decoda vocea umană. Denumită uneori software activat prin voce sau de recunoaștere a vorbirii, această tehnologie a devenit din ce în ce mai populară în ultimii ani. Aceste dispozitive sunt încorporate acolo unde este este nevoie de ele, pentru a efectua comenzi, a găsi informații sau pentru a face înregistrări mai ușor. De fapt, dimensiunea pieței comerțului vocal este de așteptat să crească semnificativ în următorii ani.

Pe măsură ce tehnologia activată prin voce devine mai răspândită și mai accesibilă, considerăm că este important să înțelegeți mai multe despre ea. La urma urmei, această tehnologie schimbă modul în care oamenii trăiesc, muncesc și interacționează. Cel mai probabil că va deveni parte integrată în viața noastră de zi cu zi.

Cum funcționează Tehnologia de Voce?

Deși utilizarea tehnologiei de recunoaștere a vocii pare simplă precum rostirea câtorva cuvinte, modul în care funcționează este de fapt destul de complex. În primul rând, software-ul de recunoaștere a vorbirii filtrează prin sunetele pe care le rostești și le traduce într-un format pe care îl poate „citi”. Apoi, analizează acea „traducere” pentru semnificație și folosește acea informație - împreună cu algoritmul și intrările anterioare - pentru a ghici ce ați spus.

Dacă o singura persoană folosește tehnologia activată prin voce, capacitatea acesteia de a înțelege și de a înțelege semnificația vorbelor se va îmbunătăți în timp, devenind din ce în ce mai precisă. Lucrurile devin mult mai complexe atunci când luăm în considerare alți utilizatori, diferite limbi și dialecte și alți factori care pot afecta vorbirea umană. Chiar și schimbările obișnuite, cum ar fi zgomotul de fundal sau inflexiunile vocale, pot afecta modul în care tehnologia activată prin voce înțelege un difuzor.

Multe tipuri de tehnologie activată prin voce „învață” limba în același mod în care o fac copiii. Societatea Lingvistică din America susține că „copiii dobândesc limbajul rapid, ușor și fără efort sau predare formală. Se întâmplă automat, iar copiii cărora nu li se vorbește niciodată nu vor dobândi limbajul.” Cu alte cuvinte, copiii învață pe baza modului în care alți oameni folosesc limbajul cu ei și în jurul lor. În mod similar, sistemele de recunoaștere a vocii trebuie să primească intrare în limbaj și să interacționeze cu acesta pentru a învăța cum să recunoască tiparele și să facă conexiuni în limbajul uman. Fără această introducere și instruire, multe sisteme de recunoaștere a vocii probabil nu ar putea funcționa la fel de bine sau la fel de precis ca în prezent.

În ciuda acestor dificultăți, diverse sisteme de recunoaștere a vocii continuă să se îmbunătățească constant și să avanseze în capacitatea lor de a înțelege vorbirea umană. De exemplu, la sfârșitul anului 2016, tehnologia de recunoaștere a vorbirii Microsoft a atins un nivel de înțelegere similar cu cel al oamenilor înșiși, iar software-ul propriu de recunoaștere a vocii Google a atins un nivel de acuratețe de recunoaștere de 95% nu mult timp după. Pe măsură ce cercetătorii continuă să studieze, să formeze și să dezvolte tehnologia de recunoaștere a vocii, aceasta ar putea deveni și mai precisă în viitor.

Tipuri de Tehnologii de Voce - există o varietate de tipuri diferite de sisteme care se încadrează sub umbrela mai mare a tehnologiei activate prin voce:

Sisteme dependente de difuzoare: necesită pregătire înainte de utilizare și, prin urmare, depinde de funcționarea unui difuzor. Este posibil ca utilizatorii să fie nevoiți să citească o serie de cuvinte, fraze și propoziții pentru a ajuta la antrenarea sistemului.
Sisteme independente de difuzor: nu necesită instruire înainte de utilizare și este deja capabil să înțeleagă vocile majorității utilizatorilor. Mulți asistenți vocali populari folosesc sisteme independente de difuzor.
Recunoaștere discretă a vorbirii: solicită utilizatorilor să rostească cuvintele unul câte unul sau cu pauze între fiecare cuvânt, deoarece sistemul poate înțelege cuvintele și semnificațiile lor doar individual.
Recunoaștere continuă a vorbirii: permite utilizatorilor să vorbească la un ritm normal atunci când interacționează cu sistemul.
Limbajul natural: poate înțelege cuvintele unui utilizator și semnificația acestora și poate, de asemenea, să le răspundă, să ofere răspunsuri la întrebări, să completeze comenzi sau să furnizeze informațiile solicitate.

Cum și unde se utilizează Tehnologia de Voce:

Deși este folosită pe scară largă doar în ultima perioadă de timp, tehnologia de activare și recunoaștere a vocii are deja o multitudine de aplicații în diferite aspecte ale vieții noastre. De fapt, a devenit atât de populară întrun timp atât de scurt, încât probabil că ați folosit deja sau ați interacționt cu tehnologia activată prin voce. Cele mai populare aplicații pentru tehnologia de voce includ:

Mașini: multe mașini au acum tehnologie activată vocal integrată direct în vehiculul. Acestea includ device-uri precum difuzoarele inteligente pentru mașini și hotspot-uri pentru mașini conectate pentru a permite o conducere mai ușoară și sigură fără mâini.
Aparate de uz casnic: multe aparate, dispozitive și sisteme sunt acum conectate la internet și unele la altele, pentru ca oamenii să își controleze, să protejeze și să se bucure de casele mai ușor ca niciodată. Multe dintre aceste dispozitive inteligente de acasă, cum ar fi termostatele și sistemele de securitate, folosesc și activarea vocală în același scop.
Laptop-uri și tablete: acum este obișnuit ca laptopurile și tabletele să aibă recunoaștere vocală încorporată în dispozitiv, astfel încât să puteți îmbrățișa o experiență hands-free atunci când aveți nevoie sau doriți.
Asistenți digitali personali: sunt printre cele mai populare utilizări ale tehnologiei activate prin voce. Multe - cum ar fi Hey Google de la Google și Siri de la Apple - sunt integrate direct în smartphone-urile populare, astfel încât să le puteți utiliza indiferent de locul în care vă aflați sau ce faceți.
Tehnologie purtabilă: în mod similar, tehnologia purtabilă, cum ar fi trackerele de fitness și ceasurile inteligente, vă permite, de asemenea, să utilizați recunoașterea vocii ori de câte ori aveți dispozitivul la dumneavoastră. Acest lucru poate face mai ușor de utilizat aceste dispozitive, deoarece acestea tind să aibă ecrane și butoane mici.

Astăzi Total Technologies vă pune la dispoziție Tehnologia de Voce pentru afacerea dumneavoastră. Contactați-ne astăzi, sunați la tel +40 372 317 714 pentru a afla cum tehnologia de voce poate deveni avantajul competitiv al afacerii dumneavostră.

Articol publicat de Daniela Popa

Știați că?

Tehnologia de Voce

Vezi noutati