Utrka između IBM-a i Microsofta u kvaliteti prepoznavanja govora se nastavlja. Do rujna prošle godine IBM je držao vodeće mjesto u kvaliteti prepoznavanja govora s WER (Word Error Rate) vrijednošću od 6,9%.
Tada ga je na čelnom mjestu zamijenio Microsoft s WER vrijednošću od 6,3%. Već idući mjesec, dakle u listopadu prošle godine, Microsoft je potvrdio svoje vodstvo objavivši kako je dostignuta WER vrijednost od 5,9% (što znači da je tada računalno prepoznavanje govora po prvi put ostvarilo razinu prepoznavanja govora koja je usporediva s ljudskom).
S dolaskom 2017. godine tvrtka IBM je odgovorila na Microsoftov izazov te otišla korak dalje, objavljeno je kako je postignuta WER vrijednost od 5,5%.
Međutim, u IBM-u ne tvrde da su dostigli razinu govora koja je usporediva s ljudskom, već da ta razina još nije dostignuta te da bi trebala biti dostignuta tek kada WER vrijednost dosegne 5,1%.
Za ostvarivanje WER vrijednosti od 5,5%, IBM se poslužio neuronskom mrežom Long Short-Term Memory (LSTM) i WaveNet modelom s tri akustična modela, a u tvrtki napominju kako nastavljaju raditi na daljnjem smanjenju WER vrijednosti.