Ostatnio w ramach odkrywania ciekawych zakamarków Visty, i szukania (momentami trochę na siłę) powodów uzasadniających przesiadkę z Windowsa XP na Viste znalazłem bardzo ciekawe uzupełnienie dla standardowego interface’u użytkownika. Mianowicie moduł rozpoznawania mowy. Działa on (dla użytkowników spoza anglosaskiego społeczeństwa, niestety) jedynie w oparciu o barbarzyński język galów, jednakże nie umniesza to jego funkcjonalności.
Ustrojstwo to pozwalana na wykonanie praktycznie dowolnej akcji związanej z interfacem użytkownika za pomocą głosu. Od tak elementarnych zadań jak zmiana aktywnego okna, wykonywanie akcji w oknach dialogowych czy uruchamianie programów z menu Start aż po tak wyrafinowane umiejętności jak dopasowanie wymówionego tekstu do umieszczonych na witrynie sieci Web linków i przejście na wskazaną stronę. Ponadto umożliwia edycję tekstów, a i w tym zakresie znane z Windows XP/2003 SAPI może się schować. Nie tylko bardzo rozbudowana gramatyka angielska, nie tylko możliwość literowania słów za pomocą funkcji “Spell it” ale też korekcja na bierząco, zaznaczanie, zmienianie, formatowanie. I to wszystko bez dotknięcia klawiatury.
Niestety rozwiązanie to wciąż nie jest wolne od wad. Jedną z najbardziej dokuczliwych jest częste wzbudzanie się systemu z powodu prowadzonych w języku polskim rozmów w obecności komputera z włączonym modułem. Innym problemem jest brak umiejętności odfiltrowania tego co mówi sam komputer od tego, co intencjonalnie mówi do komputera użytkownik. Ta wada sprawia, że na razie swobodna konwersacja z komputerem jest jeszcze nie możliwa.
Myślę, że ten krótki przegląd możliwości tego narzędzia daje choć wątły argument ZA Vistą.
Przy dzisiejszym stanie techniki w ogóle nie liczyłbym na “literowanie słów za pomocą funkcji ‘Spell it'”, “rozbudowaną gramatykę angielską” czy “dopasowanie wymówionego tekstu do umieszczonych na witrynie sieci Web linków”. Wymaga za dużo treningu (zwłaszcza te dwa ostatnie punkty są dla systemu nieprzewidywalne) i jest podatne na wszelkie możliwe zakłócenia, a mało odporne na fakt, że człowiek mówi w sposób mało powtarzalny (za każdym razem to samo inaczej).
A ponieważ korzystanie ze Speech Recognition w słuchawkach z mikrofonem wygląda idiotycznie i nie jest tak pr0, jak po prostu “mówienie do pokoju”, to polecam samodzielnie napisane oprogramowanie, które korzysta jedynie z ograniczonej gramatyki konkretnych poleceń. Coś takiego, jak VCS 😉
Anyway, systemy rozpoznawania mowy mają swoje ograniczone zastosowanie. Większość z wymienionych przez Ciebie rzeczy dużo wydajniej robi się za pomocą klawiatury / myszki, względnie ekranu dotykowego. W moim odczuciu systemy sterowania głosowego mają swoją specyfikę. “Komputer, światło, 20%. czy “Komputer, Muzyka – Gosia Andrzejewicz” przejdą, “Komputer, zapisz: Vista jest fajna. Formatuj. Czcionka: czerwona, Calibri 11” już nie. A już w szczególności, idąc duchem Star Trek, systemy sterowania głosowego powinny być sprzężone z systemami syntezy mowy – jeśli musisz stać przed monitorem by widzieć, co odpowiada komputer na Twoje polecenie, to dużo lepiej jest już je wpisać z klawiatury.
Pozdrawiam 😉
PS. Witamy w technologiach rozpoznawania mowy 😉