Segnalo due notizie sulla strategia di Google per catturare le informazioni dai video e sul lancio di un nuovo motore per le traduzioni. La strategia è caratterizzata da un uso comune di metodi statistici, cosa che a Google riesce bene grazie all’enorme mole di dati di cui può disporre
La prima notizia è riportata in un’intervista di InfoWorld a Marissa Mayer, vice presidente Search Products & User Experience: Google sta lavorando ad un nuovo motore di speech-to-text che si basa sulla statistica raccolta durante le chiamate al numero telefonico di assistenza tecnica:
The speech recognition experts that we have say: If you want us to build a really robust speech model, we need a lot of phonemes, which is a syllable as spoken by a particular voice with a particular intonation. So we need a lot of people talking, saying things so that we can ultimately train off of that. … So 1-800-GOOG-411 is about that: Getting a bunch of different speech samples so that when you call up or we’re trying to get the voice out of video, we can do it with high accuracy.
Il risultato dovrà servire per implementare la ricerca all’interno dei video, che ora avviene tramite metadati.
Interessanti anche i passaggi successivi dell’intervista in cui si dice che le interpretazioni semantiche delle query di google sono in realtà basate sulla statistica. Avendo un grande mole di dati riescono a confrontare la query con molti contesti diversi.
When you type in “GM” into Google, we know it’s “General Motors.” If you type in “GM foods” we answer with “genetically modified foods.” Because we’re processing so much data, we have a lot of context around things like acronyms. Suddenly, the search engine seems smart like it achieved that semantic understanding, but it hasn’t really. It has to do with brute force. That said, I think the best algorithm for search is a mix of both brute-force computation and sheer comprehensiveness and also the qualitative human component.
Sullo stesso orientamento è l’abbandono del motore di Systran per le traduzioni automatiche: Google Translate oggi si basa su metodi statistici perfezionati continuamente dai suggerimenti dell’utente:
Official Google Research Blog: Statistical machine translation live:
Several research systems, including ours, take a different approach: we feed the computer with billions of words of text, both monolingual text in the target language, and aligned text consisting of examples of human translations between the languages. We then apply statistical learning techniques to build a translation model. We have achieved very good results in research evaluations.
Si vedano anche le relative FAQ.
I risultati sono ancora scarsi ma basta giocarci un po’ per rendersi conto delle potenzialità; ecco una prova con una frase italiana:
La traduzione è perfettibile con un contributo dell’utente che manda il suo suggerimento in un form ajax.
Ecco invece la traduzione di una pagina web:
Il controllo tra versione originale e tradotta viene fatto al passaggio del mouse sopra i paragrafi. Nel fumetto che appare, simile a quello di Google Maps, si può aprire il form di correzione suggerita dall’utente. Pare che abbiamo un nuovo leader Maximus.
Un paio di considerazioni in coda: il sistema prevede che gli utenti suggeriscano traduzioni sensate. Come affronterà il problema del vandalismo, delle traduzioni sbagliate e degli errori di battittura? Nella Wikipedia ci pensano gli altri utenti ma sono in un numero che Google non può eguagliare anche tra i suoi numerosi dipendenti (non tutti, peraltro, al servizio di Google Translate).
La pseudosemantica si basa su una mole di dati che forse solo Google può vantare. Potrebbe configurarsi come posizione dominante rispetto al semantic web? Riscrivere i contenuti web in senso semantico è notoriamente faticoso ed è una delle critiche più frequenti che contrappongono la cattedrale del Semantic Web alla semantica “spicciola” dei microformats. Google dichiara apertamente di agire con la forza bruta, la via più breve quando si hanno molti mezzi a disposizione.