Le parole proibite di Google Instant
Come fa la nuova versione del motore di ricerca a censurare alcune ricerche
Lo scorso 8 settembre, Google ha presentato Instant, la nuova versione del suo motore di ricerca per velocizzare le ricerche online. Il servizio aggiorna automaticamente la pagine dei risultati man mano che si inserisce la chiave di ricerca desiderata. In pratica Google cerca di prevedere la richiesta dell’utente, semplificando così il ritrovamento dei contenuti online. Ma non tutti i contenuti sono uguali agli altri e così, per alcune specifiche parole, il sistema si disattiva offrendo la versione tradizionale del motore di ricerca.
Quelli della rivista trimestrale 2600 The Hacker Quarterly hanno raccolto le parole proibite di Google Instant, quelle che non fanno apparire automaticamente i risultati di ricerca. I termini di ricerca identificati sono circa 300, ma a questi vanno aggiunte tutte le parole nelle altre lingue che Google ha scelto di escludere da Instant. La scelta, spiegano i responsabili del motore di ricerca, è semplicemente cautelativa per evitare che compaiano in automatico nelle pagine dei risultati link verso siti con contenuti pornografici, violenti o che esprimono odio verso religioni e minoranze.
Se per esempio si cerca la parola “porno”, il sistema non funziona e occorre compiere una ricerca tradizionale, inserendo il testo e premendo poi invio, o “Cerca” sulla pagina di Google. Questo succede, spiegano su Mashable, perché il motore di ricerca non utilizza solamente le informazioni digitate sul momento dall’utente per costruire i risultati, ma anche le ricerche compiute negli anni precedenti dagli utenti per ottenere un certo tipo di contenuto. Sfruttando questi dati, Google è in grado di prevedere – almeno in parte – le ricerche degli utenti velocizzando così il reperimento delle informazioni che vogliono trovare online.
Nella versione inglese, per esempio, la parola “lesbian” non fa funzionare Google Instant per un semplice motivo: nella maggior parte dei casi la chiave di ricerca “lesbian” viene inserita nel campo di ricerca dagli utenti insieme al termine “porno”. Instant dovrebbe dunque offrire contenuti pornografici in automatico come primi risultati anche se si è iniziato solo a digitare la parola “lesbian” e per questo motivo si disattiva automaticamente.
Il nostro servizio di ricerca riceve più di un miliardo di ricerche ogni giorno, spiega un portavoce di Google. Per questo motivo, abbiamo un approccio basato su un algoritmo per la rimozione dei contenuti, e come tutti gli algoritmi, si tratta di un sistema imperfetto. […] I nostri algoritmi non badano a parole specifiche, ma a richieste composte basate su quelle parole e sulle diverse lingue. Quindi, se per esempio c’è una parolaccia in Russo, potremmo rimuovere una parola composta che comprende la traslitterazione della parola russa in inglese.
Badiamo anche ai risultati di ricerca per alcune singole richieste. Per esempio, se i risultati per una data ricerca potrebbero portare a contenuti pornografici, i nostri algoritmi potrebbero rimuovere la richiesta dal sistema di completamento automatico, anche se la stessa richiesta magari non viola le nostre politiche. Questo sistema non è né perfetto né immediato, e continueremo a lavorare per migliorarlo.
L’elenco compilato da 2600 The Hacker Quarterly non comprende solamente parole volgari, ma anche termini come “sexy”, “autoerotic”, “cocaina” ed “erotism”. Parole come “kkk”, “erection”, “heroin” e “hottie” non sono invece limitate. L’elenco cambierà nel corso del tempo, così come cambiano gli stessi risultati delle ricerche sulla base dell’utilizzo dello stesso Google da parte degli utenti.