Ouça em: Apple Podcasts | Spotify | Pandora
Esta é a transcrição completa da sétima temporada, episódio 6 – “O algoritmo: Cartas de recomendação” – do podcast Quartz Obsession.
Gabriela: Eu quero ficar um pouco meta aqui, ouvintes. Por algum motivo, você abriu alguma ferramenta de streaming digital e isso te levou a mim. Ou melhor, à minha voz apresentando este podcast. Talvez você esteja no seu computador e alguém que você conhece compartilhou este link em uma de suas redes sociais. Talvez você seja um fã que nos segue e o seu celular lhe enviou um alerta com um novo episódio.
Talvez. Você estava em uma plataforma onde costuma ouvir outras coisas, audiolivros, álbuns, episódios de rádio, e o nosso pequeno programa apareceu na sua tela. Sugestão de escuta. Programas que você pode gostar. Recomendados para você. Em algum lugar nas profundezas da sua tela, alguém ou algo tem determinado silenciosamente o que você vai querer ouvir em seguida.
Tudo bem, Bruce, você já tem que ouvir a minha voz o dia todo no escritório e nas chamadas do Zoom. Como você se sentiria se o algoritmo te levasse até este episódio?
Bruce: Eu sentiria que acertou, que me conhece muito bem. Adoro falar sobre algoritmos com os editores da Quartz.
Gabriela: Sou Gabriela Riccardi, a apresentadora da temporada 7 do Quartz Obsession, onde estamos analisando de perto as tecnologias e as ideias que definem nossas vidas.
Então, prepare-se para aprender sobre machine learning, porque hoje estou conversando com Bruce Gill da Quartz sobre algoritmos.
Quando falamos de algoritmos, pelo menos aqui, estamos falando de algoritmos de recomendação, a imensa e peculiar sequência de números responsável por descobrir o que você gosta e ditar como se torna tudo o que você vê online. Com isso em mente, Bruce, me explique, como você entrou no mundo do algoritmo?
Onde encontramos algoritmos de recomendação em nossas vidas diárias?
Bruce: Minha relação com o algoritmo tem sido, na maior parte, bastante positiva. Sou uma pessoa bastante indecisa por natureza. Adoro a ideia de ter algo, acho, me ajudando a decidir o que comer. Tipo, Grubhub, por favor me dê sugestões. Netflix, me diga o que é bom para assistir. Spotify, me dê suas playlists curadas.
Mas eu diria que algo foi um pouco diferente no TikTok. E acho que muitas pessoas tiveram uma experiência semelhante, onde parecia que ele te conhecia muito bem. E no começo eu achei isso incrível. Tipo, novamente, era um fluxo muito constante de conteúdo divertido e bom.
O que o fez parecer bom demais? Quais os tipos de coisas que ele estava te servindo?
Era muita coisa que não tenho certeza de como eu sabia que iria gostar. Obviamente havia algumas coisas padrão, se você me conhece. Clipes de Drag Race. Havia alguns vídeos ASMR. Eu adoro ver pessoas batendo em coisas ou cortando sabão.
Não sei por quê.
Coça o cérebro. Às vezes é inexplicável.
Exatamente. E outra coisa estranha que eu percebi também foi que tipo, ele meio que me contava um pouco da minha história. Mostrava memes de tempos antigos que eu costumava assistir com minha família quando era criança.
E eu pensava, como isso entrou aqui? Porque não era algo que eu estava pesquisando sozinho no TikTok. No final, percebi que era quase muito eficiente, onde eu estava passando horas. Isso afetava meu sono. Acabei excluindo o aplicativo do meu telefone, apenas por preferência pessoal, e quando comecei a aprender mais sobre esses algoritmos, parecia um pouco enganador ou como, meio que um trapaceiro que sabia mais sobre seus interesses do que você provavelmente sabe sobre si mesmo.
Ouvimos isso com bastante frequência, como nós meio que mergulhamos em uma nova plataforma social ou em um ecossistema digital diferente, e de repente ele está puxando todas essas coisas que ele sabe sobre nós. Fazemos piadas que nossos telefones e nossos dispositivos estão nos ouvindo, mas às vezes é tão bizarro. Parece que muitas pessoas estão chegando a essas conclusões hoje, que o algoritmo ficou tão sofisticado que está contando sobre você de uma maneira que você nem mesmo pode falar sobre você.
Ok, Bruce, vamos simplificar isso para o nível mais básico. O que exatamente é um algoritmo?
O que é um algoritmo?
Bruce: Então, um algoritmo em termos amplos é apenas um processo ou um conjunto específico de instruções que, quando seguidas ou executadas, resultam em um resultado desejado. Muitas vezes as pessoas gostam de descrevê-lo como quase uma receita para resolver um problema.
Eles costumam ser usados para resolver problemas matemáticos, mas agora, com computadores, eles são usados para resolver quase tudo.
Gabriela: Então, isso remonta a todos nós aprendemos talvez na escola primária ou secundária, a ideia da fórmula. Pelo menos em minhas salas de aula, aprendi sobre a ordem de operações, como juntar números para que cheguem a suas conclusões lógicas.
Os algoritmos são versões muito, muito, muito mais sofisticadas, mais evoluídas disso. Mas em seu nível básico, são apenas fórmulas ou instruções. Então, vamos voltar um pouco. Quando as pessoas começaram a usar algoritmos pela primeira vez. Como essa ideia de um algoritmo surgiu?
Quais são as origens dos algoritmos?
Bruce: Os algoritmos são uma ideia bastante antiga. Alguns dos algoritmos mais antigos registrados foram escritos em tabuletas de argila em 2000 a.C. na Babilônia.
Gabriela: Oh meu Deus.
Bruce: Isso mesmo, loucura. Há matemáticos gregos, como um algoritmo famoso é o algoritmo Euclidiano. Então, este remonta a 300 a.C. É algo mais recente.
Gabriela: Oh, sim. Bem mais recente.
Bruce: É um algoritmo para encontrar o maior denominador comum entre dois números diferentes de zero. E é basicamente um algoritmo muito simples em que você faz muitos problemas de divisão até encontrar o maior denominador comum ou o maior fator em dois números.
Gabriela: Entendi.
Bruce: Tenho certeza de que as pessoas estão familiarizadas com isso do ensino fundamental. Acho que é uma das primeiras fórmulas ou equações que aprendemos em aula de matemática.
Gabriela: Como passamos dos tempos antigos literais, de Euclides, matemática antiga, coisas sendo escritas em tabuletas, ao século XXI de hoje?
Quais são alguns dos algoritmos fundamentais?
Bruce: Quando os computadores entraram em cena, eles facilitaram para as pessoas executarem algoritmos maiores e mais complexos, e eles são usados para todos os tipos de coisas, para classificar grandes conjuntos de dados.
Existem esses dois algoritmos que gosto de pensar como os fundamentais para esses algoritmos de recomendação mais novos do TikTok, o Google PageRank e o Prêmio Netflix. Eles são realmente os primeiros com os quais as pessoas começaram a interagir. Vamos começar com o Google. Porque o Google, acho que é algo que usamos todos os dias e saber de suas origens.
É meio louco também. Então, o algoritmo original do Google foi escrito em 1998 por esses dois estudantes universitários. Eles estudaram em Stanford, Sergey Brin e Lawrence Page. Eles o escreveram como parte de um trabalho acadêmico enquanto estavam na faculdade. E a ideia era dar ordem à web. Naquela época, os mecanismos de busca não eram tão úteis quanto são hoje.
Eles ainda estavam descobrindo como dar aos usuários os resultados de busca mais relevantes e úteis possível. E assim esses dois estudantes tiveram a ideia de como garantir que, ao pesquisar algo no Google, você realmente está obtendo informações confiáveis e não apenas um blog aleatório de alguém.
Gabriela: Então você está me dizendo que Larry Page e Sergey Brin criaram o Google começando como um trabalho acadêmico, apenas um trabalho acadêmico, que deu origem a tantas maneiras que navegamos na internet hoje.
E também a um verbo literal que acho que todo mundo tem em seu vocabulário, “googlar” algo. Acabei de ouvir você dizer, sabe, parece que moldou até nossa linguagem. Sim.
Bruce: É muito interessante pensar em como, agora que reclamamos um pouco sobre o algoritmo, eles foram tão úteis e revolucionários para a forma como todos navegamos na internet hoje.
Gabriela: Então me diga como o PageRank funcionava uma vez que saiu do papel acadêmico e se tornou uma ferramenta real que existia.
Bruce: Então, agora o algoritmo do Google é muito mais complexo, mas naquela época a ideia era classificar essas páginas com base no número de links e na qualidade dos links. Assim, cada página recebe uma classificação com base em quantas outras páginas estão vinculando a ela e também leva em conta a classificação das páginas.
Então, se você tem essas páginas de alta qualidade citando você, sua classificação sobe.
Gabriela: É assim que chegamos ao New York Times, Chicago Tribune, Washington Post e LA Times flutuando no topo dos resultados de pesquisa do Google, em oposição a um blog aleatório, sei lá. Alguém, uma pessoa aleatória, opinando na internet.
Isso não será classificado tão alto porque é uma fonte menos confiável. Não está dentro desse ecossistema de recomendar coisas uns para os outros.
Bruce: Exatamente.
Como a Netflix construiu algoritmos de recomendação?
Gabriela: Então me conte sobre o segundo algoritmo fundamental.
Bruce: Acho que este foi um grande divisor de águas nos algoritmos de recomendação.
Em 2006, quando a Netflix nem era um serviço de streaming, era um serviço de aluguel de DVDs, eles lançaram uma competição chamada Prêmio Netflix, onde ofereceram 1 milhão para quem conseguisse melhorar seu software de recomendação em 10%. 10 por cento.
Gabriela: Não parece muito. Vale um milhão de dólares?
Bruce: Sim, mas as pessoas levaram pelo menos dois anos para atingir esse marco.
Gabriela: Uau. Ok. Então claramente este é um obstáculo maior do que meu instinto me diz. Ok. Então me diga, como eles chegaram lá ao longo de dois anos?
Bruce: O que a Netflix fez foi tornar público todos esses dados sobre como os usuários estavam avaliando os filmes.
Então eram cem milhões de avaliações de 17.770 filmes de cerca de 480 clientes. A tarefa era usar esses dados para criar um algoritmo que previria se alguém iria gostar de um filme com base em suas classificações anteriores, não apenas suas classificações, mas as classificações de todos neste conjunto de dados. Então, todos que usam o Netflix.
E então 30 mil pessoas se inscreveram para participar disso. E então houve muito mais. Fóruns e posts de discussão e pessoas compartilhando suas ideias e pessoas começaram a pensar se avaliações mais recentes são mais precisas do que as feitas meses atrás. Existe um horário do dia em que alguém fez uma avaliação? Isso afeta o pensamento e eles começaram a adicionar essas coisas aos cálculos em seus algoritmos e todos construíram o trabalho uns sobre o trabalho dos outros. Havia um participante chamado Simon Funk que foi muito influente.
Ele foi uma das primeiras pessoas a blogar e tornar seu código público para que as pessoas pudessem trabalhar com base em seu trabalho. E, a grande inovação que ele teve foi usar essa técnica matemática chamada decomposição de valores singulares.
Gabriela: Isso soa muito acima da minha cabeça, mas me conte mais.
Bruce: Então, basicamente, é uma maneira de automatizar a descoberta de semelhanças entre filmes e usuários que gostam desses filmes.
Então, todas essas avaliações são apenas números para que o algoritmo consiga encontrar que certos grupos de pessoas parecem estar gostando desses tipos de filmes. Então ele meio que cria categorias para você. E isso pode ser gêneros. Há um certo tipo de pessoa que gosta de filmes de ação, ou há um certo tipo de pessoa que gosta dos filmes do Tom Hanks.
O algoritmo aprendeu que se você gosta de comédias românticas, pode descobrir que outras pessoas que gostam de comédias românticas realmente não são fãs de ficção científica. E assim ele sabe para não recomendar a você nenhum filme de ficção científica.
Gabriela: É tão interessante ouvir isso. Parece que, ao tornar público este tesouro de dados do usuário.
Quero dizer, obviamente estamos em uma fase tão inicial que a privacidade do usuário não é realmente. Tão quente, mas em um tópico importante como é hoje, mas deu, por meio desse efeito de crowdsourcing, muitas pessoas estavam testando vários inputs. Acho fascinante que a hora do dia em que você está navegando no Netflix pode afetar a escolha que você faz sobre o que assistir.
Quer colocar algo energizante de manhã? Talvez você esteja tomando seu café da manhã, e quer colocar algo mais suave à noite ou talvez, sabe, vice-versa. É fascinante pensar nisso.
Bruce: A Netflix anonimizou os dados para o prêmio da Netflix, mas as pessoas conseguiram descobrir quem eram esses usuários ao conectar os dados com as páginas do IMDB. E isso acabou fechando a competição do Netflix. Eles haviam planejado uma segunda, mas acabaram cancelando esses planos por causa de preocupações com a privacidade.
Gabriela: Oh, uau. O que é velho é novo de certa forma. Preocupações com dados naquela época, preocupações com dados agora, preocupações com privacidade naquela época, preocupações com privacidade agora. Parece que, no caso do PageRank, isso foi projetado para trazer ordem e otimizar as coisas. Páginas, sites, recebem mais links, têm uma classificação mais alta. A classificação continua subindo se as páginas às quais você está vinculado tiverem uma alta classificação.
É espécie de um sistema organizacional muito hierárquico. Este exemplo do prêmio Netflix parece ser realmente baseado em conteúdo e baseado em personalidade e perfil e é, portanto, uma complexidade expansiva que estabelece conexões preferenciais diferentes. Totalmente interessante.
Estou curiosa, quais são as diferentes maneiras que os algoritmos estão sendo usados bem aqui, bem agora? Como eles avançaram desde o PageRank ou como uma competição financiada pelos espectadores para superar a Netflix em seu próprio algoritmo? Como os algoritmos mudaram nas últimas décadas?
Bruce: Há muito mais dados agora. Há muitas maneiras de rastrear as pessoas. Você sabe, a Netflix, nesse exemplo, dependia das pessoas classificando filmes.
Eram, na verdade, cem milhões de avaliações de filmes. Mas agora que a Netflix é um serviço de streaming, ela pode rastrear o que você está realmente assistindo. Você nem precisa avaliar algo para ser puxado por esse algoritmo.
Gabriela: O que você acha do impacto que os algoritmos de recomendação têm em nós culturalmente? Você pode me dizer um pouco, Bruce, sobre como eles moldam e influenciam a nós de maneiras que talvez não reconhecemos?
Bruce: Voltando à nossa conversa anterior, o TikTok é um claro exemplo de como a cultura está sendo moldada por esses algoritmos. É também um dos algoritmos de recomendação mais poderosos. Se você olhar seu design, é meio que a plataforma de aprendizado de máquina perfeita e, você sabe, um algoritmo está aprendendo coletando mais dados e se aprimorando, porque nesta plataforma você tem cerca de um bilhão de usuários assistindo a todos esses vídeos de dois minutos.
Cada deslize ou cada minuto que você continua assistindo a um vídeo é outro ponto de dados para saber o que recomendar a você em seguida. E é sobre isso que eu estava falando antes quando disse que me senti meio enganado. Pode haver momentos em que, eu não acho que gosto de vídeos de gatos. Não estou curtindo vídeos de gatos. Mas por algum motivo, o