segunda-feira, 18 de novembro de 2013

A máquina do tempo (para a internet)

A inspiração de escrever este post veio do seguinte video:


Basicamente, é uma apresentação de 10 minutos sobre como obter informações históricas da internet como tendências, métricas e etc, a partir de duas tecnologias: o HTTP Archive e o Big Query.

Isso me lembrou um "recurso" da internet que pouca gente conhece, e que por sinal é o irmão mais velho do HTTP Archive: o Internet Archive, mais especificamente a Wayback Machine. Enquanto o HTTP Archive tem o objetivo de armazenar, basicamente, metadados sobre as páginas da internet, a Wayback Machine armazena páginas da web completas. Ou seja, é possível, através de uma consulta a Wayback Machine, visualizar uma página hoje como ela era há anos atrás.

A Wayback Machine existe desde 1996 e têm algumas páginas realmente antigas. Por exemplo, eu consegui achar minha lista de item da minha antiga coleção de video games (que infelizmente não existe mais) com um snapshot de 2004:


Porém, se eu for mais para trás, consigo achar versões dela até 1999! Além disso, domínios mortos também podem ser vistos... o próprio SWI onde eu hospedava esta listagem não existe mais. Alguns sítios muito conhecidos e usados no passado como GeoCities e NBCI também podem ser acessados... é literalmente um museu em forma online, o que não poderia ser mais apropriado para a internet! :)

Agora, uma coisa que me deixa intrigado é, se existe uma forma de consolidar o Big Query com o HTTP Archive, será que não existiria uma forma de fazer o mesmo com o Internet Archive? Ou seja, pegar os dados históricos da Internet nos últimos 17 anos (1996-2013) e fazer análises (Hadoop?) para extrair dados históricos sobre a evolução da internet como um todo? Pelo que eu vi a facilidade de fazer isso com o Big Query se deve ao fato de que os dados do HTTP Archive já estão estruturados em bases MySQL (o Biq Query roda uma versão customizada do MySQL pelo Google), porém não encontrei uma forma de fazer o mesmo com a Wayback Machine, imagino que os dados não estejam realmente disponibilizados em nenhum formato similar, embora existam algumas APIs para consultas:


Enfim, fica aí um desafio para as próximas gerações... eu particularmente adoraria meter a mão na massa num projeto de pesquisas desse, mas infelizmente no momento tenho outras prioridades. Quem sabe um dia. De qualquer forma, fica aí a dica para quem quiser dar uma espiada no passado da web.