Web analytics é o processo de medição, coleta, análise e a produção de relatórios de dados de navegação e interação com o objetivo de entender e otimizar o uso dos sites e páginas na Internet.

Métodos de Coleta de Dados

Existem dois métodos mais comuns na análise de tráfego na internet: A Análise de Log (ou Log Analysis) que trabalha com os registros (logs) automaticamente gerados do servidor web e a Análise de Tag (ou Page Tagging) que utiliza marcações nas páginas que enviam dados para um servidor de análise.

Log Analysis / Análise de Log

Quando um Servidor web opera as requisições de páginas e conteúdos de um ou mais sites, ele gera automaticamente um registro do que foi solicitado, bem como sua resposta. Este registro recebe o nome de Log de Servidor. O conjunto destes logs fornece uma base de dados com as solicitação feita pelos visitantes de um site e sua análise correta pode fornecer informações sobre o comportamento destes visitantes e suas interações com o site.

Page Tagging / Análise de Tag

Para coletar dados neste método, é necessário implementar um código, chamado Tag, em cada página monitorada (geralmente em linguagem JavaScript). Esta Tag irá capturar várias informações do visitante e do navegador e irá agregar e enviar estas informações para um servidor de análise pré-configurado para receber estas informações. Geralmente, este envio acontece através da requisição de uma imagem invisível (transparente, com tamanho de 1×1 pixel) também chamado de pixel contador. O algoritmo do código incluído nesta tag utiliza recursos do navegador, como os cookies, para controlar a identificação do visitante e da visita corrente.

Vantagens e Desvantagens

A grande diferença entre cada método está em qual ponta do processo a coleta acontece. A análise de Log se baseia em um dados coletado no lado do servidor, ou server-side, enquanto a análise de Tag se baseia em dados coletados no navegador do usuário, ou seja, client-side. Só esta distinção de origem dos dados gera algumas diferenças entre as análise que utilizam cada um destes métodos. Veja alguns:

  • Visitas de robôs / bots: Os robôs, ou sistemas automáticos, que navegam por páginas como se fossem humanos, seja para coletar informações ou para indexar páginas como os bots de mecanismos de pesquisa são facilmente identificados nos logs dos servidores e são contabilizados na coleta de dados por Logs. Já no método por Tag isso não acontece pois os robôs, em sua maioria, não executam Javascript, necessário para a coleta de dados pela Tag.
  • Servidores Proxy e Cache: Os Logs nos servidores são gerados a cada requisição de página ou outro conteúdo ao servidor web. Porém, quando o acesso a internet passa por servidores proxy ou outros sistemas de aceleração da navegação por cache, a requisição de uma página pode não chegar ao servidor, pois uma cópia do conteúdo, não modificado, já foi pré-armazenada por estes servidores que irão atender a requisição antes do servidor web que detêm o conteúdo original. Considerando que algumas requisições podem não ser registradas nos Logs, os números destas análises podem diferir de outros métodos como a coleta de dados por Tags. As tags possuem um recurso chamado cache-bust, que força o não-armazenamento destas informações em nenhum servidor proxy.
  • Sub-redes e acessos corporativos: O tráfego gerado em uma subrede como em uma empresa, por exemplo, muitas vezes geram requisições para a internet através de um único endereço IP ou faixa de IPs específica, o que pode causar um efeito indesejado na análise de Logs – se o formato de Logs do servidor somente incluir o IP como identificador único para a análise, todas as requisições de páginas vindas desta empresa, serão atribuídas a um único usuário, mesmo tendo sido geradas por muitas pessoas diferentes.

Outras inúmeras diferenças podem surgir com métodos de coletas de dados distintos para análise de tráfego, mas pode-se concluir que um método de coleta server-side deve ter mais utilidade para uma análise técnica de um servidor que para análise de comportamento. Já uma análise por Tags deve ser mais indicada para uma análise do comportamento do visitante, já que coleta dados client-side, do navegador do visitante.

Até o próximo post…