quinta-feira, 27 de junho de 2013

O que é Deep web de acordo com a Wikipedia

Google Imagens

Deep Web (também chamada de DeepnetWeb InvisívelUndernet ou Web oculta) se refere ao conteúdo da World Wide Web que não faz parte da Surface Web, a qual é indexada pelos mecanismos de busca padrão.
Não deve ser confundida com a dark Internet, na qual os computadores não podem mais ser alcançados via Internet, ou com a Darknet, rede de compartilhamento de arquivos.
Mike Bergman, fundador da BrightPlanet e autor da expressão , afirmou que a busca na Internet atualmente pode ser comparada com o arrastar de uma rede na superfície do oceano: pode-se pescar um peixe grande, mas há uma grande quantidade de informação que está no fundo, e, portanto, faltando. A maior parte da informação da Web está enterrada profundamente em sites gerados dinamicamente, a qual não é encontrada pelos mecanismos de busca padrão. Estes não conseguem "enxergar" ou obter o conteúdo na Deep Web - aquelas páginas não existem até serem criadas dinamicamente como resultado de uma busca específica. A Deep Web possui um tamanho muito superior ao da Surface Web.

Tamanho[editar]

Estimativas baseadas em extrapolações de um estudo feito na Universidade da Califórnia em Berkeley em 20013 especularam que a Deep Web possui 7.500 terabytes de informação. Estimativas feitas por He et al. , em 2004, detectaram cerca de 300.000 sites da deep web e, de acordo com Shestakov, cerca de 14.000 destes eram da parte russa da Web em 2006. Em 2008, a web chamada “Deep Web”, não ref­er­en­ci­ada pelos motores de busca rep­re­senta 70 a 75% do total, ou seja, cerca de um tril­hão de pági­nas não indexadas.

Classificação[editar]

Wikileaks começou nadeep web, logo depois seu conteúdo foi disponibilizado na surface web.
O conteúdo da deep web pode ser classificado em uma ou mais das seguintes categorias:
  • Conteúdo dinâmicopáginas dinâmicas que são retornadas em resposta a uma requisição ou através de um formulário.
  • Conteúdo isolado: páginas que não possuem referências ou ligações vindas de outras páginas, o que impede o acesso ao seu conteúdo através de web crawlers. Diz-se que essas páginas não possuem backlinks.
  • Web privada: sites que exigem um registro e um login (conteúdo protegido por senha).
  • Web contextual: páginas cujo conteúdo varia de acordo com o contexto de acesso (por exemplo, IP do cliente ou sequência de navegação anterior). Muitos sites estão escondidos e não há possibilidade de acesso, propositalmente.
  • Conteúdo de acesso limitado: sites que limitam o acesso às suas páginas de modo técnico (usando CAPTCHAs por exemplo).
  • Conteúdo de scripts: páginas que são acessíveis apenas por links gerados por JavaScript, assim como o conteúdo baixado dinamicamente através de aplicações em Flash ou Ajax.
  • Conteúdo não-HTML/texto: conteúdo textual codificado em arquivos multimídia (imagem ou vídeo) ou formatos de arquivoespecíficos que não são manipulados pelos motores de busca.
  • Conteúdo que utiliza o protocolo Gopher ou hospedado em servidores FTP, por exemplo, não é indexado pela maioria dos mecanismos de busca. O Google, por exemplo, não indexa páginas fora dos protocolos HTTP ou HTTPS.


Origem: Wikipédia, a enciclopédia livre.


Sua Reação! 
Anterior
Proxima

Postador

0 comentários:

Os comentários serão moderados antes de publicar! respondo todos, obrigado por comentar.