深网的概念太广泛,不是所有的深网内容都涉及违法。
商业搜索引擎已经开始使用以上两种方法之一抓取深网。Sitemap协议(由Google于2005年首次开发并由Google引入)和mod oai是允许搜索引擎和其做枝他网络服务探索深网解决方法。
1丶为输入搜索选择关键词允许的输入值,
2丶确定是否只接受特定的值(例如时间),以及
3丶选择少量的组合生成适合纳入网站的搜索索引网址。
扩展资料:
深网(英语:Deep Web,又称、不可见网、隐藏网)是指互联网上那些不能被标准搜索引擎索引的非表面网络内容。
伯格曼在The Journal of Electronic Publishing上发表一篇关于深网的重大论文中提到,吉尔.艾尔斯沃夫曾经使用“隐形网”这一术语表示那些镇胡裤没有被任何搜索引擎索引注册的网站。
伯格曼还引用法兰克·加西亚在1996年1月的一篇文章:
这些网站可能已经被合理地设计出来了,但是他们却没有被任何搜索引擎编列索引,以至于事实上没有人能找到他们。我可以这样对这些不可见的网站说,你们是隐藏了的。我称之为隐形网。
早期另一个使用“隐形网”这一术语的是一家叫做“个人图书馆御简软件”公司的布鲁斯·芒特和马修·B·科尔,当他们公司在1996年12月推出和发行的一款软件时,他们对深网工具的有过这样的一番描述。
现在普遍接受的深网这一特定术语首次使用在2001年伯格曼的研究中。
参考资料:百度百科——深网