专业IT科技资讯平台,关注科技、手机、电脑、智能硬件、电脑知识!
当前位置:主页 > 建站 > 技术分享 >

什么是蜘蛛陷阱_蜘蛛陷阱的产生、危害及预防

导读:

  今天给大家说下蜘蛛陷阱,也是我交的作业中的部分内容。中招的童鞋自己注意整改,具体整改措施,这

  今天给大家说下蜘蛛陷阱,也是我交的作业中的部分内容。中招的童鞋自己注意整改,具体整改措施,这里就不多说了,因为作业还没被改完,避免泄露答案。

  蜘蛛陷阱的“前因后果”

  一、蜘蛛陷阱的含义

  陷阱原意是狩猎用的坑穴等处所,对人则是比喻使人受骗上当的圈套,那么对蜘蛛则是两层含义:

  A、 蜘蛛在爬行网站时,遭遇到一些让蜘蛛程序无法正常收录页面或继续爬行网站的障碍,通常是非故意为之的;

  B、 使用一些技术手段,让蜘蛛无法按正常网址目录爬行抓取原目的网站相关页面,而将蜘蛛引入到预设好的页面或网站,达到干扰蜘蛛判断网页内容主题等网页搜索质量体系中的相关指标值,通常是黑客等获益人故意为之的。

  二、蜘蛛陷阱的产生、危害及预防

  (一) 蜘蛛程序爬行网站时遇到障碍的几个问题

  1、避免蜘蛛被排除在可访问资源的人群之外

  产生原因:只给特定人群访问权限,如只让已登陆或输入了正确密码的人能访问到,或要求用户有cookies才显示内容。被排除在可访问人群之外的蜘蛛程序就无法获取到资源内容。

  2、避免让蜘蛛获得的url不正确或不规范

  产生原因:在设置url的时候不规范或内外推广的url不正确,会让蜘蛛获得不正确或不规范的url。比如带有等号与问号的动态url,通常url中包含多参数,易造成多个url对应的页面内容相同,特别当统计用户信息、弹窗回话或分析流量时,会在用户访问url时再增ID参数后返回页面内容;推广了缺失字符等不正确的url;同一页面内容动静态URL均可访问。

  3、避免让蜘蛛被重定向弄的晕头转脑

  产生原因:通常是资源被迁移,导致资源地址有变,但在相关网页中没修改成资源新地址,导致网页中出现旧资源地址,一些网站就会使用重定向技术,将旧地址重定向到新地址。

  4、避免出现目前蜘蛛不善于处理的资源形式

  产生原因:一些网站出于视觉效果等考虑,将重要资源展示在页面内的框架结构、FLASH、JS特效区、图片、音频、视频中。

  5、避免让蜘蛛遍历层次过深

  产生原因:内容分类过多或过细,可能会分到4级以上,有几百甚至上千栏目,而一个页面的链接放置数是有限的,一些分类或栏目的链接不得不从首页点5次以上才到达。另外还有一些信息藏得较深,蜘蛛要从首页遍历较多层次后才能获得。

  6、避免错误配置文件妨碍蜘蛛爬行

  产生原因:网站配置UA访问权限,可能会配置不当而禁止了蜘蛛的正常爬行;网站配置IP访问权限,而误禁了部分蜘蛛IP;网站配置防刷新机制,而妨碍了蜘蛛爬行;网站配置robots等相关文件,而误禁止了蜘蛛对某些目录或文件的正常爬行。

  (二) 蜘蛛抓取爬行时被有意干扰的几个问题

  1、页面中被JS等形式放入一些黑链

  产生原因:疏于查看导出链接或技术缺失,仅凭肉眼或站长工具查看导出链。黑客等获益人就以js等形式将一些链接放置到网页中。

  2、页面被meta reresh,js等跳转到其他站点或页面

  产生原因:网站基本不管理或一些页面基本不维护,黑客等获益人就会明目张胆的写入跳转源码,让访问这些页面的用户跳转到其他站点或页面。

  3、页面被js等蜘蛛较难识别的形式嵌入一些内容

  产生原因:一些网站疏于查看自己页面的访问体验或缺少与访客的沟通。于是黑客等获益人就以蜘蛛较难识别的形式嵌入一些广告内容到网页中,处理的较好,网站安全工具也检测不出来,另外安全联盟厂家相关产品也无警告。

  4、网站被加入一些不相干的文件夹内容

  产生原因:一些网站管理者关注的是前台页面以及后台功能,没有关注到网站在搜索引擎的收录页面及关键词排名情况。于是黑客等获益人就在网站中加入一些不相干的文件夹内容,再通过站群等手段,将这些不相干内容的大力推广,于是这些url就被收录并且排名十分好。

  5、在不同的UA下显示不同的内容

  产生原因:通过识别访客的user-agent,让蜘蛛看到的是一个正常页面的内容,而让普通用户点击进入网站后看到的是另一个页面。主要因为一些网站管理者关注的是前台页面以及后台功能,没有关注到网站在搜索引擎的收录页面及关键词排名情况,于是黑客等获益人就喜欢在宿主网站上上传自己设计好的专门给搜索引擎看的内容,将它们的url进行站群式等推广,于是就被收录并且排名十分好。普通用户被跳转引导到目标网站,专门针对蜘蛛做的内容可引导蜘蛛到目标网站。这样普通用户和蜘蛛就都被劫持到目标网站上了。

  --lvxianlei2010