目录：Python爬虫教程

网络爬虫小偏方：修改referer绕开登录和访问频率限制

王平 Python爬虫 2018-12-07 16:11:16 阅读(12312) 评论(2)

小猿看官们在写爬虫程序时应该都会遇到如下问题：

你的爬虫程序开发时能正常抓取网页，但是正式大量抓取时，抓取的网站总是返回403或者500等；
你抓取的网站需要登录，要花大量时间去研究网站登录流程。

遇到问题1，我们的第一反应是达到对方访问频率限制，IP被对方屏蔽了，然后就找更多IP和降低访问频率。
遇到问题2，就硬着头皮研究对方加密方法，或人肉登录后用机器把cookie保存下来，耗去好几天时间。

修改referer绕开访问控制

除了上述直接攻克的方法，还有一种取巧的方法可以绕过上述两个问题，就是修改http header中的referer来达到。注意这里是修改referer，不是修改user-agent。

老猿在网络爬虫的原理和爬虫分析利器：谷歌chrome浏览器中已经介绍过http header和怎么使用chrome浏览器查看header信息了，还不太了解的小猿看官可以再去复习一下这部分知识，这里就只着简单科普一下referer是啥。

referer是告诉目标服务器(访问的网站)，你是从哪儿点击进入当前页面的。
比如你在百度搜索猿人学，然后点击进入猿人学网站，这个时候通过抓包工具可以观察到，referer是类似如下样式：

就是告诉猿人学网站，你是从百度点击进入猿人学网站的。

啰嗦了一大堆，不好意思啊，回到正题。

当你遇到上诉两个问题时，你可以尝试把referer改成上述截图里的，是从搜索引擎点击进入的，你会发现有的网站，不会屏蔽从搜索引擎来的IP或者给这些IP的访问频率放得较为宽松。甚至有的网站内容本来是要登陆才能看见，但是你把referer改成是从百度来的，你会发现居然不用登录也能看见了。

其实一句话就能说完，写了这么一大篇，额。。。

这些网站为什么会厚此薄彼呢？
是有些网站想获取SEO流量，就把从搜索引擎点击进入的访问控制放得较为宽松的原因。所以当你遇到如上两个问题时，先改一改referer试试，这样可以节省你不少的研究时间。这适用于有的爬虫是个临时任务或者一次性的爬虫，不用长期维护，你快速写好抓完数据就好的时候适用。这个不是每个网站都有这样的待遇，在下遇到的有此情况的网站有某职业社交网站，某工商信息查询网站，某娱乐票务网站，就酱，只能说这么多。。。

ps:本篇不是把user-agent改成 Baiduspider ,让对方网站误认为是百度蜘蛛的做法。搜索引擎蜘蛛的IP范围，通过网站nginx日志是可以搜集完的，用点功夫的网站维护人员是知道这个IP是否为正规的搜索引擎蜘蛛。

你要问俺是如何发现的？
老猿俺除了写写爬虫，还会写写网站，顺带做做网站运营工作，就会经常看nginx日志，有天看日志时脑洞开了一下子。。。

我的公众号：猿人学 Python 上会分享更多心得体会，敬请关注。

***版权申明:若没有特殊说明，文章皆是猿人学 yuanrenxue.con 原创，没有猿人学授权，请勿以任何形式转载。***

上一篇 >：网络爬虫小偏方：突破登录和访问频率限制，多研究对方不同终端产品

下一篇 >：Python 爬虫网页内容提取工具xpath(二)

说点什么吧...

1楼
Memormou 5年前 (2019-04-12)

实践出真知！这种小技巧很实用而且原创性很高~

点评
- 回复
  王平 5年前 (2019-04-12)
  
  回复 @Memormou ：嗯，这种只有去摸索每个网站本身的一些反爬机制才知道

网络爬虫小偏方：修改referer绕开登录和访问频率限制

相关推荐

如何抽取上千家新闻网站正文

写爬虫是不违法的，违法的是你用数据干了非法的事

反爬虫的四种常见方式-JS逆向方法论

写爬虫，免不了要研究JavaScript设置cookies的问题

Python lxml ：从网页HTML/XML提取数据

写爬虫时常见的五种字符串编码特征

说点什么吧...

热门文章

猿人学武汉小伙伴聚会

2023猿人学长沙分猿聚会