爬虫技术不只是用来抓数据

Python爬虫 2019-01-07 13:50:46 阅读(7217) 评论(2)

写爬虫抓数据只是爬虫技术的应用方向之一,一个公司可以靠着爬虫技术引来倍增的流量/用户, 完成关键的冷启动,还能用来打败对手;个人可以利用爬虫技术获得被动收入,俗称趟挣。 这篇聊一下公司篇。

爬虫技术不只是用来抓数据

定义下爬虫技术
为了抓数据所运用的模拟登录、模拟账号、养IP/账号池、抓包分析、模拟用户访问等技术手段,我们称为爬虫技术。

典型的如:一键发布功能
一个自媒体人会维护多个自媒体平台, 如头条,微信公众号,简书,知乎专栏,搜狐自媒体等等,同一篇稿子会往这十几个平台搬运,靠人去挨个平台编辑耗时耗力,所以衍生出做一键发布文章到各个自媒体平台的公司。

一键发布所用到的主要技术就是模拟登录和模拟提交post请求,谁家能提供好用稳定的同步功能谁就胜出。

一键发布技术可以运用在很多事情中,比如一键发布视频到多个视频网站;一键发布活动到多个活动报名平台,一键发布旅游攻略到多个旅行网站,只要那个行业存在多个同类公司,就有可能衍生出一键发布需求。

Airbnb的冷启动
共享住宿的鼻祖Airbnb早期的用户量和客房量不足,而分类信息发布平台Craigslist拥有庞大的用户量,Airbnb想从Craigslist网站上分走一些流量。

就想出一个办法,以前房东只在Craigslist发布租房信息,Airbnb告诉房东你们在我这发布信息后,我们可以自动帮你同步信息到Craigslist上,房东一想挺好的,编辑一次在Airbnb和Craigslist就都有了,这样从Craigslist那里吸引了很多房东到Airbnb发布租房信息。

这背后的技术其实就是上面说的一键发布功能,就是模拟对方网站的post请求。这让Airbnb基本是零成本获得了数十万新增房源。

一个获得30w用户的自动对话机器人
产品牛人纯银之前做了一款旅游攻略产品禅游记,起初用户很少,增长较慢,他们想出来一个办法。

就是用户在旅游过程中会在微博上发博分享心情,于是他们写了一个简单的自动对话机器人,自动在微博上搜索寻找旅游的人,然后给他们私信对话,总体意思就是想让这类用户去他们网站发旅游攻略。靠着这一招,在微博上薅到30万用户去他们网站。后来禅游记被携程收购了。

这里面的技术点就是维护多账号模拟登录微博,自动搜索,抓包分析私信的各种参数填充,控制频率等。

说到这里了,就再啰嗦一点。
这些其实主要跟运营相关,所用到的技术没那么复杂,用Python爬虫来做也没那么难,但为什么要讲这些例子呢?

之前在工作中遇到几次,技术同事给我说运营天天让他写自动发帖,模拟对方网站请求功能,而且不稳定,天天让他改,他觉得没技术含量,想辞职,他立刻批准了,在他眼里他只看到对自己有没有好处,在我眼里我看到是对公司有没有好处,做这些事情从统计数据来看对公司的流量和订单很有帮助。

我们每年都渴望升职加薪,跟公司利益一致的人获得加薪概率更大,如果你长久在一家公司工作,主要是靠着公司的不断成长来获得自己的收益,如果公司不成长了,你的收益也会跟着下降,除非不断跳槽跳来跳去。

撤远了。
文章首发于我的公众号:猿人学Python

猿人学banner宣传图

我的公众号:猿人学 Python 上会分享更多心得体会,敬请关注。

***版权申明:若没有特殊说明,文章皆是猿人学 yuanrenxue.con 原创,没有猿人学授权,请勿以任何形式转载。***

说点什么吧...

  1. 1楼
    贺先生 2年前 (2021-12-01)

    老大,36岁了能不能学爬虫,人事这个行业

    • 回复
      王平 2年前 (2021-12-02)
      回复 @贺先生 :建议不要了哈