利用爬虫挣钱系列2-细说数据整合

Python爬虫挣钱 2018-12-04 16:48:14 阅读(153561) 评论(21)

上一篇写了个利用爬虫挣钱的框架,这篇写细一点,我曾经做过的一个简单数据整合挣网盟收入的案例。

Python爬虫挣钱之二

上一篇讲述了企查查/天眼查这类提供企业工商信息查询服务,他的企业立家根本就是抓取企业工商信息和整合这些数据的能力,这在抓全率和准确性上要求颇高,这需要一个团队来完成才行。

我在研究这类公司流量来源时,观察到从搜索引擎来的流量不错,就在思考做一个简易版的企业工商信息查询用于获取搜索流量。

你要问:为什么已经有几个这类网站了,我还要做这个呢?

因为中国有几千万家公司,每一家公司都是一张网页的话,就有几千万张网页,从SEO(搜索引擎优化)来讲,你的网页越多,薅到的搜索流量概率就大一点,如果只是几千几万个网页,你薅到流量的概率可能是0,但是量级到千万时,你的机会就被放大了。

你还要在问:你都是抓人家的网页,搜索引擎凭什么给你排名,给你流量?

第一,已有的网站 在SEO的标题关键词设置上 还有做得更好的空间。
第二,我肯定不是全复制,会糅杂一些内容在里面。
第三,概率问题,因为有几千万个网页(这些页面内容是有价值的),足够多,有概率做到有排名和有流量的可能性。
(搜索引擎排名虽然有算法控制,我估计还写了大量的规则在控制,规则写多了有个缺陷,就是自己都搞不清楚规则间的关联性了。开玩笑的!)

就这样我就撸起袖子开始写爬虫了,大约写了四周多,因为需要拨号换IP,就买了一个歪的可以拨号的云主机,中间大部分时间都在解决这台云主机的自身限制问题,这台主机只有500M空余内存,1G多空余硬盘空间,我大部分时间都在想怎么把这几千万家工商信息html放进1G多的硬盘里,怎么把爬虫的运行内存控制在500M以内。

由于是个单台爬虫程序,把网页抓取完又用了1个多月。这中间还到国庆放假,白天就在泸沽湖晚,晚上就在房间里调试程序,fxxk,网页又改版了,账号又不能用了,程序咋又停掉了呢,当程序员就是一直陷在这种代码调试,不断口念fxxk的生活中。

这抓取的过程间隙,我找了一个前端同事写了个最简单html网站,只有5,6个页面,真的是简单。我就在想后端程序的问题,就我一个人一杆枪,还是个前途未卜的网站,不可能写个很好的后端程序,关键是数据库里有几千万条数据,要支持各种分类查询,翻页操作,于是就想办法针对这个业务本身的性质做优化,在数据库操作和缓存上做特定的方式,这样我就可以一个人搞定所有,任何查询都在几百毫秒内响应。这个借鉴了大V caoz写数据索引文章的思路。

数据抓完,网站上线,提交了搜索引擎,那个网站基本没人管,过了大半年后有小几万IP,每个月的网盟收入有几千块,现在流量和收入都还在往上涨,虽然对于公司来说算少的,但是只花了两月时间,后续没有维护,产出比还是可以的。

PS:还是强调,抓取的数据和商用数据,要合法合规,现在的尺度越来越收紧了。

猿人学banner宣传图

我的公众号:猿人学 Python 上会分享更多心得体会,敬请关注。

***版权申明:若没有特殊说明,文章皆是猿人学 yuanrenxue.con 原创,没有猿人学授权,请勿以任何形式转载。***

说点什么吧...

  1. 1楼
    Doopy 5年前 (2019-01-04)

    上一篇讲述了企查查/天眼查这类提供企业工商信息查询服务
    这一篇在哪里?站长请问有什么比较好的爬虫项目练练手吗?面向就业的

    • 回复
      王平 5年前 (2019-01-04)
      回复 @Doopy :被你发现了,那一篇文章被我毙了,额。。。。你把天眼查抓下来就是比较好的练手。IP,账号,特定网站的规则研究等各方面技能都会用到。几千万家企业能在2-3周内抓完的话,你来我公司吧。
      • fengshi 5年前 (2019-01-12)
        回复 @王平 :到时可以试一把,就是代理得费点钱
      • Vi 5年前 (2019-05-02)
        回复 @王平 :哈,听起来很刺激的样子哟~~~~老师,爬下来去哪换钱呀
      • 王平 5年前 (2019-05-03)
        回复 @Vi :看后面的做网盟广告文章
  2. 2楼
    Doopy 5年前 (2019-01-04)

    我要粉楼主。公众号也关注了(^-^)V

    • 回复
      王平 5年前 (2019-01-04)
      回复 @Doopy :感谢关注,作为回报,在公众号后台把你微信号留给我吧,我们私人交流
  3. 3楼
    昔日的魅影 5年前 (2019-02-15)

    谢谢楼主分享,已关注公众号,继续学习中

    • 回复
      王平 5年前 (2019-02-15)
      回复 @昔日的魅影 :好的,一起学习,多交流
  4. 4楼
    匿名 5年前 (2019-03-13)

    想问问大佬SEO这些商业运营知识

    • 回复
      王平 5年前 (2019-03-13)
      回复 @ :百度有官方的搜索优化指南,主要还是做好内容和网站结构做好
  5. 5楼
    匿名 5年前 (2019-05-07)

    已关注公众号,博主文章可以给低手开一扇门

    • 回复
      王平 5年前 (2019-05-07)
      回复 @ :你多详细提点意见啊,就是拿捏不准要写些什么
  6. 6楼
    匿名 5年前 (2019-06-11)

    我也关注了 但是哪里有网盟广告?推荐文章就是吗??

    • 回复
      王平 5年前 (2019-06-11)
      回复 @ :猿人学网站现在没有放广告
  7. 7楼
    匿名 5年前 (2019-07-02)

    天眼查除了账号还要打码吧,大佬是怎么来维护这个cookies池的。登陆的效率很低啊,而且验证码也要解决。翻页翻多的时候是真的头疼。

    • 回复
      王平 5年前 (2019-07-02)
      回复 @ :不用登录,用抓取策略来弥补需要登录才能看到得内容
      • 匿名 5年前 (2019-08-10)
        回复 @王平 :请问一下您说的抓取策略来弥补需要登录才能看到的内容这个怎么理解
      • 王平 5年前 (2019-08-12)
        回复 @ :比如有的APP内查看需要登录,从分享出来的链接点开不需要登录
  8. 8楼
    大佬带我肥 5年前 (2019-09-25)

    学习了,细读每一篇文章。一直不知道怎样把技术变现,学习了,谢谢。

  9. 9楼
    任逍遥 2年前 (2022-05-01)

    楼主很强,看的很多 关注了公众号