爬虫挣钱系列:数据整合之–结构化人名的机会

Python爬虫挣钱 2019-02-13 17:47:55 阅读(57810) 评论(24)

开年第一篇以挣钱话题开篇,祝朋友们19年都能开拓自己的被动收入渠道。本来想写个跟情人节相关的文章,写了又删,又写又删,觉得没啥意义,所以还是写Python技术和Python爬虫挣钱的文章吧。

看过我过往文章的老朋友知道我的一个写作方向是爬虫挣钱系列,今年会持续输出。文章里说的事例有的是我亲身实践过,比如接爬虫外包项目,比如数据整合做网站流量,挣百度网盟,比如爬虫技术去做增长黑客。有的事例是我基于上述经验而思索的方向,没有亲自实践。

今天这篇是我亲自实践过,每年能带来近10万被动收入的数据整合机会—结构化人名。

放硬币的猪形钱罐

什么叫结构化人名:
这个世界上有很多名人,红人,企业高管,各行业,各垂直领域,有很多很多。只要有一点名气就会有人在搜索引擎上输入你的名字,检索你的信息。每天这些搜索流量是高得可怕。

但是这些流量大头都被百度百科截获了,比如娱乐,体育,企业高管这些名人。

名人的百度指数

上图是一些名人每天在百度中的被搜索量,都是几千-几万的搜索量。

这些人都在百度百科里有词条了,那我们还有机会吗?

有,其实还有很多很多小名人,他们是没有百度百科的,用户在百度上搜索这些人名,只能在很多张网页中看到他们的只言片语, 他们的信息都散落在各个网页里,需要使用技术手段把这些人物结构化出来,把他们的发言,简介等个人相关信息结构化出来做成一张张网页。

哪些人物还有这种结构化机会?
大公司的基中层管理者,网络小V(相对于大V来说),小公司的高级管理者,垂直领域的知名者。举几个例子:
吴翰清,你知道是谁吗?
他是阿里云首席科学家,人称道哥,他是没有百度百科的。看看他的百度指数:

小名人百度指数

每天1000多人搜索。

比如曹政,网络名caoz,知名网络大V,他也是没有百度百科的。他没有百度指数,但是从我的流量统计数据看,每天也有上百人搜索他。

百度统计里的人名搜索量

上图是我的百度统计的搜索词流量的部分截图,你可以看到还有好些人名,他们都是各个领域的小有名气者。每天都有人在百度上搜索他们的名字。
PS:曹政的公众号:caoz ,的文章干货满满,很能开拓运营视野和知识边界。

结构化这些人名之后干什么?
做成网站,做成一个页面简单的人物介绍网站,一个人物一张网页,网页里是这个人物的个人介绍相关内容(这些是靠技术结构化出来的)。以便于被百度搜录,让网站有搜索流量进入,每天挣百度网盟费。

这是在做垃圾网站吗?
No. 用户搜索这些人名是想了解他们的信息,而这些信息之前都是散落在不同地方的,用户在搜索引擎里要一张张网页点击寻找,查阅是很繁琐的,你把这些信息聚合在一起一次性展示给用户,是节约用户时间,搜索引擎也是很欢迎这样做的。

涉及到的知识?
爬虫技术,数据结构化,自然语言处理,Web知识,简单网站运营技巧。

这是考验你各方面抓取能力的,你需要写一个不错的爬虫程序去大量抓取网页;
你需要运用各种手段(正则,bs,xpath等)去抽取千奇百怪的网页格式数据;
还需要一点自然语言处理技术来提高结构化的准确度和效率。
无论是自己搭建简易网站还是使用wp等博客系统,都需要对Web知识和网站运营有一点了解。

如何抓取?
抓取网页需要入口,需要准备一些关键字,比如:嘉宾介绍、高管介绍,作者简介、公司董事等等关键词借助百度,google,微信,微博等搜索渠道,过滤出可能的网页,然后对这些网页实施抓取和结构化。结构化是超级繁琐的事情。

要结构化多大量的人名?
你需要大量结构化至少数十万条人名才能每天有过万的流量,这个没办法靠人工,一个一个去网页上找然后整理编辑,因为这些人名的每天搜索量很小,靠人工每天去编辑几十条,要到猴年马月去了。我结构化了大约10万个人名,每天有4万IP左右,IP对应的百度网盟收入是:100:1的关系。

人物介绍每天IP数

为什么我要说这些?
1.我写的结合爬虫挣钱系列文章是一种思路,需要同时俱备不错的技术能力和流量运营思维。有这个技术的人可能不懂得如何运营,有这个流量视野的人可能技术上不行。

2.筑巢引凤,我领悟到了这里面的流量机会,如果能把人名结构化规模扩大到百万级,每年的网盟收入就会有数百万。

如果你有大量人物资料这方面的合法资源、渠道、点子,技术实力,私聊我,我们一起挣钱钱。

PS:不要问以下两个问题:
1.你的网站是哪个?
2.能不能把代码贡献出来?
我又出点子,又给代码,有这么好的躺挣机会请给我也来一打。

爬虫挣钱系列拓展阅读:
个人利用Python爬虫技术怎么挣钱
利用爬虫挣钱系列2-细说数据整合
他靠讲爬虫微课挣了一笔-但不讲爬虫技术

猿人学banner宣传图

我的公众号:猿人学 Python 上会分享更多心得体会,敬请关注。

***版权申明:若没有特殊说明,文章皆是猿人学 yuanrenxue.con 原创,没有猿人学授权,请勿以任何形式转载。***

说点什么吧...

  1. 1楼
    不闹先生 5年前 (2019-02-14)

    正如作者所言,人物信息都是从各个页面获取的,那是如何用一个程序去处理这么多的页面的,还是说就通过正则去匹配关键字,然后去获取内容

    • 回复
      王平 5年前 (2019-02-14)
      回复 @不闹先生 :先把网页抓取回来存储,再来分析,怎么好使怎么来。
      • 唐僧爱飘柔 5年前 (2019-03-19)
        回复 @王平 :你好,请问抓取的网页如何分析,可以大致讲下思路么
      • 王平 5年前 (2019-03-19)
        回复 @唐僧爱飘柔 :需要运用基本的NLP知识做人名识别,公司机构,职位等实体识别,然后抽出文本附近的相关信息。再要用一些关键词来提高精度,比如出席、参加、负责等等。
      • 唐僧爱飘柔 5年前 (2019-03-20)
        回复 @王平 :非常感谢
      • 王平 5年前 (2019-03-20)
        回复 @唐僧爱飘柔 :你觉得有收获就好,就怕被人打脸说不好。
  2. 2楼
    Mr.Liu 5年前 (2019-03-12)

    感谢作者的无私分享,果然是从不缺少挣钱的机会,只缺少挣钱的头脑啊。学无止境,受教了!!

    • 回复
      王平 5年前 (2019-03-13)
      回复 @Mr.Liu :是呀,对某一个领域了解深一点,机会就出来了
  3. 3楼
    唐僧爱飘柔 5年前 (2019-03-21)

    程序员一般都想不到怎么把技术变现,你的思路非常棒,感谢分享

    • 回复
      王平 5年前 (2019-03-21)
      回复 @唐僧爱飘柔 :我把‘先生’两个字去掉了,这个真是不敢当。多交流
  4. 4楼
    其超 5年前 (2019-03-21)

    谢谢作者一系列的文章,给我打开了一个崭新的世界啊。前面有读者提问关于如何抓取处理网页内容,我还想进一步询问一下。
    1.我们假设目标人物名字是小明和小红。小明是一个大学生,相关的信息从网页A, B, C上面可以得到,小红是个中学生,相关信息是从网页B, C, D上面获取。这样的话,把网页抓回来了以后,针对不同网页采用不同的分析办法,那么A, B, C, D岂不是各要写一个分析逻辑?如果量越来越大的话,那么分析逻辑岂不是需要很多种?因为你之前的文章也有说过,如果自动抓取的成本大于人工抓取的成本,这套做法就不合适了。我现在对这个有点没有想明白。多谢指导。(小白问题,实在不好意思)

    • 回复
      王平 5年前 (2019-03-21)
      回复 @其超 :不用各写一套逻辑的,既然是程序,写好之后就应该能流程化处理。只是需要一套规则加算法来覆盖
  5. 5楼
    lrg 7326563 5年前 (2019-03-25)

    和我以前的想法类似,只要有了数据,稍微有点影响力,就可以做另外一个块儿的业务,那就是艺术类假大师的挂名。以前要捧伪大师,都是靠报刊杂志,现在互联网上的一条信息,一个专栏页,就可以了。 不过这个,需要将原先书籍上的内容 给抄过来,用图片识别也可以,是个辛苦活。呵呵。

    • 回复
      王平 5年前 (2019-03-25)
      回复 @lrg 7326563 :现在图片文字识别正确率很不错的
  6. 6楼
    Leon 5年前 (2019-04-02)

    现在建站真的还能赚到钱吗

    • 回复
      王平 5年前 (2019-04-03)
      回复 @Leon :找到差异化的内容,机会总是有的,网络上总是不停有新生事物出现,新生事物出现时,内容是很奇缺的。
  7. 7楼
    checy 5年前 (2019-04-20)

    能不能做到类似维基百科那样,通过众创的方式将这些人名的信息收集起来,当然要通过一定的核实后,毕竟个人力量有限

    • 回复
      王平 5年前 (2019-04-21)
      回复 @checy :投入的精力很大,审核的压力太大,一不小心都要侵权的风险。
  8. 8楼
    Vi 5年前 (2019-04-29)

    学会了技术,去哪找活也是关键呀?

    • 回复
      王平 5年前 (2019-04-29)
      回复 @Vi :最好是自己业余时间探索写些有用的小工具,做成网站或者小程序之类的,挣钱广告费或者小工具付费。外包活不太好找的。
  9. 9楼
    wannna 5年前 (2019-08-17)

    公开他人个人信息算不算有问题

    • 回复
      王平 5年前 (2019-08-18)
      回复 @wannna :网络公开的应该问题不大,比如新闻报道,人物介绍文章
  10. 10楼
    wannnnnnna 5年前 (2019-08-18)

    亲,话说关键词查询用什么查啊

    • 回复
      王平 5年前 (2019-08-18)
      回复 @wannnnnnna :你搜索站长工具