网络爬虫

Tip

有空一定要多去学习和请教,似乎是非常不错的安全、逆向方面相关的技术论坛:看雪-安全社区|安全招聘|kanxue.com

互联网技术日新月异,但正所谓你有政策我有对策,代码并不是无解的,先不说bug这种玄学的东西,就算是是技术本身也是可朔源不是吗。除了正常的软件开发、网络建设,还有一些被归为“不合法”的技术没有被广泛宣传,当然不可能了,不过技术本无罪,我就是想学,现在的我也就写点简单的爬虫,破解逆向等以后安定了好好琢磨琢磨ψ(`∇´)ψ

爬虫技术是指利用计算机程序自动地获取互联网上的信息的技术。通常,爬虫技术被用于搜索引擎、数据挖掘、信息监控等领域。爬虫程序会按照预定的规则自动地访问网络页面,提取页面中的信息,并将这些信息进行处理和存储,以便后续的分析和应用。
一般对于某些公司出于某些目的还是会使用爬虫技术来干些不可言说的勾当并一般用作数据采集配合数据分析,但对于我这种个人而言则是服务于自己的娱乐目的满足自己的小小需求
爬虫手段大体分为两种

  • API+源码:很多语言如Python、Java、nodejs都会有网络请求库,并基于这个库对于网站或API发起调用解析响应内容提取想要爬取的东西
  • 模拟人工行为:类似rpa的概念,模仿人工访问和点击,从页面抓取数据,爬取的速度不及API请求源码但胜似稳定并且适用于反爬机制复杂的网站和新手不必分析复杂的网络请求,比如Selenium框架

对于API请求分析方式,除了熟悉对应语言使用的网络封装库外,要完成数据提取还需要掌握好JSoup、Xpath、正则表达式等必要的语法知识(当然现在插件这么发达,不需要太深入,但也需要了解基础的语法,尤其是正则表达式必须至少熟练基础语法,我见过把正则玩的很牛逼的家伙,一个油猴脚本基本全靠正则真的无敌),还有常见的加解密方法、过反爬技巧、过验证

自动化

其实就是rpa的概念,像一些测试人员可能也会用到,但我只是当做娱乐开黑的手段
桌面端:

安卓端则有,有空好好研究,让闲置手机充分利用时间干活:

逆向

网站js:这应该是最简单的,根据我一位网友前辈的说法,根本不需要懂和理解网站那一坨乱七八糟的js是什么东西,只要顺藤摸瓜能跑就行(当然了这个能跑是指的直接JS代码跑),如果要转换成其他语言肯定是要理解它的代码的

客户端

安卓

ios