简单的12行Python代码,带你初步窥探爬虫的秘境

往往不少童鞋写论文苦于数据获取艰难,辗转走上爬虫之路;

 
许多分析师做舆情监控或者竞品分析的时候,也常常使用到爬虫。
 
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。
 
今天,本文将带领小伙伴们通过12行简单的Python代码,初窥爬虫的秘境。
 
爬虫目标
 
本文采用requests + Xpath,爬取豆瓣电影《黑豹》部分短评内容。
 
运行以上的爬虫脚本,我们得以见证奇迹
简单的12行Python代码,带你初步窥探爬虫的秘境
爬虫结果与原网页内容的对比,完全一致
简单的12行Python代码,带你初步窥探爬虫的秘境
通过tqdm模块实现了良好的交互
 
工具准备
 
chrome浏览器(分析HTTP请求、抓包)
 
安装Python 3及相关模块(requests、lxml、pandas、time、random、tqdm)requests:用来简单请求数据lxml:比Beautiful Soup更快更强的解析库pandas:数据处理神器time:设置爬虫访问间隔防止被抓random:随机数生成工具,配合time使用tqdm:交互好工具,显示程序运行进度
 
基本步骤
 
网络请求分析
 
网页内容解析
 
数据读取存储
 
涉及知识点
 
爬虫协议
 
http请求分析
 
requests请求
 
Xpath语法
 
Python基础语法
 
Pandas数据处理
 
爬虫协议
 
爬虫协议即网站根目录之下的robots.txt文件,用来告知爬虫者哪些可以拿哪些不能偷,其中Crawl-delay告知了网站期望的被访问的间隔。(为了对方服务器端同学的饭碗,文明拿数据,本文将爬虫访问间隔设置为6-9秒的随机数)
简单的12行Python代码,带你初步窥探爬虫的秘境