数据分析 - 跨境电商爬虫成长记 之 第一篇:python常用爬虫框架与工具
爬虫干货文章打造一个健壮高效的网络爬虫-崔庆才python爬虫系列版Python高级—从趟过的坑中聊聊爬虫、反爬、反反爬爬虫常用框架scrapy框架:目前较成熟与常用的爬虫框架Crawley框架:可以比较高效地攫取互联网对应的内容Portia框架: 可以可视化地爬取网页的框架newspaper:用来提取新门卫新闻,文章及内容分析的Python爬虫框架,由第三方开发pyspider爬虫框架: 能在浏
·
爬虫干货文章
爬虫常用框架
- scrapy框架:目前较成熟与常用的爬虫框架
- Crawley框架:可以比较高效地攫取互联网对应的内容
- Portia框架: 可以可视化地爬取网页的框架
- newspaper:用来提取新门卫新闻,文章及内容分析的Python爬虫框架,由第三方开发
- pyspider爬虫框架: 能在浏览器界面上进行脚本的编写
- Grab爬虫框架:用于构建Web刮板的Python框架
- Cola爬虫框架:分布式爬虫框架
爬虫模拟浏览器框架
- Selenium:常用,略
- Splinter:Python 开发的开源web自动化测试的工具集
- Spynner:可编程Web浏览器Python模块,支持AJAX,可爬取js动态界面
- pyppeteer:安装配置的便利性和运行效率方面都要远胜selenium
- PhantomJS:已停止更新
- Splash:带有HTTP API的轻量级Web浏览器,常与scrapy搭配使用
- requests-html:在requests库基础上增加解析HTML的功能
代理爬虫
爬虫辅助工具
- 解析模块 lxml
- 解析模块 beautifulsoup
- 解析模块 pyquery
- 解析模块 js2py 通过python执行JavaScript代码
- 解析模块 execjs 通过python执行JavaScript代码
- 伪装UA fake-useragent
- 抓包工具 fiddler
- Chrome开发者工具详解
更多推荐
所有评论(0)