知乎python 爬虫如何入门学习

发布网友发布时间：2022-04-19 20:47

我来回答

共2个回答

热心网友时间：2022-04-07 13:13

链接：https://pan.baidu.com/s/1wMgTx-M-Ea9y1IYn-UTZaA

提取码：2b6c

课程简介

毕业不知如何就业？工作效率低经常挨骂？很多次想学编程都没有学会？

Python 实战：四周实现爬虫系统，无需编程基础，二十八天掌握一项谋生技能。

带你学到如何从网上批量获得几十万数据，如何处理海量大数据，数据可视化及网站制作。

课程目录

开始之前，魔力手册 for 实战学员预习

第一周：学会爬取网页信息

第二周：学会爬取大规模数据

第三周：数据统计与分析

第四周：搭建 Django 数据可视化网站

......

热心网友时间：2022-04-07 14:31

入门”是良好的动机，但是可能作用缓慢。如果你手里或者脑子里有一个项目，那么实践起来你会被目标驱动，而不会像学习模块一样慢慢学习。

另外如果说知识体系里的每一个知识点是图里的点，依赖关系是边的话，那么这个图一定不是一个有向无环图。因为学习A的经验可以帮助你学习B。因此，你不需要学习怎么样“入门”，因为这样的“入门”点根本不存在！你需要学习的是怎么样做一个比较大的东西，在这个过程中，你会很快地学会需要学会的东西的。当然，你可以争论说需要先懂python，不然怎么学会python做爬虫呢？但是事实上，你完全可以在做这个爬虫的过程中学习python :D

看到前面很多答案都讲的“术”——用什么软件怎么爬，那我就讲讲“道”和“术”吧——爬虫怎么工作以及怎么在python实现。

先长话短说summarize一下：
你需要学习

基本的爬虫工作原理
基本的http抓取工具，scrapy
Bloom Filter: Bloom Filters by Example
如果需要大规模网页抓取，你需要学习分布式爬虫的概念。其实没那么玄乎，你只要学会怎样维护一个所有集群机器能够有效分享的分布式队列就好。最简单的实现是python-rq: https://github.com/nvie/rq
rq和Scrapy的结合：darkrho/scrapy-redis · GitHub
后续处理，网页析取(grangier/python-goose · GitHub)，存储(Mongodb)

全部栏目

知乎python 爬虫如何入门学习