爬虫面经

1、对于多进程,多线程,多协程之间你是怎么理解的,一般在什么场景使用它们?

2、对于分布式爬虫,有做过吗,一天最大爬取量是多少?

3、做爬虫一般用哪种数据库,可以说说为什么要用这种数据库吗,以及它和其他数据库的区别?

4、ip 代理池,你是怎么搭建的?

5、遇到账号封禁,你是怎么解决的?

6、说说你是怎么解决验证码这一块的逆向,思路,还有具体一点的步骤。

7、对于 app 抓包你是怎么处理的?

8、你平常是怎么抓包的?

9、字体反爬你是怎么处理的?

10、做过 x x 的验证码吗?

11、处理爬虫这一块的数据,你是怎么处理的,例如数据的重复性,异常值。

12、对于风控,你是怎么处理的?

13、平常自己做过算法类的模型吗?

14、说说你做过项目中你认为最难的地方。

15、说说你遇到过最有成就感的逆向。

16、在反爬过程中,一般你遇到解决不了的问题,你会通过什么方式解决?

17、还有一些就是关于你爬虫用的那些框架的知识了。例如:scrapy的中间件,你是怎么使用的……

版权声明:
作者:hyzsj0106
链接:https://www.cxywy.com/?p=610
来源:程序员无垠
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
打赏
< <上一篇
下一篇>>
文章目录
关闭
目 录