爬虫题库集锦

1、从输入网址到浏览器显示内容,发生了什么?
答案

2、编码GB2312GBKGB18030 区别和联系,还有UTF-8?
答案

GB2312:基本集共收入汉字6763个和非汉字图形字符682个

GBK:共收录了21003个汉字

GB18030:共收录汉字70244个

发行顺序:GB2312  GBK  GB18030

cchardet先检测一下编码,基本都能搞定了。

utf-8:全世界语言通用编码,包含了所有常见字符。

gbk:主要是中文编码,比 utf-8 占用的空间更少一点

3、写爬虫的一般步骤
答案

1.分析来源

2.抓取网页

3.匹配数据

4.提取数据

5.存储数据

4、
折叠标题
折叠内容

版权声明:
作者:hyzsj0106
链接:https://www.cxywy.com/?p=594
来源:程序员无垠
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
打赏
< <上一篇
下一篇>>
文章目录
关闭