文本混淆反爬虫-字体反爬虫

案例网址:http://www.porters.vip/confusion/movie.html

图片中的关键位置用到了字体反爬,比如评分的数字,我们调试模式查看时,会看到很多: □ ,在源代码中可以看到很多的: &#xe624.&#xe9c7

这种是自己设置了字体,字体文件打开可以看到都有对应的内容。

解决这种反爬目前我知道有两种方法:

  • 一种是下载字体文件,找到他的字形信息,设置映射,后面爬取,对应一下即可,还需要说一句,有的网站在这基础上,随意动动字形信息,结果可能就识别不出来了,我们需要k近邻算法进行识别。
  • 还有一种比较简单,截图,进行通用文字识别

代码如下:没有写完,思路明白了。

MD5需要的字形信息:

程序员未雨

Do one thing at a time, and do well.

暂无评论

发表评论

您的电子邮件地址不会被公开,必填项已用*标注。

相关推荐

鼠标轨迹的检测和原理

我们在浏览器鼠标拖动某个 web元素组件 时,是会记录一些坐标位置的,但是selenium 偏移时会造成只有起始点和终点的坐 ...

滑块验证码案例一

目标网址:http://www.porters.vip/captcha/jigsaw.html 观察结论: 当鼠标点击紫色按钮后,会出现缺口 查看html元素, ...

微信扫一扫

微信扫一扫

微信扫一扫,分享到朋友圈

文本混淆反爬虫-字体反爬虫