百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

知乎大神教你用Python爬取高颜值美女,附代码

wxin55 2024-11-17 16:54 8 浏览 0 评论

都知道Python的抓取功能强大,可以帮我们从海量的数据中爬取所需要的进行分析。下面,千锋武汉Python培训小编就给大家分享知乎大神怎么用Python爬取高颜值美女!

1、数据源

知乎话题『美女』下所有问题中回答所出现的图片

2、抓取工具

Python3,并使用第三方库Requests、lxml、AipFace,代码共100 +行

3、必要环境

●Mac / Linux / Windows(Linux 没测过,理论上可以)。

●Windows之前较多反应出现异常,后查是windows对本地文件名中的字符做了限制,已使用正则过滤

●无需登录知乎(即无需提供知乎帐号密码)

人脸检测服务需要一个百度云帐号(即百度网盘 / 贴吧帐号)

4、人脸检测库

AipFace,由百度云 AI 开放平台提供,是一个可以进行人脸检测的 Python SDK。可以直接通过HTTP访问,免费使用。

5、检测过滤条件

●过滤所有未出现人脸图片(比如风景图、未露脸身材照等)

●过滤所有非女性(在抓取中,发现知乎男性图片基本是明星,故不考虑;存在 AipFace 性别识别不准的情况)

●过滤所有非真实人物,比如动漫人物 (AipFace Human 置信度小于 0.6)

●过滤所有颜值评分较低图片(AipFace beauty 属性小于 45,为了节省存储空间;再次声明,AipFace 评分无任何客观性)

6、实现逻辑

●通过 Requests 发起 HTTP 请求,获取『美女』下的部分讨论列表

●通过 lxml 解析抓取到的每个讨论中 HTML,获取其中所有的 img 标签相应的 src 属性

●通过 Requests 发起 HTTP 请求,下载 src 属性指向图片(不考虑动图)

●通过 AipFace 请求对图片进行人脸检测

●判断是否检测到人脸,并使用 『4 检测过滤条件』过滤

●将过滤后的图片持久化到本地文件系统,文件名为 颜值 + 作者 + 问题名 + 序号

●返回第一步,继续

7、抓取结果

直接存放在文件夹中(angelababy 实力出境)。另外说句,目前抓下来的图片,除 baby 外,88 分是最高分。个人对其中的排序表示反对,女神竟然不是最高分!

8、代码

9、运行准备

●安装 Python 3,Download Python

●安装 requests、lxml、baidu-aip 库,都可以通过 pip 安装,一行命令

●申请百度云检测服务,免费。人脸识别-百度AI

当然爬虫只是Python强大功能的一部分。如果你想紧追潮流学习这门最具前景的语言可以去千锋武汉Python培训机构系统学习一下。千锋武汉Python培训课程内容涉及Web、爬虫、Python全栈、人工智能和数据挖掘等最新潮流的技术,大牛讲师团队全程面授,丰富的项目实战教学,让学员不止于学,更要学会,更要能够应用到工作中,毕业之后可以无缝对接真实工作需求。

5个月时间在千锋武汉Python培训机构可以完全系统学习Python,大咖导师带你合理避坑,接轨企业实战,一步成为Python开发工程师,更有多家名企不定期上门招聘人才!想了解更多Python行业动态和学习资料,可以关注“武汉千锋”微信公众号。

相关推荐

总结雅虎前端性能优化技巧(16条)

前言在日常开发中,有很多场景需要我们去做好前端优化,为了防止遗忘,加深记忆,今天参阅了一些资料以及自己的一些总结,梳理出来15条优化技巧。1.合并文件css、js合并,减少http请求数,每次http...

前端掉坑血泪史!4 个 React 性能优化绝招让页面秒开

在前端圈子里摸爬滚打这么多年,我发现React开发时踩坑的经历大家都大同小异。页面加载慢、组件频繁重渲染、状态管理混乱……这些痛点,相信不少前端工程师都感同身受。别愁!今天就给大家分享4个超...

Qwik:革新Web开发的新框架

听说关注我的人,都实现了财富自由!你还在等什么?赶紧加入我们,一起走向人生巅峰!Qwik:革新Web开发的新框架Qwik橫空出世:一场颠覆前端格局的革命?是炒作还是未来?前端框架的更新迭代速度,如同...

大模型服务平台百炼使用

提供完整的模型训练、微调、评估等产品工具,预置丰富的应用插件,提供便捷的集成方式,更快更高效地完成大模型应用的构建。一、通过变量的方式使用平台模板一个好的Prompt可以更好的让模型理解我们的需求,产...

Vue应用性能优化实战:8 个提升页面加载速度的关键策略

一、构建优化与代码精简1.1代码分割与异步加载路由级代码分割:使用动态导入语法拆分路由组件组件级懒加载:结合Suspense实现按需加载javascript//vue-router4.x配置...

前端里那些你不知道的事儿之 【window.onload】

作者:京东科技孙凯一、前言相信很多前端开发者在做项目时同时也都做过页面性能优化,这不单是前端的必备职业技能,也是考验一个前端基础是否扎实的考点,而性能指标也通常是每一个开发者的绩效之一。尤其马上接近...

谷歌站长后台的“核心网页指标”不合格先优化哪个最有效?

根据对上千个网站案例的分析,90%的站长在修复时都陷入“盲目优化”误区——要么死磕服务器配置却忽略图片规范,要么过度压缩JS反而引发CLS布局错位。事实上,移动端页面抖动(CLS)才是60%中小网站的...

Vue3 开发效率拉胯?这 10 个技巧让你开发速度翻倍!

写Vue3项目时,是不是经常被数据更新延迟、组件间传值混乱、页面卡顿这些问题搞得焦头烂额?别担心!今天带来10个超实用的Vue3实战技巧,全是从真实项目中总结出来的“血与泪”经验,帮你...

2024年的JavaScript性能优化:仍然重要吗?

#记录我的9月生活#在不断发展的Web开发领域,新的JavaScript框架和库令人眼花缭乱,很容易让人忽视一些基本的东西。但在这股兴奋之中,性能作为一个卓越用户体验的基石,不能被忽略。为什么?因为...

JS 图片简易压缩【实践】

作者:政采云前端团队转发链接:https://juejin.im/post/5ea574cc518825736e57fcca前言说起图片压缩,大家想到的或者平时用到的很多工具都可以实现,例如,客户端类...

Vue3 开发总踩坑?这 10 个技巧让你少走半年弯路!

前端开发的路上,Vue3虽然强大,但坑也不少!性能优化总没效果?复杂组件通信一头雾水?别担心!今天分享10个超实用的Vue3实战技巧,全是一线开发总结的经验,帮你轻松避开开发雷区,效率直接拉...

前端分享-Vue首屏加载优化

首屏加载速度直接影响用户留存率——当加载时间超过3秒,53%的用户会直接离开(网上来的数据)。Vue单页应用尤需重视,因为传统打包方案会将所有资源打包成巨大的vendor.js,导致用户首次访问时像下...

Core Web Vitals 变了,网站性能这件事得重新关注

现在做网站优化,不能只看速度条,不管你是搞外贸独立站,还是给品牌建站,体验页面这件事你迟早得面对。谷歌这两年把网站的“体验感”提得越来越多,尤其是CoreWebVitals(网页核心指标)一出来,...

页面卡顿到崩溃?5 个实战技巧让前端性能飙升 80%!

作为前端工程师,你有没有遇到过这种情况:精心开发的页面,一上线就被用户吐槽卡顿、加载缓慢,甚至频繁崩溃。明明代码逻辑没问题,可性能就是上不去,这到底是哪里出了问题?别着急,今天就来分享5个超级实用...

周末复习前端js基础知识点总结一,记录完之后好复习(大佬勿喷)

一、深浅拷贝知识1、基本数据类型只有赋值没有拷贝2、数组和对象的赋值是浅拷贝3、结构赋值是深拷贝还是浅拷贝?二、实现深拷贝的几种常用方法方法1、通过json方法深拷贝方法2.基本的封装深拷贝的方法采用...

取消回复欢迎 发表评论: