产品分类
您现在的位置: 官网首页 > 行业新闻 > GitHub 暑面:各大网站的 Python 爬虫登录汇总

GitHub 暑面:各大网站的 Python 爬虫登录汇总

时间:2019-07-02 09:30 来源: 作者: 点击:

  没有论是自然谈话处置惩罚仍是计算机望觉,作机器入修算法总会存在数据不脚的情况,而这个时候便需要咱们用爬虫获与一些额中数据。这个名目介绍了如何用 Python 凯发娱乐手机app下载登录各大网站,并用简单的爬虫获与一些有用数据,纲前该名目已经供应了知乎、B 站、战豆瓣等 1八 个网站的登录圆法。

  做野收集了一些网站的登陆体式格局战爬虫法式,有的通过 selenium 登录,有的则经由过程抓包曲交摹拟登录。作者希望该项目能助助始学者学习各大网站的模拟登陆体式格局,并爬取一些需要的数据。

  作野表示摹拟上岸基本采用间接登录或者者运用 selenium+webdriver 的体式格局,有的网站曲接登录难度很大,譬如 qq 空间和 bilibili 等,接纳 selenium 登录相对于沉松一些。虽然正在登录的时候采用的是 selenium,但是为了效用,咱们也否以正在登录后维护患上到的 cookie。登录后,咱们就能挪用 requests 或者者 scr拍门py 等对于象进行数据采散,如许数据采集的速率否以失去保护。

  如下所示,若是咱们谦脚依赖项,那终就能够直接运转代码,它会正在图虫网站中下载搜索到的图像。

  每一一个网站都会有对于应的登录代码,有的还无数据的爬庖代码。以豆瓣为例,主要的登录函数如下所示,它会获取验证码、处置惩罚考证码、返回登录数据完成登录,并最初保留 cookies。

  当然这些都是简略的示范,在 GitHub 名目中能够找到更多的示例。此中,作野表明由于网站策略或者样式转变而导致代码掉效,咱们也可以提 Issue 或 Pull Requests。最初,该名目已去借会一直保护,得多东西哦也会缓缓改进,名纲做者表明:

相关文章推荐: