极客猴 - 不日进则日退

计算机网络

发表于2018-12-202025-11-21

QQ 承载着我们一代人的青春和记忆，一个账号和密码就能体验 QQ 各种功能。而微信作为一款国民级应用，是每个人手机必安装的软件，同样也需要一个账号登陆才能使用。纵观各种社交应用、网站，往往都是离不开账号体系。账号体系中有个重要的功能是账号登录，账号登录涉及到身份认证方法。我们在模拟登录网站去进行数据采集时，经常需要跟网站的身份认证“斗智斗勇”。因此，让我们来扒一扒其中的一些原理。 1.基本身份验证我们写的爬虫都是采用 HTTP/HTTPS 协议。 HTTP 协议中有种名为 Basic Authentication（基本身份验证）的验证方式。这种认证方式在 HTTP/1.0 就定义了。它的原理是在请求的 Headers 中增加 Authorization 字段，该字段的值是将“用户名：密码”的经过 Base64 编码之后的字符串；然后将其发送给服务器端做校验。我们进一步理解 HTTP 基本认证的过程：客户端发送 Request 给服务端。因为 Request 的 Headers 中没有包含 Authorization 字段，服务器会返回一个 4 ...

Python编程

未读

Python 代码性能优化技巧

发表于2018-12-132025-11-21 Python

众所周知，程序的性能好坏影响着用户体验。所以性能是留住用户很重要的一环。 Python 语言虽然能做很多事情，但是有一个不足之处，那就是执行效率和性能不够理想。因此，更有必要进行一定的代码优化来提高 Python 程序的执行效率。本文章主要是输出自己在 Python 程序优化的经验。 1.尽量使用内置函数Python 的标准库中有很多内置函数，它们的运行效率都很高。因为很多标准库是使用 C 语言编写的。 Pyhton 的内置函数有：原图比较大，排版原因可能导致字体看不清。在公众号后台中，回复【内置函数】即可获取高清图片。 2.拼接字符串运算符 “+“ 不仅能用于加法运算，还能做字符串连接。但是这种效率不是很高。在 Python 中，字符串变量在内存中是不可变的。如果使用 “+“ 拼接字符串，内存会先创建一个新字符串，然后将两个旧字符串拼接，再复制到新字符串。推荐使用以下方法： 2-1.使用 “%” 运算符连接这种方式有点像 C 语言中 printf 函数的功能，使用 “%s“ 来表示字符串类型参数，再用 “%“ 连接一个字符串和一组变量。 1234fir = & ...

个人成长

未读

阅读优秀代码是提升技术的最佳途径

发表于2018-12-022025-11-21 Python 个人成长

我们身在行业中，要不断地学习提高自己的能力。有一种不错的方式来提高自己的技术实力。那就是阅读别人优秀的代码。那也许你会有疑问，为何要阅读别人优秀的代码？而不是拿到代码就进行阅读？正如意大利作家伊塔洛·卡尔维诺的《为什么要读经典》中提到经典于对喜欢它的人构成一种宝贵的经验。因此，阅读别人的优秀源代码有很多好处，收益也会非常大。通过大量阅读别人的代码，我们可以采用更先进的方法、风格和架构模式，让自己的技术能力和知识不断的增长。我收集一些优秀的 Python Web 相关的优秀项目，分享给大家参考学习。 1.flask-adminflask-admin 是基于 flask 框架开发的 admin 管理系统。该库能基于现有的数据模型，快速创建管理界面。易用性很高，简单配置参数就能运行。运行结果如下：另外，它还是微服务应用，提供很多 API。我们能从中学到微服务架构设计思路、数据(model)-视图(view) 绑定设计等。 Github 仓库地址 2.FlaskBBFlaskBB 基于 Flask 框架做的论坛，轻量级的论坛应用。虽然具备论坛帖子分类、成员&#x ...

数据分析

未读

使用 Python 分析全国所有必胜客餐厅

发表于2018-11-272025-11-21 Python 热门数据分析 pyecharts

在之前的一篇文章中，我讲到如何爬取必胜客官网中全国各大城市餐厅的信息。虽然餐厅数据信息被抓取下来，但是数据一直在硬盘中“躺尸”。不曾记得，自己已经第 n 次这么做了。说到这里，要追溯到自己的大学时光。自己从大学开始就接触 Python，当时是自己的好奇心很强烈。好奇为什么 Python 不需要浏览器就能抓取网站数据。内心感叹到，这简直是太妙了。自己为了体验这种抓取数据的乐趣，所以写了很多的爬虫程序。随着自己知识面地拓展，自己了解到数据分析这领域。自己从而才知道爬取到的数据，原来背后还隐藏的一些信息。自己也是在学习这方面的相关知识。这篇文章算是数据分析的处女稿，主要内容是从数据中提取出必胜客餐厅的一些信息。 1.环境搭建百度前端技术部开源一个基于 Javascript 的数据可视化图表库。其名字为 ECharts。它算是前端数据可视化的利器，能提供直观，生动，可交互，可个性化定制的数据可视化图表。国内有个大神突发奇想，这么好用的库如果能和 Python 结合起来就好了。于是乎，pyecharts 库就应运而生。因此，pyecharts 的作用是用于生成 ...

Python爬虫入门

未读

爬虫必备工具 —— Chrome 开发者工具

发表于2018-11-252025-11-21 Python 抓包工具

在《论语》中，孔子提倡“学而不思则罔，思而不学则殆”的学习方法。我们再往深层面挖掘，“思”究竟是在思考什么？个人理解是思考并总结出一些共性的东西，即“套路”。有套路了，我们学习或工作会更加有效率。当我们爬取不同的网站是，每个网站页面的实现方式各不相同，我们需要对每个网站都进行分析。那是否有一些通用的分析方法？我分享下自己爬取分析的“套路”。在某个网站上，分析页面以及抓取数据，我用得最多的工具是 Chrome 开发者工具。 Chrome 开发者工具是一套内置于 Google Chrome 中的 Web 开发和调试工具，可用来对网站进行迭代、调试和分析。因为国内很多浏览器内核都是基于 Chrome 内核，所以国产浏览器也带有这个功能。例如：UC 浏览器、QQ 浏览器、360 浏览器等。接下来，我们来看看 Chrome 开发者工具一些比较牛逼的功能。 1.元素面板通过元素（Element）面板，我们能查看到想抓取页面渲染内容所在的标签、使用什么 CSS 属性（例如：class=”middle”）等内容。例如我想要抓取我知乎主页中的动态标题，在网页页面所在处上右 ...

数据分析

未读

推荐几个免费数据源的网站（送书福利）

发表于2018-11-202025-11-21 Python 数据分析

说到数据分析，我们会很容易联想到 Python。因为我们可以拿 Python 对已有的数据做数据分析。那什么是数据分析？数据分析指用适当的统计分析方法对收集来的大量数据进行分析，提取有价值的信息。在实用中，数据分析可帮助人们作出判断，以便采取适当行动。 “啤酒与尿布”的故事就是最典型的数据分析案例。 “啤酒”和“尿布”这两个商品看上去没有关联性。而沃尔玛将其摆放在一起进行销售、并获得了很好的销售收益。原因在于沃尔玛对购物篮分析，研究出“啤酒与尿布”之间存在一定关联性。这就是数据分析的意义。再例如通过数据分析出北京的空气质量的走势；分析近 10 年来 NBA 球队战绩和夺冠率之间的关系等等。说到这里，你也许有疑问。我没有数据，怎么做数据分析？别急，我推荐几个免费的数据源网站。 1.awesome-public-datasets这是一个 GitHub 仓库，其收集的数据所在领域比较广泛，收录政府、金融、计算机网络、软件、体育、气候天气等30个领域的数据。这些数据集的质量都是比较高，大部分都是免费且能直接下载到的数据。 Github 仓库地址 2.FiveT ...

Python爬虫实战

未读

100 行代码爬取全国所有必胜客餐厅信息

发表于2018-11-132025-11-21 Python 网络爬虫爬虫实战热门

当我刚接触 Python 时，我已经被 Python 深深所吸引。 Python 吸引我的地方不仅仅能用其编写网络爬虫，而且能用于数据分析。我能将大量的数据中以图形化方式呈现出来，更加直观的解读数据。数据分析的前提是有数据可分析。如果没有数据怎么办？一是可以去一些数据网站下载相关的数据，不过数据内容可能不是自己想要的。二是自己爬取一些网站数据。今天，我就爬取全国各地所有的必胜客餐厅信息，以便后续做数据分析。 1.爬取目标我们要爬取的目标是必胜客中国。打开必胜客中国首页，进入“餐厅查询”页面。我们要爬取的数据内容有城市、餐厅名字、餐厅地址以及餐厅联系电话。因为我看到页面中有地图，所以页面一定有餐厅地址的经纬度。因此，餐厅的经纬度也是我们需要爬取的数据。至于全国有必胜客餐厅的城市列表，我们可以通过页面的“切换城市”获取。 2.分析目标页面在编写爬虫程序之前，我都是先对页面进行简单分析，然后指定爬取思路。而且对页面结构进行分析往往会有一些意想不到的收获。我们使用浏览器的开发者工具对页面结构进行简单分析。我们在 StoreList 页面中能找到我们所需的数据。 ...

Python编程

未读

Python 三种遍历目录的方法，轻松帮你找出隐藏文件

发表于2018-11-052025-11-21 Python

无论在 Windows 系统中还是 Linux 系统中，都存在着隐藏文件以及隐藏文件夹。隐藏文件夹一般是系统关键性目录，例如 Windows 系统中的 C 盘中的 Boot 文件夹、Windows 文件夹等。在 Linux 系统中，一些系统配置文件或软件配置文件会被隐藏起来，如：系统环境变量配置文件 .profile。有些时候，我们必须通过文件路径来遍历整个目录，然后找到隐藏文件。本文的主要内容是给大家分享 Python 三种遍历文件的方法。 1.简单暴力法-递归假设在 E 盘中，有个名为“Python”的文件夹；该文件夹中也有两个文件夹，分别是“A”和“B”；另外，在“A”文件夹中还有一个 “results.txt” 的文本文件。因此，“Python”文件夹的文件结构如下： 1234Python|--A| |--results.txt|--B 我们可以从上述看出，一个文件夹其实是一个树型的数据结构。遍历树的最简单、最暴力的办法就是递归。因此，遍历“Python”的文件夹的代码可以这么写。 123456789101112131415# -*- coding: U ...

苔痕絮语

未读

今天， IG 帮我们圆梦

发表于2018-11-032025-11-21 絮语

对于英雄联盟(俗称 LOL 或撸阿撸)游戏玩家来说，今天无疑是值得庆祝的一天。 IG (全称是 Invictus Gaming)零封对手 FNC，豪取我们盼望了 8 年的世界冠军。看完比赛，我内心一直激动不已，只想说一句。这支队伍确确实实是牛逼! 因为一开始它不被看好，队员都是东拼西凑的。上单是一个没人要的上单，打野是借过来的打野，中单是付赠品，直播出道的下路，还有一个双排来的辅助。他们依然能克服各种客观因素，在赛场上打出自己的风采。拿我最喜欢的队员 theshy 来说。第一把，theshy 来一手“千里走单骑”，强行开团，团队打出一波“2 换 5”，为第一盘奠定胜局。第二把的刀妹更是秀，中路塔下花式补刀；然后在下波团战，theshy 化身“铁头娃”千里追击对手到敌方下路二塔，然后为小兵为踏板，强顶防御塔斩获双杀；最后一把团战，theshy 更是走单骑，秀一波一打五的操作，还全身而退。由于前两把打出气势，theshy 第三把更加势不可挡。他拿出一手剑魔，人挡杀人，好像在他的眼中就没有防御塔这说法。现在的我，已经不玩英雄联盟了。但是自己还是会关注游戏比赛。或许这 ...

Python编程

未读

Python 居然有这么奇葩的库--The Fuck

发表于2018-10-312025-11-21 Python

GitHub ，这个被广大网友戏称为全球最大的程序员同性交友网站。在程序员的圈子中，可以说无人不知，无人不晓。因为这个网站托管着一些开源项目。全球知名的大公司如谷歌，微软，腾讯，阿里巴巴等也会在 Github 上开源一些项目。可以说 Github 上有很多优秀的项目。作为一名程序员，在成长过程中往往离不开阅读别人的优秀代码。猴哥每周都会定期去逛逛 GitHub 网站，暮色一些优秀的仓库。然后利用业余时间去学习消化。自己今天看到一个非常奇葩但十分实用的 Python 库，顺便分享给大家。这个库就是 The Fuck。相信很多人看到 fuck 这个单词，很容易会联想到骂人的话。其实不然，这个单词在外国有很多种意思。它可以当做语气词来用，表示非常的意思。比如你刚好要出门，突然就下起暴雨。这个可以用 the fucking weathe 宣泄自己的不满，而这短语表示的是非常糟糕的天气, 该死的天气。 fuck 还有很多层意思，感兴趣的东西可以自行搜索下。在学习和工作中，我们会经常在终端上执行各种命令行。如果输入的命令行错误，我们虽然很气，但是还是默默地再输入一次命令 ...