Python爬虫教程第0篇-写在前面

news/2024/7/8 2:58:35 标签: python, 开发语言, 爬虫, Python爬虫, 教程

为什么写这个系列

最近开发了个Python爬虫的脚本,去抢一个名额,结果是程序失败了,中间有各种原因,终究还是准备不足的问题。我想失败的经验或许也可贵,便总结一下当初从0开始学Python,一步步去写Python脚本,到后来写了个大的项目。这中间不断的摸索摸索,最终也有了一点点自己的心得和经验。

当然还有个原因是,我最近也不知道该写点什么了,第一次写系列文章,一方面督促自己不断更新,也给自己找了个新的学习方向。
在这里插入图片描述
之前也学过Python,但是从来都是学了没用上,然后就忘记了。自己这次需要借用Python去做些实际事情的时候,这个时候的学习效率远比之前没有目的的学习效率高很多。在实践中学习,确实事半功倍,也建议大家带着实际需求去开发去学习一门技术。Python确实,实现很优雅,写起来很快,因为Java是我的主语言嘛,所以来回切换两种语言写项目,有的时候写Java,就会特别想pyhon。而且当下大模的火爆,Python或许是我通向AI转型的敲门砖。

准备写哪些方向

其实没有固定的标准,我会以自己个人小白的经历去写,比如我可能使用到BeautifulSoup,我觉得这个工具好用,我会写相关的文章给大家推荐;又或是使用reqeust遇到的坑以及代理的使用也会做分享;也可能是如果使用Selenium去实现自己的目标等。

这里不会去写怎么学习Python等,因为我也不是特别专业的Python开发者,我学习Python的时候也是一天看完个大概,跑通一个hello world!就开始上手写业务逻辑了。过程中确实也遇到了不少问题,比如Python代码的管理呀,class啊等等如何组织Pytho代码。有趣的是,很多时候我可能会用写Java的思想去写Python。就像之前领导打趣的说我写的Scala和Java一样。

主要目的还是在于分享,信息的闭塞也会导致技术的闭塞,所以大家一起讨论一起分享。特别是爬虫领域中,最不可避免的就是会有很多奇奇葩葩的问题,可能不同的目标网址遇到的问题也很不相同,但是很多共性问题是一样的。比如有次我以为堆积器就行了,但是反而堆机器触发了目标网站一个机制,被限制访问了,从而直接失败。这点其实是我想不到的,因为平时的测试无法去复现真正申请时,目标网络的繁忙可能有很多自保的措施。或许这就是我说的失败的经验也宝贵,下次换个策略就好了。
在这里插入图片描述

总结

欢迎大家点赞、收藏和一起讨论。


http://www.niftyadmin.cn/n/5536168.html

相关文章

Build a Large Language Model (From Scratch)附录D(gpt-4o翻译版)

来源:https://github.com/rasbt/LLMs-from-scratch?tabreadme-ov-file https://www.manning.com/books/build-a-large-language-model-from-scratch

【图书推荐】《HTML5+CSS3 Web前端开发与实例教程(微课视频版)》

本书用来干什么 详解HTML5、CSS3、Flex布局、Grid布局、AI技巧,通过两个网站设计案例提升Web前端开发技能,为读者深入学习Web前端开发打下牢固的基础。 配套资源非常齐全,可以当Web前端基础课的教材。 内容简介 本书秉承“思政引领&#…

华为路由器静态路由配置(eNSP模拟实验)

实验目标 如图下所示&#xff0c;让PC1ping通PC2 具体操作 配置PC设备ip 先配置PC1的ip、掩码、网关。PC2也做这样的配置 配置路由器ip 配置G0/0/0的ip信息 #进入系统 <Huawei>system-view #进入GigabitEthernet0/0/0接口 [Huawei]int G0/0/0 #设置接口的ip和掩码 […

STL——list模拟实现

一、模拟实现源码 #pragma oncenamespace sjx {template <typename T>struct __list_node{__list_node<T>* _next;__list_node<T>* _prev;T _data;__list_node(const T& val T()) :_data(val), _next(nullptr), _prev(nullptr){}};template <typena…

【Python实战因果推断】20_线性回归的不合理效果10

目录 Neutral Controls Noise Inducing Control Feature Selection: A Bias-Variance Trade-Off Neutral Controls 现在&#xff0c;您可能已经对回归如何调整混杂变量有了一定的了解。如果您想知道干预 T 对 Y 的影响&#xff0c;同时调整混杂变量 X&#xff0c;您所要做的…

Shenandoah GC概述

文章目录 1_介绍2_原理1.0版本2.0版本3_ShenandoahGC的执行流程4_并发转移阶段 – 并发问题 1_介绍 Shenandoah 是由Red Hat开发的一款低延迟的垃圾收集器&#xff0c;Shenandoah 并发执行大部分 GC 工作&#xff0c;包括并发的整理&#xff0c;堆大小对STW的时间基本没有影响…

vs2019 无法打开项目文件

vs2019 无法打开项目文件&#xff0c;无法找到 .NET SDK。请检查确保已安装此项且 global.json 中指定的版本(如有)与所安装的版本相匹配 原因&#xff1a;缺少组件 解决方案&#xff1a;选择需要的组件进行安装完成

在TkinterGUI界面显示WIFI网络摄像头(ESP32s3)视频画面

本实验结合了之前写过的两篇文章Python调用摄像头&#xff0c;实时显示视频在Tkinter界面以及ESP32 S3搭载OV2640摄像头释放热点&#xff08;AP&#xff09;工作模式–Arduino程序&#xff0c;当然如果手头有其他可以获得网络摄像头的URL即用于访问摄像头视频流的网络地址&…