- Download Chinese internet novel with searching functions via author and title
- Download CIE Pastpaper online through website: https://cie.fraft.org/ with selenium
- Collect the picture's urls of the Sina Blog for downloading to save memory of childhood
- Use javascript reverse parsing to stimulate webpage of Baidu Translate to request translation
- Use javascript reverse parsing to stimulate webpage of Youdao Translate to request translation via terminal or local txt file
- Set multi-threading and http/socks5 proxy to download 8k wallpapers in Unsplash.com with phrasing its API response
- Download Chinese novel with asynchronous method shortens the total time, compared to the first project, faster 10 times than single thread (approximately 0.5s per chapter)
- Get the updated news from https://www.cambridgeinternational.org/news/ (refreshing every minute) and send an email containing news URL via SMTP email
- Design a GUI window for downloading Pastpaper in Pastpapers.co by PyQt5 with multithreading downloading module
- Use the selenium to simulate the user login in, then used get() method to get HTML version JSON data of a company background system
- 入门级单线程网络小说爬虫,具有按小说或作者的名字搜索的功能。
- 爬取CAIE Patpaper从 https://CIE.fraft.org/ 这个网站,通过selenium库模拟浏览器右键另存为下载PDF文件。
- 新浪博客由于取消了一键导出照片功能,这个项目是为在新浪博客上收集图片地址而制作的。
- 通过js逆向分析百度翻译的requests,成功使用百度翻译 ,可以中译英或英译中。具体js逆向过程可在打开文件夹仔细阅读 README.md!
- 通过js逆向分析有道翻译的requests请求,使用在线翻译有道翻译 访问自动语言选择翻译,还支持终端或本地txt文件的输入,并在终端或原来的txt文件中输出,无需替换。
- 在Unsplash.com 中使用带有多线程,http代理和分块(stream) 来下载8k墙纸等大文件,减少整个文件占用内存的情况。
- 采用异步下载网络小说,缩短总时间。与单线程和异步方法相比,第二种方法(大约每章0.05s)比单线程(大约每章0.5s)快10倍。
- 由于COVID-19的影响,CAIE官方的更新公告与每个参加2020夏季考生息息相关。该项目:每分钟从 https://www.cambridgeinternational.org/news/ 获取最新消息,并通过SMTP电子邮件地址将新的URL发送到我们的电子邮件。已部署服务器,文件夹中有更多详细信息。CAIE-Notification
- Pastpaper 下载器图形版主要是为了学习Alevel和GCSE的同学开发的,通过实时爬取Pastpapers.co网页和PyQt5 的技术实时展示文件夹和试卷内容。支持文件夹打开、浏览器打开,可多文件夹批量下载;同时在下载单个文件时通过requests请求的长度和steam方式下载,获取文件大小和实时的下载进度!通过多线程技术,可在下载时完全不影响主界面的运行!每个按键设置了快捷键,大大提升效率!剩余时间模块还有待开发,有任何建议请发issue,感谢!
- 这个项目是一个公司后台系统的网络爬虫。敏感信息已被隐藏。在这个网站上保存cookie并与请求保持会话是很困难的。因此,我使用selenium来模拟用户登录,然后使用get()方法获取HTML版本的JSON数据并清理数据。