TA的每日心情 | 开心 2024-9-19 21:14 |
---|
签到天数: 757 天 [LV.10]以坛为家III
管理员
- 积分
- 1312677
|
这是一门培养专业爬虫工程师的课程。本课程以大数据业务需求为导向,旨在掌握分布式爬虫的原理、理解互联网技术和各类数据分析挖掘的应用技巧。
1. 围绕微博的抓取、存储、提取和文本分析来展开
3. 增加了对于数据库性能及优化的关键方法和原理的介绍,例如深翻页、查询优化、索引优化,Redis 队列原理及优化等
面向人群:
2. 网站后台及分布式系统架构的开发者和学习者
4. 希望搭建聚合类、数据挖掘类、图片视频库等网站的爱好者、从业者
学习收益:
2. 掌握分布式系统架构设计
4. 了解如Google、百度、今日头条等互联网公司的产品技术和解决方案
6. 针对不同任务,能快速开发网络爬虫满足业务需求
第一课 静态网页爬虫:爬虫的基础技术
CSS 选择器
lxml 及 XPath
高速位缓存设计:BloomFilter
第二课 登录及动态网页的抓取
网站登录及Cookie
浏览器的驱动:Selenium
第三课 微博的抓取
通过动态页面来抓取
Java 的反编译
源代码的接口分析
第四课 多线程与过进程的爬虫
2. Python 的多线程约束
4. 多个进程同时抓取
SQL 与 NoSQL
HDFS
MongoDB
基于分布式数据库的分布式爬虫
Socket 编程
Slave 设计
分布式集群部署的爬虫
分布式应用协调服务:ZooKeeper
服务发布及注册
第八课 微博数据查询:分布式数据库系统的优化及负载均衡
流量控制及均衡
Redis 的核心技术介绍
MySQL 的查询过程介绍及优化要素
1. PageRank 计算模型及推导
3. 网站服务架构
5. 多IP技术与路由控制
1. 基于距离的图片比对
3. 其它验证码识别方案
5. 淘宝数据抓取
SimHash
海量数据的相似度计算
语义哈希简介
1. 距离与联合概率
3. K-Means 算法
5. PyGoose 的开源系统
网页分类基础
线性回归
Logistic Regession
多分类器
|
|