豆瓣图书爬虫学习笔记(附源码)
从豆瓣图书按标签分类爬取图书信息,保存到CSV文件并存储到MySQL数据库。
依赖
1 | import csv |
Spider类
1 | class spider(object): |
对每个详情页解析:
- 标题:
//span[@property="v:itemreviewed"]/text()
- 作者:
//div[@id="info"]/span[1]/a/text()
- 封面:
//img[@rel="v:photo"]/@src
- 出版年份:使用正则
(\d{4}-\d{1,2})
- 价格:正则匹配
(\d+)\.\d+元?
- 评分:
//strong[@property="v:average"]/text()
- 评论:JSON格式存储评论时间和内容
Data类 - 数据库操作
1 | class data(object): |
主程序流程
1 | if __name__=='__main__': |
数据库设计
1 | CREATE TABLE IF NOT EXISTS book ( |
详细代码
1 | import csv |
学的b站视频: