Skip to content

www.80s.tw 爬虫,用 pyspider,只爬电影、电视剧、动漫、综艺,爬取后存储至 MongoDB。

License

Notifications You must be signed in to change notification settings

lsdlab/80s_spider

Repository files navigation

80s_spider

www.80s.tw 爬虫,用 pyspider, 只爬电影、电视剧、动漫、综艺,爬取后存储至 MongoDB

model

model 见 model/resource.py,数据清洗和保存更新操作都放在 utils.py 中。

运行

pyspider --config config.json

先爬一遍整站的话成功率在 94% 左右,电影、电视剧、综艺基本都爬下来了,动漫的失败率最高,应该是数据解析处理没有完全考虑到位。

LICENCE

MIT

About

www.80s.tw 爬虫,用 pyspider,只爬电影、电视剧、动漫、综艺,爬取后存储至 MongoDB。

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages