CNKI_download 中国知网爬虫

项目是基于Python3 实现的爬取知网数据的爬虫,可根据知网高级检索进行搜索,提供文献基本信息、文献下载、文献摘要等详细信息爬取功能。

实现过程可以查看我的博客

程序运行如下:

详细信息excel表格如下:

下载caj如下:

特点

使用方法

安装依赖

在验证码处理部分使用了tesserocr,不过验证效果目前不是很好,所以默认开启手动识别验证码。

如果本地没有安装tesseract,可以先安装这个,再执行pip install tesserocr。或者将CrackVerifyCode.py文件第15、63、64行注释后再执行安装命令。

pip install -r requirements.txt