项目是基于Python3 实现的爬取知网数据的爬虫,可根据知网高级检索进行搜索,提供文献基本信息、文献下载、文献摘要等详细信息爬取功能。
实现过程可以查看我的博客
程序运行如下:
详细信息excel表格如下:
下载caj如下:
在验证码处理部分使用了
tesserocr,不过验证效果目前不是很好,所以默认开启手动识别验证码。如果本地没有安装
tesseract,可以先安装这个,再执行pip install tesserocr。或者将CrackVerifyCode.py文件第15、63、64行注释后再执行安装命令。
pip install -r requirements.txt