百度关键字检索工具
一、功能介绍
一个基于Chrome_driver的python爬虫脚本,爬取百度检索的关键词的link。
例如爬取inurl:login.php搜索之后的链接(标红所示)。
二、使用说明
用法:
python crawler_baidu_search_result2.py -p 2 -k inurl:login.php
-h, --help dispaly this help and exit
-p, --pages set the crawl pages, default set is 5
-k, --keyword set the crawl keyword, default set is Hasaki-h1
-v, --version dispaly the version and exit
注意使用之前设置chrome_driver的路径信息。设置代码中的
driver_path = “{Your computer path of chromedriver.exe}
\chromedriver.exe”
chrome_driver下载地址(请根据chrome版本选择合适的驱动):
https://npm.taobao.org/mirrors/chromedriver/
爬完设置的页数后会验证每个链接是否可达。
缺点是速度比较慢,主要是有延时函数来绕过百度安全机制以及某些链接的请求超时。
百度安全验证机制很烦的。
下载地址
repo:https://github.com/SevenC-base/Gadgets/tree/master/CrawlerForBaiduSearch
本作品采用 知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议 (CC BY-NC-ND 4.0) 进行许可。