百度关键字检索工具

N 人看过

一、功能介绍

一个基于Chrome_driver的python爬虫脚本,爬取百度检索的关键词的link。

例如爬取inurl:login.php搜索之后的链接(标红所示)。

在这里插入图片描述


二、使用说明

用法:

python crawler_baidu_search_result2.py -p 2 -k inurl:login.php

-h, --help     dispaly this help and exit
-p, --pages    set the crawl pages, default set is 5
-k, --keyword  set the crawl keyword, default set is Hasaki-h1
-v, --version  dispaly the version and exit

注意使用之前设置chrome_driver的路径信息。设置代码中的
driver_path = “{Your computer path of chromedriver.exe}\chromedriver.exe”

chrome_driver下载地址(请根据chrome版本选择合适的驱动)
https://npm.taobao.org/mirrors/chromedriver/

在这里插入图片描述

爬完设置的页数后会验证每个链接是否可达。
在这里插入图片描述

缺点是速度比较慢,主要是有延时函数来绕过百度安全机制以及某些链接的请求超时。
百度安全验证机制很烦的。
在这里插入图片描述

下载地址

repo:https://github.com/SevenC-base/Gadgets/tree/master/CrawlerForBaiduSearch

本作品采用 知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议 (CC BY-NC-ND 4.0) 进行许可。