url采集脚本(持续更新)

一句话,一个人。一首诗,一段情。


第一次写url采集,针对的是360搜索引擎,谷歌的比较准确,但是只有20页左右,其他搜索引擎是64页左右,我的想法是集齐各个搜索引擎,得到的是这几个搜索引擎的结果,然后去重。
完善中…

code

#!/usr/bin/env python
# coding : utf8
import sys
import requests
from bs4 import BeautifulSoup
import queue
import threading
import re


class UrlSpider(threading.Thread):
def __init__(self, qwing):
    threading.Thread.__init__(self)
    self._qwing = qwing

def run(self):
    while not self._qwing.empty():
        url = self._qwing.get()
        try:
            self.spider(url)
        except Exception:
            pass

def spider(self, url):
    r = requests.get(url=url)
    req = BeautifulSoup(r.content.decode(), 'lxml')
    link = req.find_all(name='a', attrs={'target': '_blank', 'rel': 'noopener'})
    for i in link:
        # if str('data-url') in i:
        #     print(i)
        # print(i)
        linkplus = requests.get(url=i['data-url'], timeout=6)
        if linkplus.status_code == 200:
            link1 = linkplus.url
            print(link1)
            url_output = open('url.txt', 'a+')
            url_output.write(link1+'\n')
            url_output.close()


def main(key):
    qwing = queue.Queue()
    for i in range(0, 640, 10):
        qwing.put('https://www.so.com/s?q=%s&pn=%s' % (key, str(i)))
    threads = []
    thread_count = 8
    for t in range(thread_count):
        threads.append(UrlSpider(qwing))
    for t in threads:
        t.start()
    for t in threads:
        t.join()


if __name__ == '__main__':
    if len(sys.argv) != 2:
        print("Please Input Your Url Address")
        sys.exit(-1)
    else:
        print('Author:wing')
        print('My Bolg:hackerwing.com')
    main(sys.argv[1])

小wing的gayhub


   转载规则


《url采集脚本(持续更新)》 Wing 采用 知识共享署名 4.0 国际许可协议 进行许可。
 上一篇
C段存活主机及端口探测 C段存活主机及端口探测
在这个世界上,不是所有合理的和美好的都能按照自己的愿望存在或实现。 –平凡的世界 前言在渗透测试中,C段和旁站是一个很重要的突破口,有时候目标站点如果是一个cms,C段和旁站也有可能是同一个cms,C段中的端口同样是一个重点,因此我写了一
2017-08-20
下一篇 
Beautifulsoup Beautifulsoup
你本无意穿堂风,偏偏孤倨引山洪。 Beautifulsoup的介绍Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Bea
2017-08-12
  目录