steven
/
cheap_shopper

import yamlimport jsonimport osimport shutilimport tracebackimport requestsimport re
from bs4 import BeautifulSoupfrom ratelimit import limits, sleep_and_retryfrom time import sleepfrom random import randintfrom datetime import datetime

def get_config():    with open('cheap_shopper.yaml', 'r') as ymlfile:        cfg = yaml.load(ymlfile, Loader=yaml.FullLoader)        return cfg

def add_product(kafka_producer, store, product, price):    db_object = {}    db_object['type'] = 'product'    db_object['store'] = store    db_object['product'] = product    db_object['price'] = price
    db_object_json = json.dumps(db_object)    db_object_bytes = bytearray(db_object_json, 'utf-8')        send_kafka_message(kafka_producer, db_object_bytes)

def insert_update_store(kafka_producer, store):    db_object = {}    db_object['type'] = 'store'    db_object['store'] = store
    db_object_json = json.dumps(db_object)    db_object_bytes = bytearray(db_object_json, 'utf-8')        send_kafka_message(kafka_producer, db_object_bytes)

def send_kafka_message(kafka_producer, message):    kafka_producer.send('shopper_db', message)

def update_store_prices(kafka_producer, config):    insert_update_store(kafka_producer, {'store': config['name'], 'url': config['url'], 'image_url': config['logo'], 'last_update': datetime.now().strftime('%d/%m/%Y')})        db_object = {}    db_object['type'] = 'store_update'    db_object['store'] = config['name']
    db_object_json = json.dumps(db_object)    db_object_bytes = bytearray(db_object_json, 'utf-8')    send_kafka_message(kafka_producer, db_object_bytes)    print(f'updating prices {db_object_json}')

def clear_failed_product(store):    if not os.path.exists('failed'):        os.mkdir('failed')    if not os.path.exists(f'failed/{store}'):        os.mkdir(f'failed/{store}')        return    else:        for dir in os.listdir(f'failed/{store}/'):            shutil.rmtree(f'failed/{store}/{dir}')

def dump_failed_product(store, prod_url, page, err, trace):    if not os.path.exists('failed'):        os.mkdir('failed')    if not os.path.exists(f'failed/{store}'):        os.mkdir(f'failed/{store}')    dirname = prod_url.replace('https://','')    dirname = dirname.replace('.','-')    dirname = dirname.replace('/','_')    os.mkdir(f'failed/{store}/{dirname}')    err_file = open(f'failed/{store}/{dirname}/error.txt', "w")    err_file.write(f'{prod_url}\n')    err_file.write('===========================================\n')    err_file.write(f'{str(err)}\n')    err_file.write('===========================================\n')    err_file.write(str(trace))    err_file.close()    page_file = open(f'failed/{store}/{dirname}/page.html', "w", encoding="utf-8")    page_file.write(str(page))    page_file.close()
def get_proxies():    page = requests.get("https://free-proxy-list.net/")    soup = BeautifulSoup(page.content, "html.parser")    raw_div = soup.find("div", {"id": "raw"})    raw_textarea = raw_div.find("textarea")    ip_list = re.findall("([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+\.\:[0-9]+)", raw_textarea.text)    ip_dict = {}    for ip in ip_list:        ip_addr = ip.split(":")[0]        ip_port = ip.split(":")[1]        ip_dict[ip_addr] = ip_port    return ip_list

@sleep_and_retry@limits(calls=2, period=1)def get_soup_page(url, cookie=None):    #print(f'get page for soup: {url}')    sleep(randint(1,2))    soup = None    try:        headers  = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36', 'content-type':'text/html;charset=UTF-8'}        #page = requests.get(url, proxies={"http": next(proxy_pool), "https": next(proxy_pool)})        page = requests.get(url, cookies=cookie, headers=headers)        if page.status_code != 200 and page.status_code != 301:            return None        soup = BeautifulSoup(page.content, "html.parser")    except ConnectionRefusedError:        print(traceback.format_exc())        sleep(randint(2,3))        soup = get_soup_page(url)    except Exception as err:        print(traceback.format_exc())        print(err)
    return soup
def get_soup_page_no_limit(url, cookie=None, payload=None, headers={}):    #print(f'get page for soup: {url}')    sleep(randint(1,2))    soup = None    try:        if len(headers) == 0:            headers  = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36',                 'content-type':'text/html;charset=UTF-8'}        if 'user-agent' not in headers:            headers['user-agent'] = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36'            headers['user-agent'] = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36 Edg/90.0.818.51'        #page = requests.get(url, proxies={"http": next(proxy_pool), "https": next(proxy_pool)})        page = requests.get(url, cookies=cookie, data=payload, headers=headers)        #print(page.content)        if page.status_code != 200 and page.status_code != 301:            return None        soup = BeautifulSoup(page.content, "html.parser")    except Exception as err:        print(traceback.format_exc())        print(err)    return soup