steven
/
cheap_shopper


								import yaml

								import json

								import os

								import shutil

								import traceback

								import requests

								import re


								from bs4 import BeautifulSoup

								from ratelimit import limits, sleep_and_retry

								from time import sleep

								from random import randint

								from datetime import datetime


								def get_config():

								    with open('cheap_shopper.yaml', 'r') as ymlfile:

								        cfg = yaml.load(ymlfile, Loader=yaml.FullLoader)


								    return cfg


								def add_product(kafka_producer, store, product, price):

								    db_object = {}

								    db_object['type'] = 'product'

								    db_object['store'] = store

								    db_object['product'] = product

								    db_object['price'] = price


								    db_object_json = json.dumps(db_object)

								    db_object_bytes = bytearray(db_object_json, 'utf-8')


								    send_kafka_message(kafka_producer, db_object_bytes)


								def insert_update_store(kafka_producer, store):

								    db_object = {}

								    db_object['type'] = 'store'

								    db_object['store'] = store


								    db_object_json = json.dumps(db_object)

								    db_object_bytes = bytearray(db_object_json, 'utf-8')


								    send_kafka_message(kafka_producer, db_object_bytes)


								def send_kafka_message(kafka_producer, message):

								    kafka_producer.send('shopper_db', message)


								def update_store_prices(kafka_producer, config):

								    insert_update_store(kafka_producer, {'store': config['name'], 'url': config['url'], 'image_url': config['logo'], 'last_update': datetime.now().strftime('%d/%m/%Y')})


								    db_object = {}

								    db_object['type'] = 'store_update'

								    db_object['store'] = config['name']


								    db_object_json = json.dumps(db_object)

								    db_object_bytes = bytearray(db_object_json, 'utf-8')

								    send_kafka_message(kafka_producer, db_object_bytes)

								    print(f'updating prices {db_object_json}')


								def clear_failed_product(store):

								    if not os.path.exists('failed'):

								        os.mkdir('failed')

								    if not os.path.exists(f'failed/{store}'):

								        os.mkdir(f'failed/{store}')

								        return

								    else:

								        for dir in os.listdir(f'failed/{store}/'):

								            shutil.rmtree(f'failed/{store}/{dir}')


								def dump_failed_product(store, prod_url, page, err, trace):

								    if not os.path.exists('failed'):

								        os.mkdir('failed')

								    if not os.path.exists(f'failed/{store}'):

								        os.mkdir(f'failed/{store}')

								    dirname = prod_url.replace('https://','')

								    dirname = dirname.replace('.','-')

								    dirname = dirname.replace('/','_')

								    os.mkdir(f'failed/{store}/{dirname}')

								    err_file = open(f'failed/{store}/{dirname}/error.txt', "w")

								    err_file.write(f'{prod_url}\n')

								    err_file.write('===========================================\n')

								    err_file.write(f'{str(err)}\n')

								    err_file.write('===========================================\n')

								    err_file.write(str(trace))

								    err_file.close()

								    page_file = open(f'failed/{store}/{dirname}/page.html', "w", encoding="utf-8")

								    page_file.write(str(page))

								    page_file.close()


								def get_proxies():

								    page = requests.get("https://free-proxy-list.net/")

								    soup = BeautifulSoup(page.content, "html.parser")

								    raw_div = soup.find("div", {"id": "raw"})

								    raw_textarea = raw_div.find("textarea")

								    ip_list = re.findall("([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+\.\:[0-9]+)", raw_textarea.text)

								    ip_dict = {}

								    for ip in ip_list:

								        ip_addr = ip.split(":")[0]

								        ip_port = ip.split(":")[1]

								        ip_dict[ip_addr] = ip_port

								    return ip_list


								@sleep_and_retry

								@limits(calls=2, period=1)

								def get_soup_page(url, cookie=None):

								    #print(f'get page for soup: {url}')

								    sleep(randint(1,2))

								    soup = None

								    try:

								        headers  = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36', 'content-type':'text/html;charset=UTF-8'}

								        #page = requests.get(url, proxies={"http": next(proxy_pool), "https": next(proxy_pool)})

								        page = requests.get(url, cookies=cookie, headers=headers)

								        if page.status_code != 200 and page.status_code != 301:

								            return None

								        soup = BeautifulSoup(page.content, "html.parser")

								    except ConnectionRefusedError:

								        print(traceback.format_exc())

								        sleep(randint(2,3))

								        soup = get_soup_page(url)

								    except Exception as err:

								        print(traceback.format_exc())

								        print(err)


								    return soup


								def get_soup_page_no_limit(url, cookie=None, payload=None, headers={}):

								    #print(f'get page for soup: {url}')

								    sleep(randint(1,2))

								    soup = None

								    try:

								        if len(headers) == 0:

								            headers  = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36',

								                'content-type':'text/html;charset=UTF-8'}

								        if 'user-agent' not in headers:

								            headers['user-agent'] = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36'

								            headers['user-agent'] = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36 Edg/90.0.818.51'

								        #page = requests.get(url, proxies={"http": next(proxy_pool), "https": next(proxy_pool)})

								        page = requests.get(url, cookies=cookie, data=payload, headers=headers)

								        #print(page.content)

								        if page.status_code != 200 and page.status_code != 301:

								            return None

								        soup = BeautifulSoup(page.content, "html.parser")

								    except Exception as err:

								        print(traceback.format_exc())

								        print(err)

								    return soup