В текстовике список адресов интернет-магазинов. Для каждого сайта: - проверить что магазин русскоязычный и рабочий сайт (домен не просрочен и т.п.) - проверить что это действительно магазин, т.е. есть страницы товаров и цены - если какой-либо домен - это зеркало другого сайта - его можно пропустить
На каждом типичном сайте интернет магазина есть два типа страниц pdp - product display page - страница товара plp - product list page - страница списка товаров.
Для каждого из сайтов необходимо: 1. Сохранить 1 страницу конкретного товара (pdp): - зайти на сайт, открыть любую страницу одного товара, сохранить её HTML код в подпапку domain/pdp/p.html - название товара сохранить в файл item - цену товара сохранить в файл price - в файл url - адрес страницы 2. Сохранить одну страницу со списком товаров (plp) - зайти на сайт, открыть любую страницу списка товаров (например подраздел каталога), сохранить её в подпапку domain/plp/p.html - в файл url - адрес страницы - название товаров по порядку их следования на странице - сохранить в файл items, каждый отдельный товар на отдельной строке - цену каждого товара из списка строго в соответствии с тем, как они идут по порядку в файле items сохранить в файл prices. Т.е не важно в каком порядке они идут на странице, главное - чтобы было соответсвие между товаром в items и prices.
В списке может быть очень много товаров, сохранить по крайней мере 4.
Цену сохраняем в виде числа с точкой, т.е. 123р 45 копеек (если вообще гдето вдруг будут копейки)- пишем как 123.45 Если копеек нет - в виде целого числа, т.е. 123.
Как сохранять HTML: Нужен уже отрендеренный в HTML джаваскрипт, который есть на странице, то есть лучше всего открыть консоль браузера, зайти в закладку "элементы", найти корневой элемент, у него нажать "Редактировать HTML" и таким образом скопировать HTML код страницы. Сохранение страницы в файлы - может сохранить не то, что нужно.
Всего сайтов порядка 300, т.е. примерно нужно сохранить 600 страниц и информацию о них.
Во вложении находится папка с примером, где уже сохранены соответсвующие страницы для 4х сайтов. Важно внимательно заполнить все данные, без ошибок, так как эти данные будут использованы для обучения ИИ.