- فقط با nodejs یا پایتون
1- کرالر کامنتهای (review) گوگل مپ یک csv از لیست بیزینس های کرال شده از گوگل مپ به کرالر داده بشه و با تنظیم کردن حداکثر و حداقل ریویو برای هر بیزینس (اگر بیزینس حداقل تعداد رو نداره کرال نشه) و sort بر اساس اخرین ریویوها،تمام ریویو های ممکن اون بیزینس رو کرال کنه (فایل سمپل csv لیست بیزینسها پیوست میشه) ۲. کرالر کامنتهای تمام بیزینسهای اسنپ فود در ساختار مشخص که برای هر دو لیست کامنتها (گوگل مپ و اسنپ فود) داده میشه تمام کامنتها با تنظیم کردن حداکثر و حداقل تعداد کامنت (اگر بیزینس حداقل تعداد رو نداره کرال نشه) کرال بشه ۳. ایجاد یک مرجر برای merge کردن و duplication removal باید بتونیم دیتای کرال شده را با ساختار زیر به دو جدول insert کنیم: و ما میخوایم بعدا با استفاده از همین مرجر از سورسهای دیگه هم ریویو اضافه کنیم.
پیدا کردن یک بیزینس با نامهای مختلف در دیتای گوگل مپ و اسنپ فود و مرج اونها چالش هست
t_business
title
date
external_business_id
t_comment
source (که الان میتونه گوگل مپ یا اسنپ فود باشه)
date (تاریخ کامنت)
created_at
content
author_name
score
items (مثل foods در دیتای اسنپ فود)
feeling (موجود در دیتای اسنپ فود)
external_comment_id
business_id
در دو جدول بیزینس (بیزینس کرال شده از اسنپ فود یا گوگل مپ) و کامنت که رابطه one to many بین اونها برقراره




