پروژه استخراج آدرس سایت های دانشکده ها به صورت دستی شامل چه جزئیاتی است:

برای یک پروژه تحقیقاتی احتیاج به جمع آوری دستی 1000 دنباله مسیرهای دسترسی به صفحات لیست اساتید دانشکده ها با شروع از صفحه اصلی دانشگاه را داریم.

به عنوان مثال فرض کنیم که آدرس صفحه اول دانشگاه آکسفورد را به شکل زیر داشته باشیم:

http://ox.ac.uk/

حالا میخواهیم دنباله ای از صفحاتی که از این صفحه به صفحات اساتید دانشکده ها متصل میشود را پیدا کنیم. مثلا برای دسترسی به صفحه لیست اساتید دانشکده علوم کامپیوتر باید مسیر زیر را طی کنیم:

 1. http://ox.ac.uk/
 2. https://ox.ac.uk/research/divisions?wssl=1
 3. http://cs.ox.ac.uk/
 4. http://cs.ox.ac.uk/people/
 5. http://cs.ox.ac.uk/people/faculty.html

یا مثلا اگر صفحه اصلی دانشگاه اتاوا را به شکل زیر داشته باشیم:
https://uottawa.ca/en

باید مسیر زیر را جهت رسیدن به صفحه اصلی دانشکده ..... طی کنیم

 1. https://uottawa.ca/en
 2. http://uottawa.ca/en/faculties
 3. http://engineering.uottawa.ca/eecs/
 4. http://engineering.uottawa.ca/eecs/people

باید توجه کرد که لینک 1 حتما در جایی از صفحه اصلی قراردارد، لینک 2 حتما در جایی از صفحه 1 قراردارد که این موضوع توسط یک برنامه هوشمند چک خواهد شد .

به عبارت دیگر هدف ما آدرس نهایی صفحه اعضاء یک دانشکده نیست بلکه دنباله ای از لینک هایی است که با شروع از صفحه اصلی دانشگاه به صفحه اساتید آن دانشکده ختم میشود.

باید توجه کرد که دنباله ها باید به صورت کامل نوشته شوند. مثلا برای دانشکده کامپیوتر و دانشکده فیزیک یک دانشگاه احتمال دارد که 3 صفحه اول دنباله یکسان باشد که میبایست حتما برای هر دو دانشکده جداگانه نوشته شود.

همچنین برای هر صفحه هم باید رده آن صفحه مشخص شود مثلا مشخص شود که صفحه اصلی از نوع university_home_page است. یا در مثلا بالا صفحه 1 از نوع list_of_schools هست و .... یا صفحه آخر از نوع information_technology_home_school_page

 

فرمت نهایی که باید تحویلداده شود به صورت یک فایل متنی ساده است که هر دنباله را به شکل زیر نشان میدهد و برای جداسازی دنباله ها یک خط خالی قرار میدهد:

Link1

Category1

Link2

Category2

Link3

Category3

// خط خالی که جدا کننده 2 نمونه است.

Link1

Category1

Link2

Category2

Link3

Category3

مثلا برای مثال دانشگاه اتاوا نمونه باید به شکل زیر نوشته شود:

https://uottawa.ca/en

university_home_page

http://uottawa.ca/en/faculties

list_of_schools_page

http://engineering.uottawa.ca/eecs/

school_of_electrical_computer

http://engineering.uottawa.ca/eecs/people

list_of_peoples_of_school_of_ electrical_computer

 

دانشگاه های باید مربوط به کشورهای آمریکا، انگلیس، کانادا، استرالیا و به زبان انگلیسی باشد که توسط فریلنسر باید مشخص شود. از هر دانشگاه حداقل دنباله آدرس 3 دانشکده و حداکثر دنباله آدرس 5 دانشکده لازم است.

حداقل تعداد نمونه آموزشی مورد نیاز 1000 عدد میباشد ( یعنی اگر برای هر دانشگاه مسیر 5 دانشکده مشخص شود باید حداقل 200 دانشگاه بررسی شود و اطلاعات مربوطه استخراج شود)

نام رده ها باید بر اساس قوانین زیر مشخص شود:

صفحه اصلی : university_home_page

صفحه اصلی دانشکده XXX : school_of-XXX

صفحه لیست دانشکده ها: list_of_schools_page

صفحه لیست اساتید دانشکده XXX: list_of_peoples_of_school_of_XXX

اگر در دنباله مسیر ها صفحه ای وجود داشت که هیچیک از چهار رده بالا را نداشت فریلنسر باید نام رده مناسبی انتخاب کند.

ممکن است یک دانشکده مربوط به 2 رشته باشد مثلا دانشکده برق و کامپیوتر که باید نام آن طوری نوشته شود هر دو موضوع را مشخص کند.

نام های رده باید با هم سازگار باشند، یعنی همه دانشکده های کامپیوتر باید یک نام رده دقیقا مشابه داشته باشند، تمام دانشکده های فیزیک باید نام رده دقیقا مشابه داشته باشند و ....

لیست دانشگاه ها باید قبل از شروع به کار توسط کارفرما تائید شود.

فریلنسر میبایست ابتدا 10 نمونه آزمایشی استخراج کند و بعد از تائید کارفرما ادامه کار را انجام دهد ( جهت اطمینان از اینکه فریلنسر موضوع را به درستی درک کرده باشد)

پروژه با موفقیت انجام شده است

فریلنسرهایی که در این پروژه پیشنهاد ارسال کرده اند

 • 0 میانگین امتیاز
  • 0
   جستجو در وب
  در 20 روز
 • 0 میانگین امتیاز
  • 0
   پژوهش
  در 14 روز