

یک بلوک پروژه که در مورد آماده سازی دیتا و جمع آوری آن است را می خواهم برون سپاری کنم. ارتباط api و مدیریت صف و هندشیک و مدیریت همزمان استریم های موازی و حذف داده های nan و پاک سازی و نرمال سازی دیتا مد نظر است. برنامه نویس باید تخصص در موازی سازی و کار با جی پی یو و سرورهای محاسباتی داشته باشد.
- برنامهنویسی پیشرفته و زبانهای تخصصی
Python: زبان اصلی برای کار با داده و یادگیری ماشین، به ویژه با کتابخانههای قوی مانند Pandas، NumPy، Dask برای پردازش داده و نرمالسازی.
SQL: برای کوئریزدن و کار با دادههای ساختاریافته.
CUDA
Apache Kafka یا Apache Flink: برای مدیریت و پردازش استریمهای بزرگ دادهها.
- مدیریت و پردازش دادههای حجیم (Big Data)
Apache Spark یا Dask: برای پردازش دادههای بزرگ به صورت موازی و توزیعشده.
Hadoop/HDFS: ذخیره و پردازش دادهها
Stream Processing: آشنایی با ابزارهایی مانند Apache Kafka Streams و Apache Flink برای پردازش آنی دادههای استریم.
- کار با GPU و بهینهسازی پردازش موازی
CUDA و CuPy: برای تسریع محاسبات ماتریسی و برداری
PyTorch یا TensorFlow: برای پردازش دادههای پیچیده،
NVIDIA Rapids: مجموعهای از ابزارهای متنباز برای پردازش دادههای بزرگ در GPU که شامل cuDF (معادل Pandas) و cuML (برای یادگیری ماشین) است.
- مهارتهای پاکسازی و نرمالسازی دادهها
Data Wrangling: شامل پاکسازی داده، حذف نویز و دادههای ناخواسته، تبدیل داده به فرمهای مناسب.
Standardization and Normalization Techniques: تسلط بر تکنیکهای استانداردسازی و نرمالسازی دادهها برای آمادهسازی ورودی مدلهای یادگیری ماشین.
Anomaly Detection: تشخیص دادههای نامناسب یا نویز برای بهبود کیفیت دادههای ورودی.
- مدیریت منابع و بهینهسازی سرور
Docker و Kubernetes: برای مدیریت و مقیاسپذیری منابع به ویژه در محیطهایی که نیاز به چندین GPU است.
Linux Administration: مدیریت سرورهای لینوکسی، به ویژه توزیعهایی که برای کار با GPU بهینهسازی شدهاند.
Monitoring and Logging: ابزارهایی مانند Prometheus و Grafana برای نظارت بر عملکرد GPU




