

پروژه مربوط به تصاویر پاتولوژی هست که دیتاست آن شامل 260 هزار تصویر و یه فایل کپشن است. مدل یک RNN-CNN که از مدل های PRETRAIN شده مثل efficientnetb3 برای بخش پردازش تصویر استفاده کرده. من کد رو توی محیط کولب با تعداد 3 ایپوک روی کل دیتا تست کردم و خروجی گرفتم. حالا باید روی تعداد ایپوک بیشتر بزارم اجرا شه و اینکه برای فاز اصلی پروژه باید تغییراتی تو کد ایجاد کنم. مثلا مدل پردازش تصویرش رو تغییر بدم یا بجای یک مدل از چند مدل مثل RESNET-GPT- VGG یا غیره برا بخش پردازش تصویرش استفاده کنم و یا بخش پردازش متنش رو بهبود بدم مثلا از BERT یا OLLAMA استفاده کنم. اینا ایده هاییی هست که ممکنه برای تغییر کد انجام بدم درصورت امکان، ولی هنوز به این بخش نرسیدم. این لینک گیت مقاله ای هست که کدش رو اجرا کردم. باتشکر https://github.com/masatsuneki/histopathology-image-caption



