
توسعه سیستم دوبله هوشمند فارسی با TTS و Style Transfer
- توسعه نرمافزار و آیتی
- زمان باقیمانده برای ارسال پیشنهاد
توسعه سیستم دوبله هوشمند فارسی مبتنی بر Expressive TTS و Performance Style Transfer (کاملاً آفلاین)
معرفی پروژه
به دنبال همکاری با یک متخصص باتجربه در زمینه هوش مصنوعی، پردازش گفتار و Text-to-Speech هستم تا یک سیستم کاملاً آفلاین برای دوبله هوشمند گویندگان کلاسیک دوبله فارسی توسعه دهد.
هدف پروژه، تولید صدایی کاملاً طبیعی و انسانی است که علاوه بر حفظ هویت صوتی هر گوینده، بتواند سبک بیان و اجرای دیالوگ را نیز بازسازی کند.
قابلیتهای اصلی سیستم
حالت اول: Expressive TTS
این حالت زمانی استفاده میشود که سبک بیان یا احساس موردنظر در دیتاست آموزشی گوینده وجود داشته باشد.
ورودی
- متن فارسی
- انتخاب گوینده
- انتخاب حالت بیان (مانند شاد، غمگین، خشم، فریاد، لوند و...)
خروجی
تولید صدای کاملاً طبیعی با حفظ هویت صوتی گوینده و اجرای طبیعی حالت انتخابشده، بدون حس رباتی.
حالت دوم: Performance Style Transfer
این حالت برای مواقعی استفاده میشود که سبک اجرای موردنظر در دیتاست آموزشی گوینده وجود ندارد.
در بسیاری از فیلمها، بازیگر هنگام اجرای دیالوگ از سبکهایی استفاده میکند که با برچسبهای معمول احساسات قابل توصیف نیست؛ مانند زمزمه، خنده هنگام صحبت، تغییر ناگهانی انرژی، مکثهای خاص، کشیدن برخی کلمات، تغییر سرعت گفتار، ادا درآوردن، تقلید شخصیت دیگر یا سایر اجراهای منحصربهفرد.
ورودی
- متن فارسی
- انتخاب گوینده
- فایل صوتی یا ویدیوی نسخه اصلی فیلم
خروجی مورد انتظار
سیستم باید تا حد امکان ویژگیهای اجرای دیالوگ (Performance) را از نسخه اصلی استخراج و روی صدای گوینده فارسی اعمال کند.
منظور از Performance شامل مواردی مانند:
- Prosody
- Intonation
- Rhythm
- Energy
- Timing
- سرعت گفتار
- نحوه تأکید روی کلمات
- مکثها
- تغییرات طبیعی لحن
- سایر ویژگیهای اجرایی دیالوگ
در تمام این مراحل، هویت صوتی گوینده فارسی باید حفظ شود.
هدف این بخش، انتقال صرف احساس نیست؛ بلکه انتقال سبک اجرای بازیگر به صدای گوینده فارسی است تا خروجی تا حد امکان به اجرای بازیگر اصلی نزدیک باشد.
کیفیت این بخش بر اساس نمونههای عملی ارزیابی خواهد شد.
ویژگیهای مورد انتظار
- مدل اختصاصی برای هر گوینده
- امکان افزودن گویندههای جدید در آینده
- کیفیت صدای کاملاً طبیعی و انسانی
- Denoising
- Normalization
- Auto Segmentation
- Auto Tagging برای حالت اول
- اجرای کاملاً آفلاین
- قابلیت اجرا روی RTX 4060 (8GB VRAM)
نرمافزار نهایی
خروجی پروژه باید یک نرمافزار دسکتاپ قابل نصب روی ویندوز باشد.
تمام قابلیتها باید از طریق یک رابط کاربری گرافیکی در دسترس باشند.
کاربر برای استفاده روزمره نباید نیازی به GitHub، Command Prompt، ترمینال، اجرای فایلهای Python، نصب کتابخانهها یا وارد کردن دستورات فنی داشته باشد.
تمام مراحل باید از داخل نرمافزار انجام شوند.
شرایط همکاری
پرداخت پروژه بهصورت مرحلهای انجام خواهد شد.
مرحله اول
نمونه آزمایشی ۳۰ ثانیهای (بدون پرداخت اولیه)
در صورت تأیید کیفیت، همکاری آغاز خواهد شد.
مرحله دوم
پیادهسازی Expressive TTS
مرحله سوم
پیادهسازی Performance Style Transfer
مرحله چهارم
تحویل نرمافزار کامل، قابل نصب و کاملاً آفلاین
مرحله پنجم
یک ماه پشتیبانی فنی پس از تحویل
در صورت توافق نهایی، امکان عقد قرارداد رسمی نیز وجود دارد.
مهارتهای مورد نیاز
- Python
- PyTorch
- تجربه عملی در توسعه مدلهای TTS
- Voice Cloning
- Expressive TTS
- Performance / Style Transfer
- Prosody Modeling
- Speaker Embedding
- پردازش سیگنال صوتی
- توسعه نرمافزار دسکتاپ
- بهینهسازی مدل برای GPUهای میانرده
لطفاً هنگام ارسال پیشنهاد موارد زیر را ارسال کنید
- رزومه
- نمونهکار مرتبط (TTS، Voice Cloning یا Performance Style Transfer)
- توضیح معماری و روش پیشنهادی برای اجرای پروژه
- زمان تقریبی انجام پروژه
- مبلغ پیشنهادی
در انتخاب مدل یا معماری محدودیتی وجود ندارد. مهمترین معیار این پروژه کیفیت نهایی خروجی، طبیعی بودن صدا، حفظ هویت صوتی گوینده و توانایی انتقال سبک اجرای دیالوگ بازیگر است.
مهارتهای مورد نیاز
پایتون (Python)
هوش مصنوعی (AI)
برنامه نویسی
امکانات ویژه
بینهایت
متمایز
سرویسهای مرتبط
فریلنسرهایی که در این پروژه پیشنهاد ارسال کردهاند
ar4min5(12) امتیاززمان تحویل: 25 روزارسال پیشنهاد در:
sinakhanjani5(1) امتیاززمان تحویل: 55 روزارسال پیشنهاد در:- زمان تحویل: 45 روزارسال پیشنهاد در:
mohammad228022805(2) امتیاززمان تحویل: 40 روزارسال پیشنهاد در:
catalon4.94(23) امتیاززمان تحویل: 100 روزارسال پیشنهاد در:
WritGuru5(1) امتیاززمان تحویل: 75 روزارسال پیشنهاد در:
