روش‌های محاسباتی برای یکپارچه‌سازی بینایی و زبان ۲۰۲۲
Computational Methods for Integrating Vision and Language 2022

دانلود کتاب روش‌های محاسباتی برای یکپارچه‌سازی بینایی و زبان ۲۰۲۲ (Computational Methods for Integrating Vision and Language 2022) با لینک مستقیم و فرمت pdf (پی دی اف) و ترجمه فارسی

نویسنده

Kenichi Kanatani, Yasuyuki Sugaya

voucher-1

۳۰ هزار تومان تخفیف با کد «OFF30» برای اولین خرید

سال انتشار

2022

زبان

English

تعداد صفحه‌ها

211

نوع فایل

pdf

حجم

2.7 MB

🏷️ قیمت اصلی: 200,000 تومان بود.قیمت فعلی: 129,000 تومان.

🏷️ قیمت اصلی: ۳۷۸٬۰۰۰ تومان بود. قیمت فعلی: ۲۹۸٬۰۰۰ تومان.

📥 دانلود نسخه‌ی اصلی کتاب به زبان انگلیسی(PDF)
🧠 به همراه ترجمه‌ی فارسی با هوش مصنوعی 🔗 مشاهده جزئیات

پیش‌خرید با تحویل فوری(⚡️) | فایل کتاب حداکثر تا ۳۰ دقیقه(🕒) پس از ثبت سفارش آماده دانلود خواهد بود.

دانلود مستقیم PDF

ارسال فایل به ایمیل

پشتیبانی ۲۴ ساعته

توضیحات

معرفی کتاب روش‌های محاسباتی برای یکپارچه‌سازی بینایی و زبان ۲۰۲۲

مدل‌سازی داده‌ها از هر دو حوزه‌ی دیداری و زبانی، فرصت‌های جدیدی را برای درک بهتر هر دو حوزه ایجاد می‌کند و از بسیاری از کاربردهای مفید پشتیبانی می‌کند. نمونه‌هایی از داده‌های دیداری-زبانیِ دوتایی شامل تصاویر با کلمات کلیدی، ویدیو با روایت و شکل‌ها در اسناد است. ما دو موضوع کلیدی مبتنی بر وظیفه را در نظر می‌گیریم: ترجمه از یک حوزه به حوزه دیگر (به عنوان مثال، استنباط حاشیه‌نویسی برای تصاویر) و درک داده‌ها با استفاده از تمام حوزه‌ها، جایی که یک حوزه می‌تواند به رفع ابهام اطلاعات در حوزه دیگر کمک کند. حوزه‌های چندگانه می‌توانند اساساً از نظر معنایی اضافی باشند (به عنوان مثال، کلمات کلیدی ارائه شده توسط شخصی که به تصویر نگاه می‌کند)، یا تا حد زیادی مکمل (به عنوان مثال، فراداده‌هایی مانند دوربین مورد استفاده). افزونگی و مکمل بودن، دو نقطه پایانی یک مقیاس هستند، و مشاهده می‌کنیم که عملکرد خوب در ترجمه مستلزم مقداری افزونگی است، و استنباط مشترک در جایی که اطلاعاتی مکمل وجود دارد، مفیدتر است.

روش‌های محاسباتی مورد بحث به طور کلی به روش‌هایی برای کلمات کلیدی ساده، روش‌هایی که فراتر از کلمات کلیدی به سمت زبان طبیعی می‌روند، و روش‌هایی که جنبه‌های ترتیبی زبان طبیعی را در نظر می‌گیرند، سازماندهی می‌شوند. روش‌های مربوط به کلمات کلیدی بر اساس محلی‌سازی معنایی سازماندهی می‌شوند، از کلماتی درباره‌ی صحنه که به طور کلی در نظر گرفته می‌شوند، به کلماتی که در مورد بخش‌های خاصی از صحنه اعمال می‌شوند، تا روابط بین بخش‌ها. روش‌هایی که فراتر از کلمات کلیدی هستند، بر اساس نقش‌های زبانی که آموخته، مورد بهره‌برداری یا تولید می‌شوند، سازماندهی می‌شوند. اینها شامل اسم‌های خاص، صفت‌ها، حروف اضافه مکانی و مقایسه‌ای و فعل‌ها هستند. تحولات اخیر در برخورد با ساختار ترتیبی شامل عنوان‌گذاری خودکار صحنه‌ها و ویدیو، هم‌ترازی ویدیو و متن، و پاسخگویی خودکار به سؤالات در مورد صحنه‌های به تصویر کشیده شده در تصاویر است.


فهرست کتاب:

۱. روی جلد

۲. صفحه حق تکثیر

۳. صفحه عنوان

۴. فهرست

۵. تقدیر و تشکر

۶. فهرست تصاویر

۷. مقدمه

۸. معناشناسی تصاویر و متن مرتبط

۹. منابع داده برای پیوند اطلاعات دیداری و زبانی

۱۰. استخراج و نمایش اطلاعات دیداری

۱۱. پردازش متن و گفتار

۱۲. مدل‌سازی تصاویر و کلمات کلیدی

۱۳. فراتر از اسم‌های ساده

۱۴. ساختار ترتیبی

۱۵. تعاریف و مشتقات اضافی

۱۶. کتابنامه

۱۷. زندگینامه نویسنده

 

توضیحات(انگلیسی)

Modeling data from visual and linguistic modalities together creates opportunities for better understanding of both, and supports many useful applications. Examples of dual visual-linguistic data includes images with keywords, video with narrative, and figures in documents. We consider two key task-driven themes: translating from one modality to another (e.g., inferring annotations for images) and understanding the data using all modalities, where one modality can help disambiguate information in another. The multiple modalities can either be essentially semantically redundant (e.g., keywords provided by a person looking at the image), or largely complementary (e.g., meta data such as the camera used). Redundancy and complementarity are two endpoints of a scale, and we observe that good performance on translation requires some redundancy, and that joint inference is most useful where some information is complementary. Computational methods discussed are broadly organized into ones forsimple keywords, ones going beyond keywords toward natural language, and ones considering sequential aspects of natural language. Methods for keywords are further organized based on localization of semantics, going from words about the scene taken as whole, to words that apply to specific parts of the scene, to relationships between parts. Methods going beyond keywords are organized by the linguistic roles that are learned, exploited, or generated. These include proper nouns, adjectives, spatial and comparative prepositions, and verbs. More recent developments in dealing with sequential structure include automated captioning of scenes and video, alignment of video and text, and automated answering of questions about scenes depicted in images.


Table of Contents

1. Cover

2. Copyrigt Page

3. Title Page

4. Contents

5. Acknowledgments

6. Figure Credits

7. Introduction

8. The Semantics of Images and Associated Text

9. Sources of Data for Linking Visual and Linguistic Information

10. Extracting and Representing Visual Information

11. Text and Speech Processing

12. Modeling Images and Keywords

13. Beyond Simple Nouns

14. Sequential Structure

15. Additional Definitions and Derivations

16. Bibliography

17. Author’s Biography

دیگران دریافت کرده‌اند

✨ ضمانت تجربه خوب مطالعه

بازگشت کامل وجه

در صورت مشکل، مبلغ پرداختی بازگردانده می شود.

دانلود پرسرعت

دانلود فایل کتاب با سرعت بالا

ارسال فایل به ایمیل

دانلود مستقیم به همراه ارسال فایل به ایمیل.

پشتیبانی ۲۴ ساعته

با چت آنلاین و پیام‌رسان ها پاسخگو هستیم.

ضمانت کیفیت کتاب

کتاب ها را از منابع معتیر انتخاب می کنیم.