آشنایی با شناسایی داده‌های تکراری ۲۰۲۲
An Introduction to Duplicate Detection 2022

دانلود کتاب آشنایی با شناسایی داده‌های تکراری ۲۰۲۲ (An Introduction to Duplicate Detection 2022) با لینک مستقیم و فرمت pdf (پی دی اف) و ترجمه فارسی

نویسنده	Felix Nauman, Melanie Herschel

ناشر: Springer Nature

دسته: الگوریتم‌های برنامه‌نویسی, برنامه نویسی, زبان‌شناسی و مهارت‌های زبانی, سخت‌افزار, شبکه های کامپیوتری, علوم کامپیوتر, کتابداری و علم اطلاعات, مدیریت و راهبری پایگاه داده, نظریهٔ اطلاعات

۳۰ هزار تومان تخفیف با کد «OFF30» برای اولین خرید

سال انتشار	2022
زبان	English
تعداد صفحه‌ها	77
نوع فایل	pdf
حجم	6.4 MB

قیمت اصلی: 200,000 تومان بود.قیمت فعلی: 129,000 تومان.

پیش‌خرید با تحویل فوری(⚡️) | فایل کتاب حداکثر تا ۳۰ دقیقه(🕒) پس از ثبت سفارش آماده دانلود خواهد بود.

دانلود مستقیم PDF

ارسال فایل به ایمیل

پشتیبانی ۲۴ ساعته

هوش‌مصنوعی ترجمه کالیبو

توضیحات

معرفی کتاب آشنایی با شناسایی داده‌های تکراری ۲۰۲۲

با افزایش روزافزون حجم داده‌ها، مشکلات مربوط به کیفیت داده نیز فراوان شده‌اند. بازنمایی‌های متعدد و در عین حال متفاوت از یک شیء واقعی در داده‌ها که با عنوان «داده‌های تکراری» شناخته می‌شوند، یکی از جالب‌ترین مسائل در زمینه‌ی کیفیت داده به شمار می‌روند. اثرات این تکرارها مخرب است؛ به عنوان مثال، مشتریان بانک می‌توانند هویت‌های تکراری دریافت کنند، سطوح موجودی کالا به اشتباه رصد می‌شوند، کاتالوگ‌ها چندین بار به یک خانوار ارسال می‌شوند و غیره. تشخیص خودکار داده‌های تکراری دشوار است: اولاً، بازنمایی‌های تکراری معمولاً یکسان نیستند، بلکه در مقادیر خود تفاوت‌های جزئی دارند. ثانیاً، در حالت ایده‌آل، باید تمام جفت‌های رکورد با هم مقایسه شوند، که برای حجم زیادی از داده‌ها امکان‌پذیر نیست. این درس به بررسی دقیق دو جزء اصلی برای غلبه بر این مشکلات می‌پردازد: (i) معیارهای شباهت برای شناسایی خودکار داده‌های تکراری هنگام مقایسه‌ی دو رکورد استفاده می‌شوند. معیارهای شباهتِ به‌خوبی انتخاب‌شده، اثربخشی تشخیص داده‌های تکراری را بهبود می‌بخشند. (ii) الگوریتم‌هایی برای جستجوی داده‌های تکراری در حجم بسیار زیادی از داده‌ها توسعه داده می‌شوند. الگوریتم‌های خوش‌طراحی، کارایی تشخیص داده‌های تکراری را بهبود می‌بخشند. در نهایت، روش‌هایی را برای ارزیابی موفقیت تشخیص داده‌های تکراری مورد بحث قرار می‌دهیم.

فهرست مطالب: پاکسازی داده: مقدمه و انگیزه / تعریف مسئله / توابع شباهت / الگوریتم‌های تشخیص داده‌های تکراری / ارزیابی موفقیت تشخیص / نتیجه‌گیری و چشم‌انداز / کتابنامه

فهرست کتاب:

۱. روی جلد

۲. سخنرانی‌های ترکیبی در مدیریت داده

۳. صفحه حقوق مولف

۴. صفحه عنوان

۵. فهرست

۶. پاکسازی داده: مقدمه و انگیزه

۷. تعریف مسئله

۸. توابع شباهت

۹. الگوریتم‌های تشخیص داده‌های تکراری

۱۰. ارزیابی موفقیت تشخیص

۱۱. نتیجه‌گیری و چشم انداز

۱۲. کتابشناسی

۱۳. زندگینامه نویسندگان

توضیحات(انگلیسی)

With the ever increasing volume of data, data quality problems abound. Multiple, yet different representations of the same real-world objects in data, duplicates, are one of the most intriguing data quality problems. The effects of such duplicates are detrimental; for instance, bank customers can obtain duplicate identities, inventory levels are monitored incorrectly, catalogs are mailed multiple times to the same household, etc. Automatically detecting duplicates is difficult: First, duplicate representations are usually not identical but slightly differ in their values. Second, in principle all pairs of records should be compared, which is infeasible for large volumes of data. This lecture examines closely the two main components to overcome these difficulties: (i) Similarity measures are used to automatically identify duplicates when comparing two records. Well-chosen similarity measures improve the effectiveness of duplicate detection. (ii) Algorithms are developed to perform on very large volumes of data in search for duplicates. Well-designed algorithms improve the efficiency of duplicate detection. Finally, we discuss methods to evaluate the success of duplicate detection. Table of Contents: Data Cleansing: Introduction and Motivation / Problem Definition / Similarity Functions / Duplicate Detection Algorithms / Evaluating Detection Success / Conclusion and Outlook / Bibliography