آشنایی با شناسایی داده‌های تکراری ۲۰۲۲
An Introduction to Duplicate Detection 2022

دانلود کتاب آشنایی با شناسایی داده‌های تکراری ۲۰۲۲ (An Introduction to Duplicate Detection 2022) با لینک مستقیم و فرمت pdf (پی دی اف) و ترجمه فارسی

نویسنده

Felix Nauman, Melanie Herschel

voucher-1

۳۰ هزار تومان تخفیف با کد «OFF30» برای اولین خرید

سال انتشار

2022

زبان

English

تعداد صفحه‌ها

77

نوع فایل

pdf

حجم

6.4 MB

قیمت اصلی: 200,000 تومان بود.قیمت فعلی: 129,000 تومان.

🏷️ قیمت اصلی: ۳۷۸٬۰۰۰ تومان بود. قیمت فعلی: ۲۹۸٬۰۰۰ تومان.

📥 دانلود نسخه‌ی اصلی کتاب به زبان انگلیسی(PDF)
🧠 به همراه ترجمه‌ی فارسی با هوش مصنوعی 🔗 مشاهده جزئیات

پیش‌خرید با تحویل فوری(⚡️) | فایل کتاب حداکثر تا ۳۰ دقیقه(🕒) پس از ثبت سفارش آماده دانلود خواهد بود.

دانلود مستقیم PDF

ارسال فایل به ایمیل

پشتیبانی ۲۴ ساعته

توضیحات

معرفی کتاب آشنایی با شناسایی داده‌های تکراری ۲۰۲۲

با افزایش روزافزون حجم داده‌ها، مشکلات مربوط به کیفیت داده نیز فراوان شده‌اند. بازنمایی‌های متعدد و در عین حال متفاوت از یک شیء واقعی در داده‌ها که با عنوان «داده‌های تکراری» شناخته می‌شوند، یکی از جالب‌ترین مسائل در زمینه‌ی کیفیت داده به شمار می‌روند. اثرات این تکرارها مخرب است؛ به عنوان مثال، مشتریان بانک می‌توانند هویت‌های تکراری دریافت کنند، سطوح موجودی کالا به اشتباه رصد می‌شوند، کاتالوگ‌ها چندین بار به یک خانوار ارسال می‌شوند و غیره. تشخیص خودکار داده‌های تکراری دشوار است: اولاً، بازنمایی‌های تکراری معمولاً یکسان نیستند، بلکه در مقادیر خود تفاوت‌های جزئی دارند. ثانیاً، در حالت ایده‌آل، باید تمام جفت‌های رکورد با هم مقایسه شوند، که برای حجم زیادی از داده‌ها امکان‌پذیر نیست. این درس به بررسی دقیق دو جزء اصلی برای غلبه بر این مشکلات می‌پردازد: (i) معیارهای شباهت برای شناسایی خودکار داده‌های تکراری هنگام مقایسه‌ی دو رکورد استفاده می‌شوند. معیارهای شباهتِ به‌خوبی انتخاب‌شده، اثربخشی تشخیص داده‌های تکراری را بهبود می‌بخشند. (ii) الگوریتم‌هایی برای جستجوی داده‌های تکراری در حجم بسیار زیادی از داده‌ها توسعه داده می‌شوند. الگوریتم‌های خوش‌طراحی، کارایی تشخیص داده‌های تکراری را بهبود می‌بخشند. در نهایت، روش‌هایی را برای ارزیابی موفقیت تشخیص داده‌های تکراری مورد بحث قرار می‌دهیم.

فهرست مطالب: پاکسازی داده: مقدمه و انگیزه / تعریف مسئله / توابع شباهت / الگوریتم‌های تشخیص داده‌های تکراری / ارزیابی موفقیت تشخیص / نتیجه‌گیری و چشم‌انداز / کتابنامه


فهرست کتاب:

۱. روی جلد

۲. سخنرانی‌های ترکیبی در مدیریت داده

۳. صفحه حقوق مولف

۴. صفحه عنوان

۵. فهرست

۶. پاکسازی داده: مقدمه و انگیزه

۷. تعریف مسئله

۸. توابع شباهت

۹. الگوریتم‌های تشخیص داده‌های تکراری

۱۰. ارزیابی موفقیت تشخیص

۱۱. نتیجه‌گیری و چشم انداز

۱۲. کتابشناسی

۱۳. زندگینامه نویسندگان

 

توضیحات(انگلیسی)

With the ever increasing volume of data, data quality problems abound. Multiple, yet different representations of the same real-world objects in data, duplicates, are one of the most intriguing data quality problems. The effects of such duplicates are detrimental; for instance, bank customers can obtain duplicate identities, inventory levels are monitored incorrectly, catalogs are mailed multiple times to the same household, etc. Automatically detecting duplicates is difficult: First, duplicate representations are usually not identical but slightly differ in their values. Second, in principle all pairs of records should be compared, which is infeasible for large volumes of data. This lecture examines closely the two main components to overcome these difficulties: (i) Similarity measures are used to automatically identify duplicates when comparing two records. Well-chosen similarity measures improve the effectiveness of duplicate detection. (ii) Algorithms are developed to perform on very large volumes of data in search for duplicates. Well-designed algorithms improve the efficiency of duplicate detection. Finally, we discuss methods to evaluate the success of duplicate detection. Table of Contents: Data Cleansing: Introduction and Motivation / Problem Definition / Similarity Functions / Duplicate Detection Algorithms / Evaluating Detection Success / Conclusion and Outlook / Bibliography


Table of Contents

1. Cover

2. Synthesis Lectures on Data Management

3. Copyright Page

4. Title Page

5. Contents

6. Data Cleansing: Introduction and Motivation

7. Problem Definition

8. Similarity Functions

9. Duplicate Detection Algorithms

10. Evaluating Detection Success

11. Conclusion and Outlook

12. Bibliography

13. Authors’ Biographies

دیگران دریافت کرده‌اند

مقدمه ای بر سم شناسی آبزیان ۲۰۱۴
An Introduction to Aquatic Toxicology 2014

🏷️ قیمت اصلی: 200,000 تومان بود.قیمت فعلی: 129,000 تومان.

مقدمه ای بر ژنتیک قانونی ۲۰۱۰
An Introduction to Forensic Genetics 2010

🏷️ قیمت اصلی: 200,000 تومان بود.قیمت فعلی: 129,000 تومان.

آشنایی با ژنتیک قانونی ۲۰۱۰
An Introduction to Forensic Genetics 2010

🏷️ قیمت اصلی: 200,000 تومان بود.قیمت فعلی: 129,000 تومان.

✨ ضمانت تجربه خوب مطالعه

بازگشت کامل وجه

در صورت مشکل، مبلغ پرداختی بازگردانده می شود.

دانلود پرسرعت

دانلود فایل کتاب با سرعت بالا

ارسال فایل به ایمیل

دانلود مستقیم به همراه ارسال فایل به ایمیل.

پشتیبانی ۲۴ ساعته

با چت آنلاین و پیام‌رسان ها پاسخگو هستیم.

ضمانت کیفیت کتاب

کتاب ها را از منابع معتیر انتخاب می کنیم.