فصل 9: الگوریتمهای طراحی پارادایمها
در فصلهای قبلی، ما طیف گستردهای از الگوریتمها را برای حل مسائل خاص مانند مرتبسازی، جستوجو، گرافپیمایی و پردازش رشته بررسی کردهایم. در حالی که این الگوریتمها در کاربردها و پیادهسازیهای خود متنوع هستند، بسیاری از آنها اصول یا پارادایمهای طراحی زیربنایی مشترکی دارند.
در این فصل، ما سه پارادایم طراحی الگوریتم اساسی را بررسی خواهیم کرد: تقسیم و حل، الگوریتمهای حریصانه و برنامهریزی پویا. این پارادایمها رویکردهای کلی برای حل مسئله را ارائه میدهند که میتوانند برای حل طیف وسیعی از مسائل تطبیق داده شوند. با درک این پارادایمها، میتوانیم به ساختار الگوریتمها بینش پیدا کنیم و الگوریتمهای جدیدی برای مسائلی که با آنها مواجه میشویم، طراحی کنیم.
تقسیم و حل
پارادایم تقسیم و حل یک رویکرد قدرتمند و گسترده استفاده برای طراحی الگوریتمهای کارآمد است. ایده اصلی این است که مسئله را به زیرمسائل کوچکتر تقسیم کنیم، این زیرمسائل را به صورت بازگشتی حل کنیم و سپس راهحلهای آنها را ترکیب کنیم تا مسئله اصلی را حل کنیم.
یک الگوریتم تقسیم و حل معمولی از سه مرحله تشکیل شده است:
- تقسیم: اگر مسئله به اندازه کافی کوچک باشد که به طور مستقیم حل شود، آن را حل کنید. در غیر این صورت، مسئله را به زیرمسائل کوچکتر تقسیم کنید.
- حل: به صورت بازگشتی هر زیرمسئله را حل کنید.
- ترکیب: راهحلهای زیرمسائل را ترکیب کنید تا راهحل مسئله اصلی را به دست آورید.
اثربخشی الگوریتمهای تقسیم و حل از توانایی آنها در کاهش اندازه مسئله به یک عامل ثابت در هر مرحله بازگشتی ناشی میشود. این اغلب منجر به الگوریتمهایی با زمان اجرای لگاریتمی یا چند لگاریتمی میشود.
مرتبسازی ادغامی: یک الگوریتم تقسیم و حل کلاسیک
یکی از مشهورترین مثالهای یک الگوریتم تقسیم و حل، مرتبسازی ادغامی است که در فصل 2 به طور مفصل مورد بررسی قرار گرفت. به یاد داشته باشید که مرتبسازی ادغامی یک آرایه را با تقسیم آن به دو نیمه، مرتبسازی بازگشتی هر نیمه و سپس ادغام نیمههای مرتبشده حل میکند.
اینجا توصیف کلی از ماینجا ترجمه فارسی فایل مارکداون است:
الگوریتم مرجسورت:
function mergesort(array):
# اگر طول آرایه کمتر یا مساوی 1 باشد، آرایه را برگردان
if array.length <= 1:
return array
else:
# محاسبه وسط آرایه
mid = array.length / 2
# تقسیم آرایه به دو نیمه چپ و راست
left = mergesort(array[0:mid])
right = mergesort(array[mid:])
# ادغام دو نیمه مرتبشده
return merge(left, right)
تابع merge
دو آرایه مرتبشده را به یک آرایه مرتبشده واحد ادغام میکند:
function merge(left, right):
# ایجاد آرایه نتیجه
result = []
# ادغام دو آرایه تا زمانی که یکی از آنها خالی شود
while left is not empty and right is not empty:
# اگر عنصر اول آرایه چپ کوچکتر یا مساوی عنصر اول آرایه راست باشد
if left[0] <= right[0]:
# اضافه کردن عنصر اول آرایه چپ به آرایه نتیجه و حذف آن از آرایه چپ
append left[0] to result
remove left[0] from left
else:
# اضافه کردن عنصر اول آرایه راست به آرایه نتیجه و حذف آن از آرایه راست
append right[0] to result
remove right[0] from right
# اضافه کردن عناصر باقیمانده در آرایه چپ به آرایه نتیجه
append remaining elements of left to result
# اضافه کردن عناصر باقیمانده در آرایه راست به آرایه نتیجه
append remaining elements of right to result
# برگرداندن آرایه نتیجه
return result
استراتژی تقسیم و حل به مرجسورت امکان میدهد تا در بدترین حالت زمان اجرای O(n log n)
را داشته باشد، که آن را به یکی از کارآمدترین الگوریتمهای مرتبسازی عمومی تبدیل میکند.
قضیه استاد
زمان اجرای بسیاری از الگوریتمهای تقسیم و حل را میتوان با استفاده از قضیه استاد تحلیل کرد، که یک فرمول کلی برای رکوردهای به شکل زیر ارائه میدهد:
T(n) = aT(n/b) + f(n)
در اینجا، a
تعداد تماسهای رکورسیو، n/b
اندازه هر زیرمسئله، و f(n)
هزینه تقسیم مسئله و ترکیب نتایج است.
قضیه استاد بیان میکند که راهحل این رکورد به شرح زیر است:
- اگر
f(n) = O(n^(log_b(a) - ε))
برای مقداری ثابتε > 0
باشد، آنگاهT(n) = Θ(n^log_b(a))
. - اگر
f(n) = Θ(n^log_b(a))
باشد، آنگاهT(n) = Θ(n^log_b(a) * log n)
. - اگر
f(n) = Ω(n^(log_b(a) + ε))
برای مقداری ثابتε > 0
باشد و اگرaf(n/b) ≤ cf(n)
برای مقداری ثابتc < 1
و تمامn
بزرگتر از یک مقدار باشد، آنگاهT(n) = Θ(f(n))
.
برای مرجسورت، ما a = 2
(دو تماس رکورسیو)، b = 2
(هر زیرمسئله نصف اندازه اصلی است)، و f(n) = Θ(n)
(مرحله ادغام زمان خطی دارد). از آنجایی که log_2(2) = 1
، ما در مورد 2 قضیه استاد هستیم و زمان اجرا Θ(n log n)
است.
سایر الگوریتمهای تقسیم و حل
بسیاری از الگوریتمهای دیگر نیز با استفاده از استراتژی تقسیم و حل پیادهسازی میشوند.اینجا ترجمه فارسی فایل مارکداون است. برای کد، فقط نظرات را ترجمه کردهایم و خود کد را ترجمه نکردهایم:
الگوریتمها میتوانند با استفاده از پارادایم تقسیم و حل طراحی شوند. برخی از نمونههای برجسته شامل موارد زیر است:
-
مرتبسازی سریع: مانند مرتبسازی ادغامی، مرتبسازی سریع یک الگوریتم مرتبسازی تقسیم و حل است. این الگوریتم آرایه را حول یک عنصر محوری تقسیم میکند، زیرآرایهها را به طور بازگشتی در سمت چپ و راست محور مرتب میکند و نتایج را ترکیب میکند.
-
جستجوی دودویی: الگوریتم جستجوی دودویی برای یافتن یک عنصر در یک آرایه مرتبشده را میتوان به عنوان یک الگوریتم تقسیم و حل در نظر گرفت. این الگوریتم مقدار هدف را با عنصر میانی آرایه مقایسه میکند و به طور بازگشتی در نیمه چپ یا راست جستجو میکند، بسته به نتیجه مقایسه.
-
ضرب کاراتسوبا: این یک الگوریتم تقسیم و حل برای ضرب دو عدد n رقمی در زمان O(n^log_2(3)) ≈ O(n^1.585) است، که سریعتر از الگوریتم سنتی O(n^2) است.
-
ضرب ماتریس استراسن: الگوریتم استراسن دو ماتریس n × n را در زمان O(n^log_2(7)) ≈ O(n^2.807) ضرب میکند، که بهتر از الگوریتم ساده O(n^3) است.
این مثالها انعطافپذیری و قدرت پارادایم تقسیم و حل را برای طراحی الگوریتمهای کارآمد نشان میدهند.
الگوریتمهای حریصانه
الگوریتمهای حریصانه یک دسته از الگوریتمها هستند که در هر مرحله بهترین گزینه محلی را انتخاب میکنند با امید به یافتن راهحل بهینه جهانی. این الگوریتمها اغلب برای مسائل بهینهسازی استفاده میشوند که در آن راهحل به طور تدریجی با انجام یک سری انتخابها ساخته میشود، که هر کدام در آن لحظه بهترین به نظر میرسد.
ویژگیهای کلیدی الگوریتمهای حریصانه عبارتند از:
- آنها در هر مرحله بهترین گزینه محلی را انتخاب میکنند، بدون نگرانی از پیامدهای آینده.
- آنها فرض میکنند که یک انتخاب بهینه محلی منجر به یک راهحل بهینه جهانی خواهد شد.
- آنها هرگز انتخابهای قبلی را مجدداً در نظر نمیگیرند.
الگوریتمهای حریصانه اغلب ساده برای درک و پیادهسازی هستند و میتوانند بسیار کارآمد باشند. با این حال، آنها همیشه راهحل بهینه را تولید نمیکنند، زیرا انتخابهای بهینه محلی ممکن است منجر به راهحل بهینه جهانی نشوند.
کدگذاری هافمن: یک الگوریتم حریصانه برای فشردهسازی داده
هافمناینجا ترجمه فارسی فایل مارکداون است:
کدنویسی، که در فصل ۵ با آن آشنا شدیم، الگوریتم حریص برای ساخت یک کد بهینه بدون پیشوند برای فشردهسازی داده است. این الگوریتم یک درخت دودویی را از پایین به بالا میسازد و به کاراکترهای با فراوانی بیشتر توالیهای بیتی کوتاهتری اختصاص میدهد.
اینجا توصیف کلی از الگوریتم کدگذاری هافمن آمده است:
۱. یک گره برگ برای هر کاراکتر ایجاد کنید و آن را به یک صف اولویت اضافه کنید. ۲. تا زمانی که در صف بیش از یک گره وجود داشته باشد:
- دو گره با کمترین فراوانی را از صف حذف کنید.
- یک گره داخلی جدید با این دو گره به عنوان فرزندان و با فراوانی برابر با مجموع فراوانی دو گره ایجاد کنید.
- گره جدید را به صف اولویت اضافه کنید. ۳. گره باقیمانده ریشه درخت است و درخت کامل است.
انتخاب حریصانه ادغام دو گره با کمترین فراوانی است. این انتخاب بهینه محلی منجر به یک کد بهینه بدون پیشوند میشود.
اینجا مثالی از کدگذاری هافمن آمده است:
فرض کنید فراوانی کاراکترها به صورت زیر باشد:
d: 1
e: 1
درخت هافمن برای این مثال به صورت زیر است:
(15)
/ \
(7) (8)
/ \ / \
(4) (3) (3) (5)
/\ /\ /\ /\
A B C D E
کدهای هافمن نتیجهشده به صورت زیر است:
A: 00
B: 01
C: 10
D: 110
E: 111
بنابراین رشته اصلی "AAAABBBCCCDDDEEE" به صورت زیر کدگذاری میشود:
00000000010101101010110110110111111111
کدگذاری هافمن با اختصاص کدهای کوتاهتر به کاراکترهای با فراوانی بیشتر، فشردهسازی را انجام میدهد. کدها بدون پیشوند هستند، یعنی هیچ کدی پیشوند کد دیگری نیست، که امکان رمزگشایی بدون ابهام را فراهم میکند.
فشردهسازی LZW
فشردهسازی لمپل-زیو-ولچ (LZW) یک الگوریتم فشردهسازی مبتنی بر دیکشنری است که در حین فشردهسازی ورودی، دیکشنری (یا کتابکد) از رشتهها را میسازد. LZW در ابزارهای فشردهسازی فایل گسترده استفاده میشود و در قالب تصویر GIF نیز استفاده شده است.
ایده کلیدی LZW جایگزینی رشتههای کاراکتر با کدهای تکبیتی است. این الگوریتم ورودی را کاراکتر به کاراکتر میخواند و با جایگزینی هر رشته ثابت با یک کد، آن را به یک نمایش فشردهتر تبدیل میکند.اینجا ترجمه فارسی فایل مارکداون است. برای کد، فقط توضیحات را ترجمه کنید، کد را ترجمه نکنید:
کد متغیر-طول با کد متغیر-طول. هرچه رشته طولانیتر باشد، فضای بیشتری با رمزگذاری آن به عنوان یک عدد تک نگاشته میشود.
اینجا توضیح مرحلهبهمرحله نحوه کار فشردهسازی LZW:
- فرهنگ لغت را با همه رشتههای تککاراکتری مقداردهی اولیه کنید.
- طولانیترین رشته W را در فرهنگ لغت که با ورودی کنونی مطابقت دارد، پیدا کنید.
- شاخص فرهنگ لغت برای W را به خروجی ارسال کنید و W را از ورودی حذف کنید.
- W را همراه با نماد بعدی در ورودی به فرهنگ لغت اضافه کنید.
- به مرحله 2 بروید.
بیایید یک مثال را در نظر بگیریم. فرض کنید میخواهیم رشته "ABABABABA" را با استفاده از LZW فشرده کنیم.
- فرهنگ لغت را با "A" و "B" مقداردهی اولیه کنید.
- طولانیترین تطبیق "A" است. شاخص آن (0) را ارسال کنید و آن را از ورودی حذف کنید. فرهنگ لغت اکنون شامل "A"، "B" و "AB" است.
- طولانیترین تطبیق "B" است. شاخص آن (1) را ارسال کنید و آن را از ورودی حذف کنید. فرهنگ لغت اکنون شامل "A"، "B"، "AB" و "BA" است.
- طولانیترین تطبیق "AB" است. شاخص آن (2) را ارسال کنید و آن را از ورودی حذف کنید. فرهنگ لغت اکنون شامل "A"، "B"، "AB"، "BA" و "ABA" است.
- طولانیترین تطبیق "ABA" است. شاخص آن (4) را ارسال کنید و آن را از ورودی حذف کنید. فرهنگ لغت اکنون شامل "A"، "B"، "AB"، "BA"، "ABA" و "ABAB" است.
- طولانیترین تطبیق "BA" است. شاخص آن (3) را ارسال کنید. ورودی اکنون خالی است.
بازنمایش فشرده "ABABABABA" بنابراین توالی شاخصها[1] است که برای نمایش آن تعداد بیتهای کمتری نیاز است تا نمایش اصلی ASCII.
بازگشایی فشردهسازی به همین شکل اما به صورت معکوس انجام میشود:
- فرهنگ لغت را با همه رشتههای تککاراکتری مقداردهی اولیه کنید.
- یک کد X را از ورودی بخوانید.
- رشته مربوط به X را از فرهنگ لغت خروجی کنید.
- اگر کد قبلی وجود داشته باشد، رشته قبلی را همراه با اولین کاراکتر رشته مربوط به X به فرهنگ لغت اضافه کنید.
- به مرحله 2 بروید.
فشردهسازی LZW ساده و سریع است و برای بسیاری از کاربردها گزینه خوبی است. با این حال، محدودیتهایی نیز دارد. اندازه فرهنگ لغت میتواند بسیار بزرگ شود و مقدار قابل توجهی از حافظه را مصرف کند. همچنین،اگرچه این محدودیتها وجود دارد، LZW همچنان به عنوان یک الگوریتم فشردهسازی محبوب و موثر باقی میماند، به ویژه برای کاربردهایی که سرعت از اهمیت بیشتری نسبت به رسیدن به بالاترین نسبت فشردهسازی ممکن برخوردار است.
نتیجهگیری
در این فصل، ما چندین الگوریتم مهم پردازش رشتهای را بررسی کردیم، از جمله مرتبسازی رشتهها، تریها، جستجوی زیررشته، عبارات منظم و فشردهسازی دادهها. این الگوریتمها پایه و اساس بسیاری از کاربردهای واقعیدنیا هستند و ابزارهای ضروری برای هر برنامهنویسی که با دادههای متنی کار میکند، محسوب میشوند.
ما ابتدا به بحث در مورد مرتبسازی رشتهها پرداختیم، که الگوریتمهای مرتبسازی بهینهشدهای هستند که از ویژگیهای خاص رشتهها استفاده میکنند. شمارش کلیدی-شاخصدار، مرتبسازی رادیکس LSD و مرتبسازی رادیکس MSD روشهای کارآمدی برای مرتبسازی رشتهها بر اساس کاراکترهای فردی آنها ارائه میدهند.
سپس، به بررسی تریها، ساختار دادهای درختمانند برای ذخیره و بازیابی رشتهها، پرداختیم. تریها امکان تطبیق پیشوند سریع را فراهم میکنند و به طور معمول در کاربردهایی مانند تکمیل خودکار و جداول مسیریابی IP استفاده میشوند.
الگوریتمهای جستجوی زیررشته، مانند الگوریتمهای کنوت-موریس-پرات و بویر-مور، به ما امکان جستجوی کارآمد الگوها در رشتههای بزرگتر را میدهند. این الگوریتمها کاربردهای متعددی در ویرایش متن، زیستشناسی محاسباتی و بازیابی اطلاعات دارند.
عبارات منظم راهی قدرتمند و انعطافپذیر برای توصیف الگوهای رشتهای فراهم میکنند. ما نحوه پایهای عبارات منظم و چگونگی استفاده از آنها برای تطبیق الگو و دستکاری رشتهها در زبانهای برنامهنویسی و ابزارهای مختلف را بررسی کردیم.
در نهایت، به بررسی الگوریتمهای فشردهسازی دادهها پرداختیم، که اندازه دادهها را با بهرهگیری از افزونگی و الگوهای موجود در ورودی کاهش میدهند. ما به پوششدهی طولدار، کدگذاری هافمن و فشردهسازی لمپل-زیو-ولچ پرداختیم، که هر کدام نقاط قوت و کاربردهای خاص خود را دارند.
درک این الگوریتمها و ساختارهای دادهای پردازش رشتهای برای هر کسی که با دادههای متنی کار میکند، حیاتی است.Here is the Persian translation of the provided markdown file, with the code comments translated:
کار با داده های متنی
همانطور که میزان داده های غیرساختاری در حال افزایش است، توانایی دستکاری، جستجو و فشرده سازی رشته ها به طور فزاینده ای ارزشمند خواهد شد. با تسلط بر تکنیک های پوشش داده شده در این فصل، شما به خوبی مجهز خواهید بود تا با طیف گسترده ای از چالش های پردازش رشته در پروژه ها و برنامه های خود مقابله کنید.
# این تابع یک رشته را به عنوان ورودی دریافت می کند و تعداد کلمات آن را برمی گرداند
def word_count(text):
words = text.split()
return len(words)
# این تابع یک رشته را به عنوان ورودی دریافت می کند و تعداد کاراکترهای منحصر به فرد آن را برمی گرداند
def unique_chars(text):
return len(set(text))
# این تابع یک رشته را به عنوان ورودی دریافت می کند و بسامد هر کلمه را برمی گرداند
def word_frequency(text):
words = text.split()
freq = {}
for word in words:
if word in freq:
freq[word] += 1
else:
freq[word] = 1
return freq
# این تابع یک رشته را به عنوان ورودی دریافت می کند و آن را به صورت معکوس برمی گرداند
def reverse_string(text):
return text[::-1]