Hadoop এ ছোট ফাইলের সমস্যা কি?
Hadoop এ ছোট ফাইলের সমস্যা কি?

ভিডিও: Hadoop এ ছোট ফাইলের সমস্যা কি?

ভিডিও: Hadoop এ ছোট ফাইলের সমস্যা কি?
ভিডিও: Hadoop Rack Awareness 2024, মে
Anonim

1) ছোট ফাইল সমস্যা ভিতরে এইচডিএফএস : অনেক সঞ্চয় ছোট ফাইল যা অত্যন্ত ছোট ব্লক আকার দক্ষতার দ্বারা পরিচালনা করা যাবে না তুলনায় এইচডিএফএস . মাধ্যমে পড়া ছোট ফাইল ডেটা নোড থেকে ডেটা নোডের মধ্যে প্রচুর অনুসন্ধান এবং প্রচুর হপিং জড়িত, যা অদক্ষ ডেটা প্রসেসিংকে পরিণত করে।

এর পাশাপাশি, কোন ফাইলগুলি Hadoop এ ছোট ফাইলের সমস্যাগুলির সাথে মোকাবিলা করে?

1) HAR ( হাডুপ সংরক্ষণাগার) নথি পত্র সাথে পরিচয় করিয়ে দেওয়া হয়েছে ছোট ফাইল সমস্যা মোকাবেলা করুন . HAR উপরে একটি স্তর চালু করেছে এইচডিএফএস , যা জন্য ইন্টারফেস প্রদান করে ফাইল অ্যাক্সেস করা ব্যবহার হাডুপ সংরক্ষণাগার কমান্ড, HAR নথি পত্র তৈরি করা হয়, যা একটি চালায় মানচিত্র কমাতে কাজ প্যাক নথি পত্র মধ্যে আর্কাইভ করা হচ্ছে ছোট সংখ্যা HDFS ফাইল.

উপরন্তু, আমি কি HDFS-এ একাধিক ফাইল বিভিন্ন ব্লক আকার ব্যবহার করতে পারি? ডিফল্ট আকার এর ব্লক 64 MB হয়। আপনি করতে পারা আপনার প্রয়োজনের উপর নির্ভর করে এটি পরিবর্তন করুন। আপনার প্রশ্ন আসছে হ্যাঁ আপনি একাধিক ফাইল তৈরি করতে পারেন বিভিন্ন দ্বারা ব্লক মাপ কিন্তু রিয়েল-টাইমে এটি ইচ্ছাশক্তি উৎপাদনের পক্ষে নয়।

অধিকন্তু, কেন HDFS ছোট ফাইলগুলিকে সর্বোত্তমভাবে পরিচালনা করে না?

সঙ্গে সমস্যা ছোট ফাইল এবং এইচডিএফএস প্রতি ফাইল , ডিরেক্টরি এবং ব্লক ইন HDFS হল নেমনোডের মেমরিতে একটি বস্তু হিসাবে উপস্থাপিত হয়, যার প্রতিটি 150 বাইট দখল করে, একটি নিয়ম হিসাবে। উপরন্তু, এইচডিএফএস নয় দক্ষতার সাথে অ্যাক্সেস করার জন্য প্রস্তুত ছোট ফাইল : এটা হয় প্রাথমিকভাবে বড় স্ট্রিমিং অ্যাক্সেসের জন্য ডিজাইন করা হয়েছে নথি পত্র.

কেন Hadoop ধীর?

ধীর প্রসেসিং স্পিড এই ডিস্কের জন্য সময় লাগে যার ফলে পুরো প্রক্রিয়াটি খুব বেশি হয় ধীর . যদি হাডুপ ছোট ভলিউমে তথ্য প্রক্রিয়াকরণ, এটা খুব ধীর তুলনামূলকভাবে এটি বড় ডেটা সেটের জন্য আদর্শ। হিসাবে হাডুপ মূলে ব্যাচ প্রসেসিং ইঞ্জিন আছে এর রিয়েল-টাইম প্রসেসিং এর গতি কম।

প্রস্তাবিত: