সুচিপত্র:

আমি কিভাবে একটি তালিকা থেকে একটি PySpark ডেটাফ্রেম তৈরি করব?
আমি কিভাবে একটি তালিকা থেকে একটি PySpark ডেটাফ্রেম তৈরি করব?

ভিডিও: আমি কিভাবে একটি তালিকা থেকে একটি PySpark ডেটাফ্রেম তৈরি করব?

ভিডিও: আমি কিভাবে একটি তালিকা থেকে একটি PySpark ডেটাফ্রেম তৈরি করব?
ভিডিও: PySpark টিউটোরিয়াল 5: PySpark ডেটাফ্রেম তৈরি করুন | পাইথন সহ PySpark 2024, নভেম্বর
Anonim

আমি tuples তালিকা থেকে একটি DataFrame তৈরি করার জন্য এই পদক্ষেপগুলি অনুসরণ করছি:

  1. সৃষ্টি ক তালিকা টিপলস এর প্রতিটি টিপলে একজন বয়সী ব্যক্তির নাম রয়েছে।
  2. সৃষ্টি থেকে একটি RDD তালিকা উপরে
  3. রূপান্তর করুন একটি সারি প্রতিটি tuple.
  4. সৃষ্টি ক ডেটাফ্রেম sqlContext এর সাহায্যে RDD-এ createDataFrame প্রয়োগ করে।

এটিকে সামনে রেখে, আপনি কীভাবে একটি ডেটাফ্রেমকে পাইথনে একটি তালিকায় রূপান্তর করবেন?

  1. ধাপ 1: DataFrame.to_numpy() ব্যবহার করে একটি নেস্টেড Numpy অ্যারেতে ডেটাফ্রেম রূপান্তর করুন অর্থাৎ
  2. ধাপ 2: 2D Numpy অ্যারেকে তালিকার একটি তালিকায় রূপান্তর করুন।
  3. ধাপ 1: সারিগুলিকে কলাম এবং কলামগুলিকে সারি হিসাবে রূপান্তর করতে ডেটাফ্রেমটি স্থানান্তর করুন।
  4. ধাপ 2: DataFrame.to_numpy() ব্যবহার করে ডেটাফ্রেমটিকে নেস্টেড নম্পি অ্যারেতে রূপান্তর করুন

উপরন্তু, একটি স্পার্ক ডেটাফ্রেম কি? ক স্পার্ক ডেটাফ্রেম নামযুক্ত কলামগুলিতে সংগঠিত ডেটার একটি বিতরণ করা সংগ্রহ যা ফিল্টার, গোষ্ঠী বা গণনা সমষ্টিকে অপারেশন সরবরাহ করে এবং এর সাথে ব্যবহার করা যেতে পারে স্পার্ক এসকিউএল ডেটাফ্রেম স্ট্রাকচার্ড ডেটা ফাইল, বিদ্যমান RDD, Hive-এ টেবিল বা বাহ্যিক ডাটাবেস থেকে তৈরি করা যেতে পারে।

এছাড়াও জেনে নিন, PySpark SQL কি?

স্পার্ক এসকিউএল ইহা একটি স্পার্ক কাঠামোগত ডেটা প্রক্রিয়াকরণের জন্য মডিউল। এটি ডেটাফ্রেম নামে একটি প্রোগ্রামিং বিমূর্ততা প্রদান করে এবং এটি একটি বিতরণ হিসাবেও কাজ করতে পারে এসকিউএল কোয়েরি ইঞ্জিন। এটি বিদ্যমান স্থাপনা এবং ডেটাতে 100x দ্রুত গতিতে চলতে অপরিবর্তিত Hadoop Hive প্রশ্নগুলিকে সক্ষম করে৷

স্পার্ক ডেটাফ্রেম কি অপরিবর্তনীয়?

ভিতরে স্পার্ক তুমি পারবে না - ডেটাফ্রেম হয় অপরিবর্তনীয় . আপনার ব্যবহার করা উচিত।

প্রস্তাবিত: