اصطلاحات و تعاریف پرواز
راهنمای عملی برای تجزیه و تحلیل داده های اکتشافی: تأخیر در پرواز
تجزیه و تحلیل دقیق از تاخیر در پرواز.
عکس توسط نیلز ندل در Unsplash
ما در عصر داده های بزرگ زندگی می کنیم. ما داده های زیادی را جمع آوری می کنیم که به ما امکان می دهد نتایج معناداری را استنباط کنیم و تصمیمات تجاری آگاهانه ای بگیریم. با این حال ، داده های خام ارائه نمی دهد مگر اینکه پردازش و مورد کاوش قرار گیرد. به منظور استفاده بیشتر از داده های خام ، ما نیاز به یک فرایند تجزیه و تحلیل داده های اکتشافی کامل داریم. حتی اگر ما مدلهای یادگیری ماشین پیچیده و ساختار یافته را بسازیم ، فقط نمی توانیم داده های خام را به آنها بسپاریم. مدل ها به اندازه داده هایی که از آنها تغذیه می کنیم به دست می آیند. با افزایش مقدار داده ها ، تجزیه و تحلیل و کاوش داده ها سخت تر می شود. قدرت تجزیه و تحلیل داده ها و ابزارهای تجسم وجود دارد.
ما مجموعه ای از داده های مربوط به تأخیرهای پرواز را که در اینجا در Kaggle موجود است بررسی خواهیم کرد. دو مجموعه داده وجود دارد ، یکی شامل جزئیات پرواز در ژانویه 2019 و دیگری در ژانویه 2020 است. در این پست از ژانویه 2019 استفاده خواهیم کرد. با وارد کردن مجموعه داده به یک dataframe pandas شروع می کنیم.
واردات numpy به عنوان np
پاندا های وارداتی به عنوان pd
df = pd.read_csv ("/ محتوا / Jan_2019_ontime.csv")
چاپ (df.shape)
df.columns
تصویر برای ارسال
این مجموعه شامل اطلاعات مربوط به بیش از 500 کیلومتر پرواز (ردیف) و 22 ویژگی (ستون) در هر پرواز است. برخی از ستون ها به نظر می رسد زائد یا نوعی تکراری هستند ، بنابراین ما برخی از ستون ها را در تجزیه و تحلیل خود گنجان خواهیم کرد.
df.head ()
تصویر برای ارسال
برای هر پرواز ، ویژگی های زیر موجود است:
روز ماه
روز هفته
شرکت هواپیمایی حامل (
عزیمت به شهر و زمان عزیمت (ORIGIN ، DEP_TIME)
ورود به شهر و زمان ورود (DEST ، ARR_TIME)
هنگام تأخیر و عزیمت و ورود (DEP_DEL15 ، ARR_DEL15)
لغو شد ، منحرف شد
فاصله
ارزش از دست رفته
ما ابتدا مقادیر گمشده را کنترل می کنیم. به عنوان اولین مرحله ، بگذارید تعداد مقادیر گمشده در هر ستون را بررسی کنیم.