۳۵ سوال مهم مصاحبه شغلی مرتبط با آمار و تحلیل داده به همراه جواب

 

 

اگر میخواهید برای مصاحبه شغلی آماده شوید، مقاله راهنمای سوالات مصاحبه آمار و تحلیل داده برای شما مفید خواهد بود و مفاهیم ضروری همچون آمار استنباطی و روشهای بیزین را پوشش میدهد.

تسلط بر ابزارهای تحلیل داده بدون درک مفاهیم پس‌زمینه آن شبیه داشتن یک جعبه ابزار از پیش‌گوشتی‌ها بدون دانستن نحوه و زمان استفاده از هر کدام از آنها است. آمار برای یادگیری مهم است زیرا با ظهور ابزارهای تحلیل تولید شده و کمک گرفته شده توسط هوش مصنوعی، مهارتهای فنی را در مقایسه با درک دانش و فهم مفاهیم کلیدی تا حدودی غیر رقابتی و نامهم شده است.

از شما میخواهم که از پیچیدگی آمار هراس نداشته باشید. این مقاله به قصد نمایش یک راهنمای فراگیر در رابطه با مفاهیم مهم آماری برای تحلیل داده و علوم داده از طریق ۳۵ سوال و جواب آماری تولید شده است. چه برای آمادگی مصاحبه شغلی باشد یا غیر از آن، مطمئن هستم که سوالات زیر را مفید خواهید دانست.

 

 

سوالاات اساسی مصاحبه آمار

 

اگر نگوییم همه،‌ اغلب شغلهای تحلیل داده نیاز به درک پایه از آمار دارند که این شامل آمار توصیفی و استنباطی و احتمال نیز میشود.

 

 

۱- انحراف معیار (standard deviation) و واریانس (variance) چیستند؟

 

واریانس و انحراف معیار، هر دو میزان پراکندگی و گستردگی یک مجموعه داده را اندازه‌گیری میکنند. واریانس،‌ متوسط مربع اختلافها از میانگین (mean) است و به نوعی مقدار تفاوت مقادیر داده‌ها را از میانگین آنها نشان میدهد. هر چند که، به دلیل استفاده از مربع اختلافها، واحد مقادیر بدست آمده نیز مربع میشود که میتواند نسبت به انحراف معیار کمتر شهودی باشد. انحراف معیار، ریشه دوم واریانس است که واحد آن را به داده اصلی باز میگرداند. بنابراین اندازه قابل تفسیرتری را از گستردگی داده‌ها به دست میدهد. برای مثال، اگر واریانس یک مجموعه داده 5 باشد، انحراف معیار برابر با \sqrt{25}=5 است.

 

 

۲- چولگی (skewness) چیست؟

 

چولگی میزان عدم تقارن یک مجموعه داده حول مقدار متوسط آن را اندازه‌گیری میکند که میتواند مثبت یا منفی یا صفر باشد. داده با چولگی مثبت یا داده منحرف به راست، دنباله راست طولانی‌تری دارد که به معنی آن است که میانگین از میانه (median) بیشتر است. داده با چولگی منفی یا داده منحرف به چپ، دنباله چپ طولانی‌تری دارد که به معنی آن است که میانگین کمتر از میانه است. چولگی صفر حاکی از توزیع متقارن است،‌ مشابه توزیع نرمال، که میانگین،‌ میانه و مود (mode) با هم برابر هستند.

 شکل ۱- چولگی مثبت و منفی.

 

 

۳- هیستوگرام چیست؟

 

هیستوگرام، یک نمایش گرافیکی از توزیع یک مجموعه داده است. این نمودار، داده رو به تعدادی بازه یا bin تقسیم میکند و تعداد تکرار هر داده را در آن بازه مشخص نشان میدهد. هیستوگرامها برای درک توزیع شمارش (شکل توزیع) داده در یک مجموعه از داده‌های پیوسته مورد استفاده قرار میگیرند. به کمک این ابزار گرافیکی میتوان الگوهایی همچون چولگی، ماهیت (modality) یا همان تعداد قله‌ها و حضور یا عدم حضور نقاط پرت (Outliers) را تشخیص داد.

شکل ۲- مثال از هیستوگرام

 

 

۴- اختلاف بین آمار توصیفی و استنباطی چیست؟

 

آمار استنباطی شامل پیش‌بینی یا تعبیر و برداشت خاص درباره یک جامعه آماری بر اساس نمونه داده‌های دریافت شده به طور تصادفی از آن جمعیت میشود. در این روش آماری، از روشهای متنوع برای تخمین پارامترهای جمعیت داده، تستهای فرض و انجام پیش‌بینی استفاده میشود. از طرف دیگر، آمار توصیفی به نوعی شاخصهای یک مجموعه داده را خلاصه‌سازی و توصیف میکند. در حالیکه آمار استنباطی از داده برای انجام تعمیم و کلیت بخشی و استخراج نتایج درباره یک جمعیت داده بزرگتر استفاده میکند.

 

 

۵- روشهای مختلف نمونه‌برداری داده کدامند؟

 

روشهای مختلف نمونه‌برداری به منظور اطمینان از تصادفی بودن و نمایشگر و نماینده جامعه آماری بودن، به کار گرفته میشوند. نمونه‌برداری تصادفی ساده به هر عضو جمیت داده، شانس یکسان برای انتخاب شدن میدهد. نمونه‌برداری سیستماتیک، شامل انتخاب هر عضو k-ام از یک جمعیت میشود که از یک نقطه شروع انتخاب شده به شکل تصادفی آغاز میشود. نمونه‌برداری طبقه‌بندی شده (stratified)، جمعیت داده را به چند زیرگروه یا strata‌ تقسیم میکند و نمونه‌ها به شکل تصادفی از هر زیرگروه انتخاب میشوند. نمونه‌برداری خوشه‌ای (cluster)، جمعیت داده خوشه‌بندی کرده و به طور تصادفی برخی خوشه‌ها را انتخاب میکند و تمام نمونه‌های موجود در این خوشه‌ها را در نهایت انتخاب میکند.

 

 

۶- قضیه حد مرکزی چیست؟

 

قضیه حد مرکزی بیان میکند که با افزایش تعداد نمونه‌های گرفته شده از یک جمعیت آماری که این نمونه‌ها مستقل از هم و با توزیع یکسان هستند، توزیع میانگین نمونه‌های منتخب به یک توزیع نرمال میل میکند و این مساله فارغ از توزیع جمعیت مورد نظر است.

 

 

۷- احتمالهای توأم، مرزی و شرطی کدامند؟

 

احتمال مرزی به احتمال رخداد یک رویداد فارغ از سایر رویدادها اشاره میکند که به شکل P(A) برای رویداد A نشان داده میشود. احتمال توأم، احتمال رخداد دو رویداد با هم است که ب شکل P(A \cap B) برای رخدادهای A و B نمایش داده میشود. احتمال شرطی، احتمال رخداد یک رویداد به شرط آنکه رویداد دیگری رخ داده باشد، است و به شکل P(A \vert B) برای رویدادهای A و B نشان داده میشود.

 

۸- توزیع احتمال چیست؟

 

یک توزیع احتمال، نحوه توزیع یک متغیر تصادفی را توصیف میکند. این توزیع، تابعی را ارائه میکند که نتایج رخداد یک متغیر تصادفی را به احتمالهای متناظر با آن نتایج نگاشت میکند. دو نوع توزیع احتمال اصلی وجود دارد. یک نمونه توزیع احتمال گسسته برای متغیرهای تصادفی گسسته است، همچون توزیع دوجمله‌ای (binomial) یا توزیع پوآسون (poisson). نمونه دیگر، توزیع احتمال پیوسته برای متغیرهای تصادفی پیوسته است، همچون توزیع نرمال (normal) یا توزیع نمایی (exponential).

 

 

۹- توزیع نرمال چیست؟

 

توزیع نرمال، که تحت عنوان توزیع گوسین (Gaussian) نیز شناخته میشود، یک توزیع احتمال پیوسته است که توسط منحنی شبیه زنگوله خود شناخته میشود و نسبت به میانگین خود متقارن است. بنابراین، در توزیع نرمال، میانگین برابر با میانه (median) است. همچنین، ۶۸ درصد داده‌های دارای چنین توزیعی، در بازه با اختلاف یک انحراف معیار از میانگین قرار میگیرند، ۹۵ درصد در بازه با اختلاف دو انحراف معیار از میانگین و ۹۹.۷ درصد در بازه با اختلاف سه انحراف معیار از میانگین. این موضوع تحت عنوان قانون 68-95-99.7 شناخته میشود.

شکل ۳- منحنی توزیع نرمال

 

 

۱۰- توزیع دوجمله‌ای چیست؟

 

توزیع دوجمله‌ای، یک توزیع احتمال گسسته است که تعداد موفقیتها در تعداد ثابتی از تکرارهای مستقل آزمون برنولی (Bernoulli) را مدل میکند که در آن احتمال موفقیتها در تکرارهای مستقل، یکسان است. این توزیع زمانی استفاده میشود که دقیقا دو نتیجه ممکن برای یک رویداد وجود دارد (موفقیت و شکست). به طور مثال، این توزیع میتواند برای مدل کردن تعداد رخداد شیر در آزمون پرتاب سکه برای تعداد تکرار مشخص به کار گرفته شود.

 

۱۱- توزیع پوآسون چیست؟

 

توزیع پوآسون یک توزیع احتمال گسسته است که تعداد رخداد پیشامدها در یک بازه ثابت زمانی یا فضایی را مدل میکند که در آن پیشامدها مستقل از هم و با نرخ متوسط ثابت رخ میدهند. این توزیع برای استفاده در مواقعی که میخواهید پیشامدهای با احتمال رخداد کم همچون تعداد ایمیل‌های دریافتی در یک بازه زمانی یک ساعته یا تعداد زلزله‌های رخ داده در یک سال را بشمارید، مناسب است.

 

سوالات مصاحبه آمار در سطح متوسط

 

برای سطوح شغلی متوسط در حوزه آمار، روی تست فرض، تخمین بازه‌ها و مدلسازی رگرسیون باید تمرکز کنید.

 

۱۲- مقدار p‌ (p-value) چیست؟

 

مقدار p، احتمال دستیابی به یک آماره تست به میزان حداقل نمونه مشاهده شده است، با فرض اینکه فرض صفر یا خنثی صحیح باشد. این مقدار در تست فرض برای تعیین سطح اهمیت نتیجه تست استفاده میشود. اگر مقدار p کمتر یا مساوی سطح اهمیت اتخاذ شده ( مثلا \alpha) باشد، فرضیه صفر رد میشود. اگر مقدار p‌ بیش از \alpha باشد، در رد فرض صفر شکست میخوریم و فرض درست خواهد بود.

 

 

۱۳- خطاهای نوع یک و دو کدامند؟

 

خطای نوع یک در تست فرض زمانی رخ میدهد که فرض صفر صحیح باشد اما به اشتباه آن را رد کنیم که به مثبت ناصحیح منتهی میشود. احتمال مرتکب شدن به خطای نوع یک برابر با سطح اهمیت است. خطای نوع دو زمانی رخ میدهد که فرض صفر غلط باشد ولی در رد کردن آن شکست بخوریم که منتهی به منفی ناصحیح میشود.

 

 

۱۴- اختلاف بین تستهای پارامتریک و غیر-پارامتریک چیست؟

 

در تستهای پارامتریک فرض میشود که داده از یک توزیع مشخص پیروی میکند، مثلا توزیع نرمال و نیاز به پارامترهای جمعی مشخصی دارد تا بتوان از طریق آنها فرضهای مورد نظر را اثبات کرد. برخی از تستهای پارامتریک که معمولا استفاده میشوند، تست t‌ (t-test) و ANOVA‌ هستند. تستهای غیر-پارامتریک، توزیع خاصی برای داده در نظر نمیگیرند و زمانی استفاده میشوند که فرضهای پارامتریک بر داده قابل اعمال نیست، به خصوص برای داده با تعداد نمونه کم. بسیاری از افراد با این نوع تستها آشنا هستند اما لزوما آنها را به عنوان تست غیر-پارامتریک نمیشناسند. تستهای Chi-Square، Mann-Whitney U، Wilcoxon Signed-Rank و Kruskal-Wallis برخی از این تستها هستند.

 

 

۱۵- رگرسیون چیست؟

 

تحلیل رگرسیون یک روش آماری برای بررسی رابطه بین یک متغیر وابسته و یک یا چند متغیر مستقل است. این روش کمک میکند تا نحوه تغییرات متغیر وابسته در اثر تغییر یکی از متغیرهای مستقل و با فرض ثابت بودن بقیه متغیرهای مستقل، را درک کنیم.

شکل ۴- تطبیق دادن یک خط به نقاط.

 

 

۱۶- مانده‌ها (residuals) چیست؟

 

مانده‌ها تفاوتهای بین مقادیر مشاهده شده و مقادیر پیش‌بینی شده از یک مدل رگرسیون است. آنها مهم هستند زیرا تحلیل مانده‌ها کمک میکند تا فرضهای مدل رگرسیون را بتوان بررسی کرد و به تبع آن تطبیق کلی مدل رگرسیون را تحلیل کرد.

 

 

۱۷- چگونه ضرایب یک مدل رگرسیون خطی را تفسیر میکنید؟

 

در یک مدل رگرسیون خطی، هر ضریب، تغییر مورد انتظار در متغیر وابسته را برای یک تغییر تک واحدی در متغیر مستقل مورد نظر را با فرض ثابت بودن بقیه متغیرهای مستقل، نمایش میدهد. برای مثال، اگر ضریب یک متغیر مستقل x_i برابر با ۲ باشد، بدین معنی است که برای هر یک واحد تغییر در x_i و با فرض ثابت بودن بقیه متغیرهای مستقل، افزایش به میزان ۲ واحد در متغیر وابسته y‌ مورد انتظار است.

 

 

۱۸- بازه اطمینان (confidence interval) چیست؟

 

یک بازه اطمینان ۹۵ درصد بدین معنی است که اگر میخواستیم تعداد نمونه‌های زیادی را دریافت کرده و یک بازه اطمینان برای هر نمونه محاسبه کنیم، تقریبا ۹۵ درصد این بازه‌ها، حاوی پارامتر جمعی صحیح خواهند بود. همچنین میتوان گفت به میزان ۹۵ درصد مطمئن هستیم که مقدار پارامتر در بازه تخمین زده شده قرار خواهد گرفت.

شکل ۵- بازه‌های اطمینان روی توزیع Z

 

 

۱۹- هم‌خطی چندگانه (multicollinearity) چیست؟

 

هم‌خطی چندگانه زمانی رخ میدهد که دو یا چند متغیر مستقل در یک مدل رگرسیون چندگانه، به شدت همبستگی دارند. این وضعیت یک مشکل به حساب می‌آید زیرا میتواند تخمین ضرایب را ناپایدار کند و تفسیر آنها را دشوار سازد. هم‌خطی چندگانه بالا، همچنین میتواند خطای استاندارد ضرایب را متورم سازد که منجر به تستهای آماری با قابلیت اعتماد کم میشود.

 

 

۲۰- متعادل کردن (regularization) چیست؟

 

تکنیکهای متعادل کردن از جمله روشهای قدرتمند برای مقابله با هم‌خطی چندگانه در مدلهای رگرسیون است. آنها همچنین برای ممانعت از تطبیق بیش از حد یا overfitting از طریق اضافه کردن یک جریمه (penalty) به مدل برای ضرایب بزرگ، استفاده میشوند. این کار باعث میشود تا یک مدل با قابلیت تعمیم بیشتر بتوان ایجاد کرد. از جمله روشهای متعادل کردن رایج میتوان به Lasso و رگرسیون Ridge‌ اشاره کرد.

 

سوالات مصاحبه آمار پیشرفته

 

اگر میخواستم برای مصاحبه‌ای که نیاز به درک پیشرفته از آمار دارد، آماده شوم، حتما آمار بیزین (Bayesian) و یادگیری ماشین (machine learning) را مطالعه میکردم.

 

۲۱- آمار بیزین چیست؟

 

آمار بیزین شامل استفاده از قاعده بیز (Bayes theorem) برای به‌روز رسانی احتمال یک فرضیه در شرایطی که اطلاعات یا شواهد بیشتری در دسترس قرار میگیرند، میشود. این قاعده باورهای قبلی را با داده‌های جدید برای تشکیل احتمال پسین (posterior) ترکیب میکند.

 

 

۲۲- مونت کارلو زنجیره مارکوف (Markov chain Monte Carlo) چیست؟

 

مونت کارلو زنجیره مارکوف، یک گروه از الگوریتمها است که برای نمونه‌برداری از یک توزیع احتمال زمانی که نمونه‌برداری مستقیم دشوار است، استفاده میشود. این روش در آمار بیزین بسیار مهم است زیرا تخمین توزیعهای پسین را میسر میسازد، به خصوص در مدلهای پیچیده که راه‌حلهای آنالیزی امکان‌پذیر نیست.

 

۲۳- تعادل بین بایاس و واریانس چیست؟

 

تعادل بین بایایس و واریانس در یادگیری ماشین شامل برقرار تعادل و بالانس بین دو منبع خطا میشود. بایاس (Bias) خطای ناشی از فرضیات مبتنی بر مدلسازی بیش از حد ساده است که منجر به تطبیق کمتر از حد انتظار (underfitting) و از دست دادن الگوهای مناسب برای داده میشود. واریانس خطای ناشی از حساسیت بیش از حد به نوسانات داده‌های آموزشی است که باعث تطبیق بیش از حد (overfitting) و ثبت نویز به جای الگوهای واقعی و درست میشود.

 

 

۲۴- استنتاج علّی (causal inference) چیست؟

 

استنتاج علّی ایده مهمی است که توجه زیادی را به خود جلب کرده است. استنتاج علّی، فرآیند تعیین اینکه آیا یک متغیر (علت) به طور مستقیم بر روی متغیر دیگر (اثر) تاثیر میگذارد یا خیر و اگر میگذارد، چگونه اثر میگذارد. این نکته، وجه تمایز بین استنتاج علّی و همبستگی بین دو متغیر است. استنتاج علّی، یک مجموعه از روشها است که یک رابطه علت و معلولی را بنا میکند تا از طریق آن بتوان درک کرد که آیا چیزی کار میکند یا نه، مثلا یک روش درمانی خاص. اگر یک محقق نیاز به درک این داشته باشد که آیا یک دارو کار میکند یا نه، برای مثال، استنتاج علّی میتوان در جواب به این سوال کمک موثری کند.

 

 

۲۵- مدلسازی معادله ساختاری (structural equation modeling) چیست؟

 

مدلسازی معادله ساختاری، روشی است برای تحلیل رابطه بین متغیرهای مشاهده شده و با تاخیر دریافت شده. این روش به نوعی شبیه یک ترکیب است که مابین رگرسیون و تحلیل فاکتور قرار میگیرد. مدلسازی معادله ساختاری نیاز به چندین گام دارد، همچون مشخص کردن مدل، تخمین و ارزیابی. این روش که به اختصار SEM نیز گفته میشود، به منعطف بودن مشهور است اما نیاز به داده با اندازه بزرگ دارد و برای استفاده از آن نیاز به زیرساخت تئوری قوی دارید.

 

شکل ۶- دیاگرام مسیر برای مصورسازی SEM

 

 

سوالات مصاحبه آمار مرتبط با علوم داده

 

سوالاتی که در ادامه می‌آیند در صورتیکه به دنبال شغلی با تمرکز بیشتر روی وجه اشتراک بین علوم داده و آمار هستید، برای شما مفید خواهد بود. عنوانها شامل پیش‌پردازش داده و تمیز کردن آنها، تست A/B و طراحی آزمایشگاهی، پیش‌بینی سری‌های زمانی و تکنیکهای پیشرفته آماری میشوند.

 

 

۲۶- چرا جداسازی آموزش/تست انجام میدهیم؟

 

جداسازی داده‌ها به مجموعه‌های آموزشی و تست، کمک میکند تا عملکرد مدل را روی داده‌های دیده نشده توسط مدل ارزیابی کنیم. مجموعه آموزشی برای آموزش مدل استفاده میشود، در حالیکه مجموعه تست برای ارزیابی اینکه مدل پیشنهادی چقدر میتواند به داده جدید خوب پاسخ دهد و تعمیم پیدا کند، در نظر گرفته میشود. این روش کمک میکند تا تطبیق بیش از حد به موقع تشخیص داده شود و مطمئن شویم که مدل بر روی داده واقعی خوب عمل خواهد کرد.

 

 

۲۷- آیا میتوانید تطبیق بیش از حد و کمتر از حد نیاز را توضیح دهید؟

 

تطبیق بیش از حد یا overfitting زمانی رخ میدهد که مدل هم الگوی اصلی نهفته و هم نویز موجود در داده آموزشی را یاد میگیرد که منجر به عملکرد عالی روی داده آموزشی و عملکرد ضعیف روی داده جدید و دیده نشده میشود. تطبیق کمتر از حد انتظار یا underfitting زمانی پیش می‌آید که یک مدل برای ثبت و درک الگوهای نهفته در داده بیش از حد ساده است که منجر به عملکرد ضعیف روی هر دو داده آموزشی و تست میشود.

 

شکل ۸- تطبیق بیش و کمتر از حد انتظار

 

 

۲۸- انواع مختلف از دست دادن داده (missingness) کدامند؟

 

فهم و درک مکانیزم از دست دادن داده (MCAR, MAR, MNAR) بسیار مهم و ضروری است زیرا این مساله به انتخاب روشهای مناسب برای رفتار با داده‌های از دست رفته کمک میکند. استفاده از روشهای نادرست میتواند باعث ایجاد بایاس شود و صحت نتایج را کاهش دهد که منجر به نتایج ناصحیح میشود. برای مثال، روشهای جاگذاری داده (imputation) ساده ممکن است برای داده MCAR مناسب باشد در حالیکه برای داده MAR یا MNAR، روشهای پیچیده‌تر همچون جاگذاری داده چندگانه یا روشهای مبتنی بر مدل لازم است تا بتواند تخمینهای غیربایاس تولید کند.

 

 

۲۹- چه زمانی بهترین حالت برای حذف مقادیر از دست رفته است؟

 

حذف مقادیر و داده‌های از دست رفته میتواند زمانی مناسب باشد که نسبت داده‌های از دست رفته خیلی کم است، چیزی کمتر از ۵ درصد داده‌های کل. همچنین، در شرایطی که داده‌های از دست رفته از نوع MCAR (به صورت تصادفی از دست رفته باشند) هستند و این از دست رفتن باعث ایجاد بایاس نشود، این ایده مناسب است. در نهایت، حذف داده‌های از دست رفته زمانی در نظر گرفته میشود که داده اصلی به اندازه‌ای بزرگ باشد که حذف تعداد کمی از سطرهای آن تاثیر چندانی روی تحلیل اصلی نگذارد.

 

 

۳۰- مزایای روشهای جاگذاری داده متفاوت کدامند؟

 

روشهای جاگذاری داده مزایا و معایب مختص به خود را دارد. برای مثال، جاگذاری داده به روشهای میانگین/ میانه / مد (mean/median/mode) برای پیاده‌سازی ساده است اما میتوانند ایجاد بایاس کنند و رابطه بین متغیرها را دچار اعوجاج کنند. جاگذاری داده به روش K-همسایه نزدیک (KNN)، رابطه بین متغیرها را در نظر میگیرد و میتواند منجر به نتایج دقیقتری شود اما به لحاظ محاسباتی، سنگین و گران خواهد بود.

 

 

۳۱- تست A/B‌ چیست؟

 

تست به روش A/B، روشی است که در طراحی آزمایشگاهی برای مقایسه دو نسخه از یک متغیر همچون صفحه وب یا شاخص یک اپلیکیشن یا یک کمپین بازاریابی به منظور تعیین اینکه کدامیک بر دیگری برتری دارد، استفاده میشود. این تکنیک بسیار موضوع مرتبطی است و در بخش مورد نیاز بسیاری از شغلها ظاهر میشود.

 

 

۳۲- چگونه میتوانید بازه‌های زمانی تغییرات فصلی (seasonality) را در یک سری زمانی تشخیص دهید؟

 

تغییرات فصلی، یکی از اجزاء سری‌های زمانی است، در کنار روند (trend) و مانده‌ها (residuals). برای تشخیص تغییرات فصلی، میتوان در ابتدا سری زمانی را از طریق مشاهده چشمی نمودار آن بررسی کرد. اگر وجود تغییرات فصلی محتمل باشد، میتوانیم به سمت پیاده‌سازی یک روش تجزیه سری زمانی برای کشف اندازه تاثیرگذاری تغییرات فصلی حرکت کنیم.

 

شکل ۱۰- سری زمانی تجزیه شده

 

 

۳۳- اختلاف بین مدلهای صاف‌سازی نمایی (exponential smoothing) و ARIMA چیست؟

 

مدلهای صاف‌سازی نمایی از میانگین‌های وزندهی شده مشاهدات قبلی برای پیش‌بینی ساده و کوتاه‌ مدت استفاده میکنند. مدلهای ARIMA ترکیبی از خود-رگرسیون، تفاضل و میانگین متحرک هستند که آنها را برای پیش‌بینی کوتاه مدت و بلند مدت به خصوص با الگوهای پیچیده و خودهمبستگی‌های مهم، بسیار مناسب میسازد.

 

 

۳۴- اعتبارسنجی یا ارزیابی متقابل (cross validation) چیست؟

 

ارزیابی متقابل روشی است برای تعیین کیفیت عملکرد یک مدل یادگیری ماشین در نحوه تعمیم آن مدل به یک مجموعه داده مستقل. این روش شامل تقسیم داده به چندین لایه (fold) و اعمال دوره‌های متعدد از آموزش و تصدیق (تست)‌ میشود.

 

 

سوالات مصاحبه درباره اصول رفتاری و مهارتهای نرم (soft skills)

 

از آنجاییکه مهارت بالا در آمار و تحلیل نتایج، بدون امکان انتقال نتایج به سهامداران تجاری، ناقص و ناکافی است، لذا مهارتهای نرم به عنوان یک دستیار مهم برای کارفرماها در استخدام افراد برای شغلهای مرتبط با داده بسیار حیاتی است، مخصوصا اینکه انتقال و مخابره مفاهیم شهودی از آمار و اطلاعات کار ساده‌ای نیست.

 

 

۳۵- شهود آماری را چگونه به سهامداران فاقد پیش‌زمینه فنی ارائه میکنید؟

 

برای ارتباط موثر با سهامداران مختلف، روش خود را بر اساس پیش‌زمینه و علائق آنها تنظیم میکنم. برای مثال، برای مدیران اجرایی، اثرگذاری تجاری را اولویت قرار میدهم که این کار از طریق زبان تجاری و نمودارهای مختلف برای تسهیل در فرآیند تصمیم‌گیری سریع انجام میشود. از طرف دیگر، برای توسعه‌دهندگان، جزییات تکنیکی و فنی فراهم میکنم. در هر دو حالت، مطمئن میشوم که مفاهیم ارائه شده به طور موثر و مرتبطی واضح و در دسترس باشند و همچنین فرآیند پرسش و پاسخ را توصیه میکنم. این رویکرد به ما اطمینان میدهد که هر گروه از سهامداران اطلاعات مورد نیاز خود را به شکلی که با آنها هماهنگی داشته باشد، دریافت کند.

 

 

 

 

منبع: https://www.datacamp.com