معرفی حوزه Data Science یا علوم داده
معرفی حوزۀ علم داده (Data Science)
همزمان با تولید کلاندادهها، نیاز به ذخیرهسازی آنها نیز افزایش یافت. تا آنجا که چالش و نگرانی اصلی صنایع سازمانی تا سال 2010م موضوع ذخیرهسازی بود و تمرکز اصلی بر ایجاد چهارچوبهای نرمافزاری (Framework) و راهحلهایی مناسب برای این کار. اکنون با وجود چهارچوبهای نرمافزاری قوی، مانند Hadoop، مشکل ذخیرهسازی با موفقیت حل شده است و تمرکز بر پردازش دادهها است.
علم داده یکی از آیندهدارترین مسیرهای شغلی متخصصان ماهر است. بنابراین متقاضیان زیادی هم دارد. امروزه، متخصصان داده میدانند که باید برای تجزیه و تحلیل دادههای حجیم، کار با دادههای بزرگ و داده کاوی در مهارتهای سنتی خود تجدید نظر کنند و مهارتهای متنوعی جدیدی از برنامه نویسی تا یادگیری ماشین برای خود ایجاد کنند. دانشمندان داده برای کشف هوش مفید برای سازمانهای خود باید چرخۀ کامل حیات علم داده تسلط داشته باشند. امروزه، تقریباً هر استفادهای از دستگاههای فناوری منجر به جابهجایی یا تولید داده میشود، مانند خرید کردن از سایتهای فروش آنلاین، مطالعه پستها در شبکههای اجتماعی، دیدن فیلم در سرویسهایی مثل نتفیلیکس (Netflix) و حتی قابلیت تشخیص چهره که برای ورود به تلفنهای خود از آن استفاده میکنیم. همین مثالها بهخوبی نشان میدهد که آیندۀ هوش مصنوعی به علم داده گره خورده است.
علم داده (Data Science) چیست؟
به زبان ساده، علم داده استخراج اطلاعات معنادار و الگوهای پنهان از دادههای خام است. مطالعهای پیشرو، در سال 2013م، نشان داد که 90% از کل دادههای جهان طی دو سال گذشته ایجاد شدهاند، یعنی فقط در مدت دو سال انسانها 9 برابر اطلاعات جمعآوریشده از کل تاریخ بشریت داده جمعآوری و پردازش کردهاند و در طی زمان هم از سرعت تولید داده کم نمیشود. پیشبینی میشود که انسانها در سال 2022م، 94 زتابایت داده تولیدکنند. ما با همۀ این دادهها چه میکنیم؟ چگونه از آنها استفادۀ مفید میکنیم؟ این دادهها به چه کار ما میآیند؟ اینها سوالاتی هستند که در حوزۀ علم داده مطرح میشوند.
این رشته بهسرعت رشد میکند و در بسیاری از صنایع انقلاب ایجاد کرده است. محدود کردن قابلیتهای آن به یک تعریف خشک و رسمی دشوار است، اما بهطورکلی میتوان گفت علم داده استخراج اطلاعات معنادار از دادههای خام برای تدوین نگرشی عملی است و دادههای دیجیتال، که به «نفت قرن بیستویکم» معروف است، بیشترین اهمیت را در این زمینه دارند.
علم داده مزایای بیشماری در امور تجاری، پژوهشی و زندگی روزمره ما دارد. انتخاب مسیر برای رفتن به سر کار، جستوجو کردن در گوگل برای یافتن نزدیکترین کافیشاپ، پست اینستاگرام ما دربارۀ آنچه خوردهایم و حتی دادههایی که در ردیابهای تناسب اندام ثبت میشوند، برای دانشمندان داده مهم هستند. غربال کردن این دریای پهناور داده و جستوجوی اتصالات و الگوها در آن وظیفۀ علم داده است.
به عبارت دقیقتر علم داده ترکیبی از ابزارهای مختلف، الگوریتمها و اصول یادگیری ماشین است با هدف کشف الگوهای پنهان در دادههای خام. این الگوریتمها از طریق برنامههای رایانهای که معمولاً به سختافزارهای قدرتمندی نیاز دارند، اجرا میشوند، زیرا به پردازش فراوانی نیاز دارند. علم داده ترکیبی از ریاضیات آماری، یادگیری ماشین، تجزیه و تحلیل و تجسم دادهها، دانش دامنه و علوم کامپیوتر است.
تفاوت علم داده با علم آمار چیست؟
تفاوت این دو تفاوت توضیح دادن و پیشبینی کردن است. تحلیلگر داده (Data Scientist) معمولاً با پردازش تاریخچهای از دادهها، آنچه را دارد اتفاق میافتد توضیح میدهد. علاوهبراین با تجزیه و تحلیل به کشف ارتباط بین دادهها میپردازد و با استفاده از الگوریتمهای مختلف و پیشرفتۀ یادگیری ماشین، وقوع رویدادی مشخص را در آینده پیشبینی میکند، اما علم آمار آنچه را اتفاق افتاده است توضیح میدهد.
علم داده چگونه کار میکند؟
علم داده شامل انبوهی از رشته ها و زمینههای تخصصی برای ایجاد یک نگاه جامع، دقیق و تصفیهشده در دادههای خام است. دانشمندان داده باید در همه چیز، از مهندسی دادهها گرفته تا ریاضیات و آمار و محاسبات پیشرفته و تجسم مهارت داشته باشند تا بتوانند بهطور موثر تودههای اطلاعاتی درهم را الک كنند و فقط مهمترین بیتها را جدا کنند.
دانشمندان داده برای ایجاد مدلها و پیشبینی با استفاده از الگوریتمها و سایر تکنیکها، بسیار به هوش مصنوعی، بهویژه زیرشاخههای یادگیری ماشین و یادگیری عمیق آن، تکیه میکنند. بنابر آنچه گفته شد، از علم داده برای تصمیمگیری و پیشبینی استفاده میشود و این کار با استفاده از تجزیه و تحلیل تجویزی (علم پیشبینی بهعلاوّ تصمیمگیری) و یادگیری ماشین انجام میشود. بنابراین ابزارهای علم داده عبارتند از:
- تجزیه و تحلیل عملی پیشبینی (Predictive Causal Analytics)
اگر به مدلی احتیاج دارید که بتواند احتمالات وقوع یک رویداد خاص را در آینده پیشبینی کند، باید از تحلیلهای علمی پیشبینی استفاده کنید. برای مثال اگر پول خود را بهصورت اعتباری تأمین میکنید، پس احتمال اینکه مشتریان به موقع پرداختهای اعتباری خود را انجام ندهند، شما را نگران میکند. در اینجا، شما میتوانید مدلی بسازید که بتواند تجزیه و تحلیل پیشبینیکنندۀ تاریخ پرداخت مشتری را انجام دهد تا پیشبینی کند که آیا پرداختهای آتی بهموقع انجام میشود یا خیر.
- تجزیه و تحلیل تجویزی (Prescriptive Analytics)
این رشتۀ نسبتاً جدید مختص به ارائۀ مشاوره است، زیرا علاوهبر پیشبینی اقدامات تجویزشده، نتایج مرتبط با آن را نیز پیشبینی کرده و پیشنهاد میکند.
- یادگیری ماشینی برای پیشبینی
فرض کنید دادههای معاملاتی یک شرکت مالی را در اختیار دارید و باید مدلی برای تعیین روند آیندۀ آن بسازید. برای این کار الگوریتمهای یادگیری ماشین بهترین گزینه هستند. این امر تحت «الگوی یادگیری نظارتشده» (Supervised Learning) قرار میگیرد. «نظارتشده» نامیده میشود، چراکه شما قبلاً دادههایی دارید که بر اساس آن میتوانید ماشینهای خود را آموزش دهید. به عنوان مثال، یک مدل کشف تقلب میتواند با استفاده از سوابق تاریخی خریدهای تقلبی آموزش ببیند.
- یادگیری ماشین برای کشف الگو
اگر شاخصهایی در دست ندارید که بتوانید براساس آنها پیشبینی کنید، باید الگوهای پنهان را در مجموعۀ داده پیدا کنید تا بتوانید پیشبینیهای معناداری بکنید. این امر «مدلسازی بدون نظارت» است، زیرا هیچ برچسب ازپیشتعیینشدهای برای گروهبندی ندارید. در این شرایط متداولترین الگوریتم برای کشف الگو «خوشهبندی» است.
بنابر آنچه گفته شد، تجزیه و تحلیل دادهها (Data Analytics) شامل تحلیل توصیفی و تا حدی پیشبینی است، اما علم داده (Data Science) بیشتر دربارۀ تجزیه و تحلیل علی پیشبینی و یادگیری ماشین است.
چرا علم داده؟
در گذشته، دادههایی که در دست داشتیم بیشتر ساختار و اندازۀ کوچک داشتند و بهراحتی با استفاده از ابزارهای BI میشد آنها را تحلیل کرد. برخلاف گذشته، دادههای امروزی بدون ساختار یا نیمهساختاری هستند. این دادهها از منابع مختلف، مانند لاگهای مربوط به پروندههای مالی، پروندههای متنی، فرمهای چندرسانهای، حسگرها و ابزارها، تولید میشوند و ابزارهای سادۀ BI نمیتوانند این حجم عظیم و متنوع داده را پردازش کنند. برای همین است که برای پردازش، تجزیه و تحلیل و ترسیم نگرش معنادار از آن، به ابزارها و الگوریتمهای تحلیلی پیچیده و پیشرفتهتری نیاز داریم.
از علم داده درحوزهها و زمینههای متنوعی میشود استفاده کرد. برای مثال در زمنیۀ فروش به این مثال دقت کنید: فروشنده در گذشته هم اطلاعاتی مانند سابقۀ مرور گذشتۀ مشتری، سابقۀ خریدش، سن و درآمدش، نیازهای دقیق مشتریان خود را داشت، اما اکنون میتواند با استفاده از علم داده مدلی طراحی کند تا با استفاده از آن محصولش را با دقت بیشتری به هر مشتری عرضه کند. این امر تجارت و خریدوفروش را متحول میکند.
مثال دیگر خودرو هوشمندی است که میتواند مسیریابی کند. اتومبیلهای خودران دادههای زنده حسگرها، ازجمله رادارها، دوربینها و لیزرها، را برای برنامهریزی طی مسیر از محیط اطراف خود جمع میکنند و براساس این دادهها، تصمیماتی مانند زمان افزایش سرعت، کاهش سرعت، زمان سبقت، مکان نوبتگیری اتخاذ میشود، یعنی استفاده از الگوریتمهای پیشرفته یادگیری ماشین.
مثال دیگر پیشبینی وضعیت هواست. با استفاده از مدلهای مبتنی بر علم داده میتوان دادههای کشتیها، هواپیماها، رادارها، و ماهواره ها را جمعآوری کرد و آنها را برای ساخت مدل تجزیه و تحلیل کرد. این مدلها هم وضعیت آبوهوا را پیشبینی میکنند و هم به پیشبینی کردن وقوع بلایای طبیعی کمک میکنند. این پیشبینی سبب میشود که قبل از فاجعه اقدامات پیشگیرانه انجام شود و جان گرانبهای افرد حفظ شود.
دانشمند داده کیست؟
به بیان ساده، دانشمند داده کسی است که هنر علم داده را تمرین میکند. عنوان دانشمند داده (Data Scientist) پس از در نظر گرفتن این واقعیت که او اطلاعات زیادی را از زمینهها و برنامههای علمی اعم از آماری یا ریاضیات به دست میآورد، ابداع شده است.
مزایای علم داده:
حوزه علوم داده گسترده است و محدودیتها و مزایای خاص خود را دارد. در اینجا به بررسی بعضی از این مزایا و محدودیتها میپردازیم:
- بازار کار پررونق
این روزها بازار کار دانشمند داده بسیار پررونق است و متقاضیان کار در این حوزه احتمالاً فرصت های بیشماری دارند. این شغل سریعترین رشد را در لینکدین (LinkedIn) داشته و پیشبینی میشود تا سال 2026م یازدهونیم میلیون شغل در این حوزه ایجاد شود.
دانشمند داده میتواند در حوزههای متعدی کار کند، ازجمله صنایع بهداشتی، بانکی، خدمات مشاورهای و تجارت الکترونیکی و... . بنابراین برای او فرصت کار در زمینههای مختلف فراهم است.
- فراوانی موقعیتهای شغلی
درست است که بازار کار این حوزه پررونق است، تعداد بسیار کمی از افراد هستند که مجموعۀ مهارتهای لازم برای تبدیل شدن به دانشمند داده (Data Scientist) را کامل داشته باشند. این امر سبب میشود موقعیت شغلی دانشمند داده نسبت به سایر بخشهای فناوری اطلاعات کمتر اشباع شده باشد.
- درآمد بالا
کار بهعنوان دانشمند داده بسیار درآمد خوبی دارد. بنا بر ادعای Glassdoor، دانشمندان داده بهطور متوسط سالانه صد تا صدوشانزدههزار دلار درآمد کسب میکنند.
- ارزش و اعتبار شغلی
شرکتها برای پردازش و تحلیل دادههای خود به دانشمندان ماهر داده احتیاج دارند. دانشمندان داده علاوهبر تجزیه و تحلیل دادهها، کیفیتشان را نیز بهبود میبخشند. بنابراین دانشمندان داده اطلاعات و دادههای شرکتها را غنیتر و مفیدتر میکنند. از طرف دیگر، دانشمندان داده به شرکتها کمک میکنند تا تصمیمات تجاری دقیقتری بگیرند. شرکتها به دانشمندان داده اعتماد میکنند و از تخصص آنها برای ارائۀ نتایج بهتر به مشتریان خود استفاده میکنند. بنابراین دانشمندان داده موقعیت ممتاز و معتبری در سازمان خود دارند.
- پایان کارهای خستهکننده
علم داده به صنایع مختلف کمک کرده است تا وظایف اضافی خود را خودکار کنند. شرکتها از دادههای پیشین برای آموزش ماشینآلات استفاده میکنند تا کارهای تکراری خودکار انجام شود. این کار مشاغل طاقتفرسایی را که بر عهدۀ انسان بوده است حذف میکند.
- هوشمندسازی محصولات
علم داده با یادگیری ماشین مرتبط است. بنابراین امکان تولید محصول بهتر و متناسبتر با مشتری را ممکن میکند. سیستمهای توصیه کننده که توسط وبسایتهای تجارت الکترونیکی استفاده میشوند نمونهای از هوشمندسازی محصولات است. در اینجا کامپیوترها را قادر به درک رفتار انسان و تصمیمگیری مبتنی بر داده هستند و براساس خریدهای گذشته، نگرش مشتری به خرید را به کاربران ارائه میکنند.
- نجاتبخشی علم داده
علم داده در بهبود وضعیت بهداشت بسیار موثر بوده است. با ظهور یادگیری ماشین، تشخیص تومورهای مرحلۀ اولیه آسانتر شد و نیز ارائۀ خدمات و محصولات بهداشتی به مشتریان با استفاده از علم داده آسانتر و دقیقتر گشت.
- رشد شخصیتی
علم داده در رشد شخصیتی افراد موثر است و به آنها نگرش حل مسئله میبخشد. علم داده به هر دو حوزۀ فناوری اطلاعات و مدیریت مربوط است و دانشمند داده میتواند از تواناییهای هر دو حوزه بهرهمند شود. داشته باشید.
معایب علم داده:
در کنار همۀ مزایایی که برشمردیم، علم داده معایبی نیز دارد. برای اینکه تصویر دقیقتری از این حوزه داشته باشیم، باید به هر دو جنبۀ مثبت و منفی آگاه باشیم.
- مبهم بودن مفهوم علم داده
اصطلاح علم داده بسیار کلی است و با اینکه به کلیدواژه بدل شده است تعریف مشخصی ندارد. نقش هر دانشمند دادهای هم به زمینۀ شرکتی مربوط است که در آن کار میکند. درحالیکه برخی افراد علم داده را چهارمین الگوی علوم توصیف کردهاند، تعداد کمی از منتقدان آن را صرفاً تغییر نام تجاری آمار خواندهاند.
- تسلط ناپذیر بودن علم داده و گستردگی دانش مورد نیازش
همانطور که گفته شد علم داده آمیزهایست از علوم مختلف مانند کامپیوتر و ریاضیات و آمار و... و تسلط و مهارت داشتن در همۀ این علوم ممکن نیست. شخصی که سابقه فعالیت در آمار را دارد ممکن است نتواند در مدت کوتاهی بر علوم کامپیوتر تسلط یابد تا به یک دانشمند دادۀ متبحر تبدیل شود. بنابراین علم داده یک زمینۀ پویا و در حال تغییر است که فرد را ملزم میکند به یادگیری در زمینهها متفاوت ادامه دهد و دانش خود را بهروز نگه دارد.
از طرف دیگر، علم داده به زمینهای که با آن کار میکند وابسته است. برای مثال صنعت مراقبتهای بهداشتی که در زمینۀ تجزیه و تحلیل توالیهای ژنومی کار میکند، به دانشمند دادهای نیاز دارد که دانش ژنتیک و زیستشناسی مولکولی نیز داشته باشد، زیرا میتواند برای کمک به شرکت تصمیمات حسابشدهتری بگیرد. در چنین شرایطی دانشمند دادهای که دانش آماری و کامپیوتری درخشانی داشته باشد یهسختی میتواند خود را با یازهای شرکت منطبق کند. این امر مهاجرت از یک صنعت به صنعت دیگر را نیز برای دانشمند داده دشوار میکند.
- مشکل حریم خصوصی داده ها
در بسیاری از صنایع دادهها مانند سوخت هستند. دانشمندان داده به شرکتها در تصمیمگیریهای دادهمحور کمک میکنند. بااینحال استفاده زا دادهها در فرآیند پردازش داده ممکن است حریم خصوصی مشتریان را نقض کند. دادههای شخصی مشتریان برای شرکت مادر قابل مشاهده است و ممکن است در برخی مواقع به دلیل از بین رفتن امنیت نشت اطلاعاتی صورت گیرد. موضوعات اخلاقی مربوط به حفظ حریم خصوصی دادهها و استفاده از آنها هواره برای صنایع نگرانکننده بوده است.
نتیجه گیری:
حال اگر دوست دارید این حوزه را بیاموزید حوزه ای که هم اکنون شغل های برتر دنیا را شامل می شود و در آن ماهر شوید، میتوانید از دورههای متنوع آنیسا شروع کنید. دورههای علم داده در حوزۀ برنامهنویسی، ذخیرهسازی، کاوش و تحلیل داده ارائه میشوند. دورههای Elk Stack و Machine Learning و Deep Learning و Python for Data Science از پرطرفدارترین دورههای مرتبط در این حوزه هستند.