همگن‌سازی

یکسان سازی داده­های سهام
در طراحی یک سبد سهام بهینه با بررسی سابقه نمادهای مختلف در بازار سهام، به لحاظ بازدهی (و یا پارامترهای دیگر) نسبت به انتخاب سهم و درصد آن در سبد تصمیم گیری می­شود
یکی از چالشهای اساسی پس از مواجهه با داده­های واقعی، یکسان نبودن بازه زمانی حضور همه سهم­ها در بازار است. به عنوان مثال، از بین نمادهای موجود در بورس تهران، سابقه حضور برخی سهم­ها به سال ۱۳۸۱ می­رسد و برخی دیگر تنها چند ماه است که عرضه شده­اند. تصمیم­گیری در خصوص این ۲ دسته سهم بدون تحلیل بنیادین، کار آسانی نیست.
در آمار و علوم داده، همیشه باید ابتدا داده­ها را پیش پردازش کرد و یا قبل از انجام عملیات ریاضی (مثل بهینه­سازی) ابتدا تحلیل مناسبی روی آنها داشت. در غیر این صورت تصمیم­گیری بر مبنای آنها به نتایج نادرستی می­انجامد.
در این شرایط، پیشنهادات مختلفی برای همسان­سازی سهام مورد بررسی ارائه شده است که به طور کلی بر ۲ دسته استوارند:

۱٫ حذف داده­ها: پیدا کردن سهم با کوتاه­ترین قدمت (یا به عبارتی تازه ترین عرضه) و پردازش داده­ها در همان بازه.
فرص کنید داده­های روزانه از ۳ شرکت الف، ب و پ را در اختیار دارید.

نام شرکت
تاریخ اولین عرضه در بازار سهام
الف
۲۰/۱۲/۱۳۸۱
ب
۰۲/۰۸/۱۳۹۰
پ
۱۴/۰۷/۱۳۹۳

در این روش، داده­های روزانه قیمت، از تاریخ ۱۴/۰۷/۱۳۹۳ در نظر گرفته می­شود و داده­های موجود برای پیش از این تاریخ در بهینه­سازی لحاظ نمی­شوند.

۲٫ تقریب داده­ها: پیدا کردن سهم با بیشترین قدمت و برآورد داده­­های گذشته سهم­های جدید بر مبنای تقریب خطی.
مجددا جدول ۱ را در نظر بگیرید. قدمت شرکت الف در بازار نسبت به ۲ شرکت دیگر بالاتر است و داده­ای از سالهای ۱۳۸۱ تا ۱۳۹۰ برای سهم ب و تا ۱۳۹۳ برای شرکت پ موجود نیست. در این روش، این داده­ها با استفاده از تقریب خطی تولید می­شوند.

شکل ۱ – تقریب خطی جهت برون یابی داده­های قدیمی. خط قرمز رنگ داده تقریب زده شده است.
مقایسه روش­های پیشنهادی
۲ روش ذکر شده هر یک دارای مزایا و معایبی هستند:
۱٫ حذف داده­ها
مزیت: برای تمامی سهام داده­های مورد ارزیابی و روند آنها واقعی است.
عیب: داده بسیار ارزشمند است. حذف کردن قسمت عمده­ای از داده­ها نه تنها غیر منطقی است بلکه در مواردی که اختلاف بین زمان عرضه چند سهم بسیار متفاوت باشد، می­تواند تصمیم گیری را به جهت نادرست سوق دهد.
۲٫ تقریب داده­ها
مزیت: از تمامی داده­های موجود استفاده می­شود و طبیعتا تصمیم­گیری­ها مبانی دقیق­تری خواهند داشت.
عیب: تقریب خطی (و یا حتی چندجمله­ای) داده­ها نمی­تواند توصیف کننده خوبی از وقایعی که به طور بنیادین روی بازار رخ داده­اند (مثلا حمایت بخش دولتی، اثرات تحریمها و…) باشد.

روش
مزایا
معایب
حذف داده­ها
داده­ها مورد بررسی واقعی هستند.
داده­ها به تنهای ارزشمند هستند و حذف آنها منطقی نیست.
تقریب خطی
از تمام داده­های موجود استفاده می­شود.
۱٫ تقریب خطی لزوما رفتار تاریخی سهم را درست پیش­بینی نمی­کند.
۲٫ امکان تولید قیمت صفر و یا منفی!

مدل مورد استفاده سایت VPass
در قسمت قبل به صورت جزئی به آثار بنیادین روی بازار سهام اشاره شد. بسیاری از شرکتهای فعال در بازار سهام، به علت مشابهت در محصول تولیدی، ماده اولیه مورد استفاده، ساختار، وابستگی و… دارای روندهای مشابهی هستند. به عنوان نمونه، برخی پتروشیمیها، خوراکی یکسان ( مثلا نفتا یا گاز طبیعی یا..) دارند و معمولا محصولات هم خانواده که مشتری داخلی و خارجی مشابه دارند. پس در صورت کاهش یا افزایش بهای ماده اولیه یا محصول، این پتروشیمیها روند یکسانی خواهند داشت. این روند به همین شکل پیش رفته تا در سود حاصله و قیمت سهم نمایان شود و در نهایت به شکل الگوی تقریبا مشابهی در قیمت سهام تمامی پتروشیمیها ظاهر شود.
برای حل مشکل ذکر شده، با استناد به نکته فوق، ابتدا با کمک یک الگوریتم محاسباتی مبتنی بر یادگیری ماشین، الگوی قیمتی مشابه با یک سهم جدید (که به عنوان مثال از سال ۱۳۹۵ عرضه شده) در بین سهام قدیمی شناسایی شده و سپس داده­های ناموجود سهم جدید، با استفاده از الگوی داده­های ماقبل ۱۳۹۵ سهام قدیمی تولید شده است.
در این روش، نه تنها هیچ داده­ای حذف نمی­شود، بلکه تولید داده­ها نیز بر مبنای علمی­تری صورت می­گیرد که باعث می­شود دقت کار نسبت به تقریب خطی یا چندجمله­ای بالاتر باشد.

شکل ۲ – نحوه یافتن الگوهای مشابه روی داده­های ساختگی