یکسان سازی دادههای سهام
در طراحی یک سبد سهام بهینه با بررسی سابقه نمادهای مختلف در بازار سهام، به لحاظ بازدهی (و یا پارامترهای دیگر) نسبت به انتخاب سهم و درصد آن در سبد تصمیم گیری میشود
یکی از چالشهای اساسی پس از مواجهه با دادههای واقعی، یکسان نبودن بازه زمانی حضور همه سهمها در بازار است. به عنوان مثال، از بین نمادهای موجود در بورس تهران، سابقه حضور برخی سهمها به سال ۱۳۸۱ میرسد و برخی دیگر تنها چند ماه است که عرضه شدهاند. تصمیمگیری در خصوص این ۲ دسته سهم بدون تحلیل بنیادین، کار آسانی نیست.
در آمار و علوم داده، همیشه باید ابتدا دادهها را پیش پردازش کرد و یا قبل از انجام عملیات ریاضی (مثل بهینهسازی) ابتدا تحلیل مناسبی روی آنها داشت. در غیر این صورت تصمیمگیری بر مبنای آنها به نتایج نادرستی میانجامد.
در این شرایط، پیشنهادات مختلفی برای همسانسازی سهام مورد بررسی ارائه شده است که به طور کلی بر ۲ دسته استوارند:
1. حذف دادهها: پیدا کردن سهم با کوتاهترین قدمت (یا به عبارتی تازه ترین عرضه) و پردازش دادهها در همان بازه.
فرص کنید دادههای روزانه از ۳ شرکت الف، ب و پ را در اختیار دارید.
نام شرکت
تاریخ اولین عرضه در بازار سهام
الف
۲۰/۱۲/۱۳۸۱
ب
۰۲/۰۸/۱۳۹۰
پ
۱۴/۰۷/۱۳۹۳
در این روش، دادههای روزانه قیمت، از تاریخ ۱۴/۰۷/۱۳۹۳ در نظر گرفته میشود و دادههای موجود برای پیش از این تاریخ در بهینهسازی لحاظ نمیشوند.
2. تقریب دادهها: پیدا کردن سهم با بیشترین قدمت و برآورد دادههای گذشته سهمهای جدید بر مبنای تقریب خطی.
مجددا جدول ۱ را در نظر بگیرید. قدمت شرکت الف در بازار نسبت به ۲ شرکت دیگر بالاتر است و دادهای از سالهای ۱۳۸۱ تا ۱۳۹۰ برای سهم ب و تا ۱۳۹۳ برای شرکت پ موجود نیست. در این روش، این دادهها با استفاده از تقریب خطی تولید میشوند.
شکل 1 – تقریب خطی جهت برون یابی دادههای قدیمی. خط قرمز رنگ داده تقریب زده شده است.
مقایسه روشهای پیشنهادی
۲ روش ذکر شده هر یک دارای مزایا و معایبی هستند:
1. حذف دادهها
مزیت: برای تمامی سهام دادههای مورد ارزیابی و روند آنها واقعی است.
عیب: داده بسیار ارزشمند است. حذف کردن قسمت عمدهای از دادهها نه تنها غیر منطقی است بلکه در مواردی که اختلاف بین زمان عرضه چند سهم بسیار متفاوت باشد، میتواند تصمیم گیری را به جهت نادرست سوق دهد.
2. تقریب دادهها
مزیت: از تمامی دادههای موجود استفاده میشود و طبیعتا تصمیمگیریها مبانی دقیقتری خواهند داشت.
عیب: تقریب خطی (و یا حتی چندجملهای) دادهها نمیتواند توصیف کننده خوبی از وقایعی که به طور بنیادین روی بازار رخ دادهاند (مثلا حمایت بخش دولتی، اثرات تحریمها و…) باشد.
روش
مزایا
معایب
حذف دادهها
دادهها مورد بررسی واقعی هستند.
دادهها به تنهای ارزشمند هستند و حذف آنها منطقی نیست.
تقریب خطی
از تمام دادههای موجود استفاده میشود.
1. تقریب خطی لزوما رفتار تاریخی سهم را درست پیشبینی نمیکند.
2. امکان تولید قیمت صفر و یا منفی!
مدل مورد استفاده سایت VPass
در قسمت قبل به صورت جزئی به آثار بنیادین روی بازار سهام اشاره شد. بسیاری از شرکتهای فعال در بازار سهام، به علت مشابهت در محصول تولیدی، ماده اولیه مورد استفاده، ساختار، وابستگی و… دارای روندهای مشابهی هستند. به عنوان نمونه، برخی پتروشیمیها، خوراکی یکسان ( مثلا نفتا یا گاز طبیعی یا..) دارند و معمولا محصولات هم خانواده که مشتری داخلی و خارجی مشابه دارند. پس در صورت کاهش یا افزایش بهای ماده اولیه یا محصول، این پتروشیمیها روند یکسانی خواهند داشت. این روند به همین شکل پیش رفته تا در سود حاصله و قیمت سهم نمایان شود و در نهایت به شکل الگوی تقریبا مشابهی در قیمت سهام تمامی پتروشیمیها ظاهر شود.
برای حل مشکل ذکر شده، با استناد به نکته فوق، ابتدا با کمک یک الگوریتم محاسباتی مبتنی بر یادگیری ماشین، الگوی قیمتی مشابه با یک سهم جدید (که به عنوان مثال از سال ۱۳۹۵ عرضه شده) در بین سهام قدیمی شناسایی شده و سپس دادههای ناموجود سهم جدید، با استفاده از الگوی دادههای ماقبل ۱۳۹۵ سهام قدیمی تولید شده است.
در این روش، نه تنها هیچ دادهای حذف نمیشود، بلکه تولید دادهها نیز بر مبنای علمیتری صورت میگیرد که باعث میشود دقت کار نسبت به تقریب خطی یا چندجملهای بالاتر باشد.
شکل 2 – نحوه یافتن الگوهای مشابه روی دادههای ساختگی