День 2

Чем больше ваш набор данных, тем точнее ваша модель прогнозирования данных — неизвестно (по крайней мере, мне)

Я попытаюсь загрузить все данные, которые я собираю, в папку на Google Диске, указанную ниже.

https://drive.google.com/drive/folders/1h10GNIYmYhmQmf-tkCubSPEmIqs61BK2?usp=sharing

Цель этого GPT — помочь прогнозировать цены на акции и обобщать финансовые отчеты.

для этого мы должны четко понимать, какие данные мы собираем.

В первой бета-версии SadatGPT я подумал, что было бы разумно сократить данные об акциях одной компании. Данные об акциях Apple Inc (AAPL) были собраны за период с 12 декабря 1980 г. по 04 июня 2023 г.

Это включает в себя дату открытия акции, цену акции при открытии, самую высокую цену, достигнутую в этот день, и самую низкую, а также объем, который был перемещен в тот день.

Этот тип данных является ключевым, помогая нам достичь одной из наших целей в прогнозировании цен на акции.

Следующим типом данных, которые необходимо собрать, были некоторые макроэкономические индикаторы, это также является ключевым, поскольку макроэкономические индикаторы имеют прямую корреляцию с тем, как обычно ведет себя фондовый рынок. Обычно на CNBC задают вопрос о том, как фондовый рынок отреагирует на отчет о рабочих местах. первого квартала.

Некоторые из макроэкономических показателей, по которым я собрал данные, — это ВВП с 1980 по 2023 год (реальный валовой внутренний продукт),

Данные о процентных ставках (эффективная ставка по федеральным фондам),

Данные об инфляции, которая является индексом потребительских цен для всех городских потребителей.

данные о занятости;

Данные об уровне безработицы

Общая несельскохозяйственная заработная плата.

данные о доверии потребителей;

(ежемесячные потребительские настроения)

данные о международной торговле;

Торговый баланс: Платежный баланс: Торговый баланс товаров и услуг)

Импорт и экспорт: международная торговля товарами и услугами США, основа платежного баланса)

Данные о корпоративных доходах также являются ключевыми, потому что отчет о доходах информирует нас о том, насколько хорошо работает компания, а насколько хорошо компания работает, обычно информирует об уверенности инвесторов, а также важны настроения из новостных статей.

Вот где путаница, с которой я столкнулся сегодня, SEC предоставила бы мне только данные о корпоративных доходах и документах SEC за 2013 год об Apple, и совершенно невозможно получить новостные статьи даже из New York Times об Apple когда-либо. с момента выхода на фондовый рынок в 1980 году.

В то время как корпоративные документы и набор данных о доходах, которые я могу получить, заставили меня переосмыслить, насколько большим должен быть мой набор данных для обучения, поиск новостных статей также заставил меня подумать, что может быть просто способ получить все новостные статьи, которые я ищу .

Мой скрипт на Python определенно работает

Но это может быть подключение к Интернету, которое может быть слишком слабым для слишком большого набора данных. Мой следующий вариант — создать виртуальную машину в Azure и выполнить там сбор данных.

Следите за сбором данных 2.0