Нормализация данных в соответствии с бизнес-объектом (юридическое название, класс бизнеса, домен DNS, тип компании)

Я пытаюсь нормализовать данные и связать записи в соответствии с названием юридического лица.

Где я могу определить юридическое название компании и общую информацию об этой компании? У меня будет хотя бы одно из следующего: символ акции, DBA (короткое имя), DNS-имя или полное юридическое имя.

До сих пор я обнаружил, что с

  • Опора на whois дает мне личную или устаревшую информацию
  • Wolfram Alpha API дает мне большую часть того, что мне нужно для публичные компании, но ничего полезного для частные компании, такие как LEGO
  • Анализ веб-страниц для символа (c) может помочь в процессе разрешения, но не соответствует имени авторитетному списку.

Поскольку все биржевые символы разделены на категории; тот легкий.

Как я могу преобразовать, нормализовать и проверить DBA (короткое имя), DNS-имя или полное юридическое имя для непубличных или некоммерческих предприятий, которые могут даже находиться за границей?

(например, MET Museum как DBA, или metmuseum.org как сайт, или официальное название «Metropolitan Museum of Art»)


person halfbit    schedule 29.01.2011    source источник
comment
Я почти уверен, что люди, интересующиеся нормализацией баз данных, сочтут этот вопрос далеким от темы. (Это наблюдение, а не критика.) Я знаю, что нормализация используется во многих разных контекстах с разными значениями в SO, поэтому я оставлю этот тег на месте.   -  person Mike Sherrill 'Cat Recall'    schedule 29.01.2011


Ответы (2)


Я не уверен, что это лучшее место, чтобы задать ваш вопрос. Может быть, ваш местный библиотекарь мог бы помочь. В любом случае, я отвечаю, потому что я проделал большую работу в этом направлении в прошлом и потому что я обнаружил, что программисты и разработчики баз данных часто знают, где найти данные, особенно авторитетные и стандартные данные.

На местном уровне (в США) мы принимали все, что нам давала местная торговая палата. На национальном уровне мы купили списки у InfoUSA. Данные Торговой палаты могут быть довольно ненадежными; Данные InfoUSA очень чистые.

Dun & Bradstreet — наиболее близкий мне известный мне универсальный реестр компаний. Они не дешевые.

RBA, компания из Великобритании, кажется, имеет действительно полезное представление с Глобальная перспектива. См. официальные реестры компаний. Большая часть данных там бесплатна.

person Mike Sherrill 'Cat Recall'    schedule 29.01.2011

Я провел некоторые исследования в этой области и нашел недавнюю статью, в которой обсуждается подход к извлечению, обнаружению (посредством кластеризации) и нормализации (посредством расширенного расчета расстояния редактирования) имен организаций. NEMO

person fjxx    schedule 12.06.2013