О дрейфе данных и вендорах

УПРАВЛЕНИЕ ДАННЫМИ  О Категория:  УПРАВЛЕНИЕ ДАННЫМИ
Опубликовал:         03.12.2019               print

Помимо выступлений на панельных дискуссиях о Big Data иностранные эксперты по Data Governance (DG) в web-конференциях отмечают тенденцию разрастания данных, драматического разнообразия и объёмов источников данных, используемых проектами DWH.



Дрейф данных - непредсказуемые, необъявленные и бесконечные преобразования характеристик данных, вызванные эксплуатацией, техническим обслуживанием и модернизацией систем, производящих и обогащающих данные. Предприятия постоянно получают новые данные в различных форматах посредством различных технологий и из новых мест. Каждый проект интеграции данных обнаруживает нечто в потенциальных источниках, что может существенно повлиять на дизайн решения: неожиданный контент, данные низкого качества или даже то, что требуемые данные фактически не существуют там, где они ожидались.
С одной стороны - захватывающие возможности больших данных открываются в Нью-Васюках, новые вызовы, монетизация, и в то же время прогнозируется экспансия грязных данных, фейковых данных, шума.


Методология, платформы каталогизации данных, управление метаданными, бизнес-глоссарий, мастер-данные, lineage - это нужно, важно, полезно. А может, следует вернуться к первичным системам (CRM, ERP, АБС и т.п.), где зарождаются данные, и там по возможности снижать технические долги? А скорость, частота "изменений" Бизнеса? Большой Enterprise - энтропия?


Ниже в перечне собраны вендоры, работающие в направлении данных: реляционные СУБД и NoSQL, ETL/ELT, MDM, BI, DG, Data Profiling, Analysis и ML. Список вряд ли полный, формализовать по функциональным областям сложно, так как компании развиваются, покупаются. Каждая IT-компания большой четверки имеет продукты всех направлений и даже не по одному продукту.
Так, SAP, владея NetWeaver, купила Sybase ASE, IQ, PowerDesigner, Crystal Reports.
IBM, имея свои DB2, IMS, Lotus Domino, поглотила Informix, Netezza, Cognos, DataStage.
У Microsoft есть SQL Server, Access, Analysis Services, Power BI, Integration Services, Azure, FoxPro, Panorama, ProClarity.
У Oracle - Oracle DataBase, Exadata, GoldenGate, MySQL, OWB, ODI, Oracle BI, Exalytics, Hyperion, Big Data Appliance.


Какие мысли, выводы по этому списку?

  • • Рынок управления, подготовки, обработки данных настолько гигантский, что не иссякают желания откусить кусочек, крошечку огромного $ пирога;
  • • Все эти вендоры давно пришли или придут на предприятия: внедрения, перевнедрения, нескончаемые проекты зоопарк неминуем;
  • • Коннекторы (и часто коммерческие) имеют свои особенности, баги, версии, за ними нужно следить, платить;
  • • Пропиетарные форматы, поиски ответов, обходные решения, коммуникации;
  • • Разработчикам на земле в предприятиях, интеграторах не будет покоя в этой гонке вооружений в погоне за вендорами;
  • • "Культурные" слои и наследия контуров данных будут наслаиваться, реинжиниринг, выпрямление...
  • • Цифра давит.


Объем данных Аббревиатура В байтах Эквивалент
Байт b 1 8 bits
Килобайт Kb 1 024 1024 bytes
Мегабайт MB 1 048 576 1024 Kb
Гигабайт GB 1 073 741 824 1024 MB
Терабайт TB 1 099 511 627 776 1024 GB
Петабайт PB 1 125 899 906 842 624 1024 TB
Эксабайт EB 1 152 921 504 606 846 976 1024 PB
Зетабайт ZB 1 180 591 620 717 411 303 424 1024 EB
Йоттабайт YB 1 208 925 819 614 629 174 706 176 1024 ZB
Бронтобайт BB 1 237 940 039 285 380 274 899 124 224 1024 YB
Геопбайт GB 1 267 650 600 228 229 401 496 703 205 376 1024 BB

Итак, вот этот список:

  1. Actian
  2. Actuate
  3. Adaptive
  4. Adobe
  5. Aerospike
  6. Alation
  7. Alegion
  8. Alex Solutions
  9. Aglorithmia
  10. Alluxio
  11. Alteryx
  12. Amazon Redshift
  13. Anaconda
  14. Anodot
  15. Apache Druid
  16. Apache Spark
  17. ArangoDB
  18. Arcadia Data
  19. Arcplan
  20. ASG
  21. Ataccama
  22. AtScale
  23. Attunity
  24. AWS
  25. BigID
  26. Big Squid
  27. Birst
  28. BlueData
  29. Booz Allen Hamilton
  30. Cambridge Analytica
  31. Cassandra
  32. Citus Data
  33. ClickHouse
  34. Cloudera
  35. Cloudian
  36. Cockroach Labs
  37. Collibra
  38. Comet.ml
  39. Confluent
  40. Couchbase
  41. Data Advantage Group
  42. Databricks
  43. DataCamp
  44. DataCleaner
  45. Dataiku
  46. Datameer
  47. DataRobot
  48. DataStax
  49. Data World
  50. Datiris
  51. DATUM
  52. DDN
  53. Denodo
  54. Dominio Data Lab
  55. Domo
  56. Dremio
  57. Dundas Data Visualization
  58. Elastic
  59. EnterWorks
  60. Erwin
  61. Esri
  62. FaunaDB
  63. FigureEight
  64. Formulus Black
  65. Fractal Analytics
  66. Gigaspaces
  67. Global IDs
  68. Good Data
  69. Google Cloud Platform
  70. Graphiq
  71. GraphLab
  72. GraphQL
  73. Greenplum
  74. GridGain
  75. H20.ai
  76. Hazelcast
  77. Hitachi Vantara
  78. HPE
  79. HVR Software
  80. IBM
  81. Idera
  82. Iguazio
  83. Immuta
  84. Impetus Technologies
  85. Incorta
  86. InfiniDB
  87. Infogix
  88. Infor
  89. Informatica
  90. Information Builders
  91. Infoworks
  92. Intel
  93. Interana
  94. Io-Tahoe
  95. JasperSoft
  96. John Snow Labs
  97. Julia Computing
  98. Kyligence
  99. Kyvos Insights
  100. Lentiq
  101. Logi Analytics
  102. Logs.io
  103. Looker
  104. Lucidworks
  105. Manta
  106. MariaDB
  107. MarkLogic
  108. Matillion
  109. MemSQL
  110. Microsoft
  111. MicroStrategy
  112. Minio
  113. Mondrian
  114. MongoDB
  115. MySQL
  116. Neo4j
  117. Novetta
  118. NVIDIA
  119. OctopaiOdaseva
  120. Okera
  121. OmniSci
  122. OpenText
  123. Oracle
  124. Orchestra Networks
  125. Palo
  126. Pentaho
  127. Pepperdata
  128. PostgreSQL
  129. Presto
  130. Prognoz
  131. Privacera
  132. Profisee
  133. Pure Storage
  134. Qlik
  135. OrientDB
  136. Qubole
  137. Quobyte
  138. RapidMiner
  139. RavenDB
  140. Redis Labs
  141. Riversand
  142. Rockset
  143. RStudio
  144. SAP
  145. SAS
  146. ScyllaDB
  147. SiSense
  148. Smartlogic
  149. Snowflake
  150. Splice Machine
  151. Splunk
  152. SQLStream
  153. SQream
  154. Starburst
  155. Stibo Systems
  156. Streamlio
  157. StreamSets
  158. Striim
  159. Sumo Logic
  160. SWIM.ai
  161. SyncSort
  162. Tableau
  163. Talend
  164. Tamr
  165. Tarantool
  166. Targit
  167. Teradata
  168. ThoughtSpot
  169. TIBCO
  170. TigerGraph
  171. TimeScale
  172. Trifacta
  173. Trillium Software
  174. Unravel Data
  175. Vertica
  176. Ververica
  177. VoltDB
  178. WANdisco
  179. Waterline Data
  180. Yellowbrick Data
  181. Zaloni
  182. Zettaset
  183. Zoomdata


Энергия идеи   dvbi.ru                    Последнее изменение: 2021-12-12 23:08:03Z         Возрастная аудитория: 14-70         Комментариев:  0
Теги:   Примеры
Пожалуйста, проголосуйте и ниже поставьте лайк:   rating


  Комментарии



Следующая статья:    Ценность метаданных
Предыдущая статья:  Настраиваем Jira для проектов DWH & BI