¿Cuáles son algunas de las nuevas empresas prometedoras de Big Data (tanto financiadas como no financiadas) y tal vez algunas aplicaciones o pilas de OSS también (una startup no siempre tiene que ser una empresa, ¿verdad?)

*** Última actualización en diciembre de 2015 ***

Varias personas han producido datos y paisajes de aprendizaje automático.

De Shivon Zilis – Machine Intelligence:


De Matt Turck:

Muchas startups usan big data debajo de sus aplicaciones, por supuesto, pero no están haciendo nada innovador en el frente de big data. Es útil restringir esta lista a las empresas que trabajan con una nueva tecnología, así como a proporcionar una nueva forma de servicio.

Las siguientes son algunas categorías sueltas y superpuestas …

Para el análisis en la base de datos (big data, no tradicionalmente en la nube, a menudo utilizando innovaciones de base de datos en columnas, y últimamente, Hadoop):

  • Datos de aster
  • Calpont
  • ParAccel – ahora debajo de RedShift de AWS
  • Ciruela verde
  • Netezza
  • Vertica

Tenga en cuenta que esta ola de startups se han adquirido (todas menos una) en los últimos años … Todavía considero estas startups de etapa tardía a pesar de que son casos límite.

En lugar de incluir una lista de bases de datos mucho, mucho más larga, solo lo referiré aquí:


Para análisis avanzados (minería de datos, aprendizaje automático, modelado sofisticado, simulación):

  • Analítica continua
  • Databricks
  • KNIME
  • Paradigma4
  • PiCloud
  • PLOM.IO – comercializado como Epy.io – hermoso lanzamiento, buena causa!
  • Precog – recientemente adquirido por RichRelevance
  • Revolution Analytics
  • Cielo arbol
  • Ufora
  • Yhat

Desde mi experiencia en Ufora, el interés por las herramientas diseñadas para profesionales de análisis avanzado (codificadores, quants, investigadores, analistas, científicos de datos) se está calentando.

El análisis de regresión / clasificación / gráfico generalizado para aceptar datos únicos de una empresa, a veces con control guiado por GUI y menos codificación:

  • Datos alpinos
  • Alteryx
  • Ayasdi
  • BigML
  • Contexto relevante
  • Análisis de tormenta de lava
  • Neo Technology
  • tresata: análisis predictivo automatizado

Para combinaciones de SQL / NoSQL / Hadoop (big data verdadero, procesamiento de datos a gran escala, capacidades analíticas avanzadas a menudo limitadas) en la nube:

  • Actian
  • Datameer
  • Hadapt
  • Inktank / Ceph
  • JethroData – “SQL completamente indexado en Hadoop:
  • Platfora
  • Splice Machine – “SQL en tiempo real en Hadoop”
  • Zettaset

Herramientas NoSQL / Hadoop centradas en el desarrollador para gestionar big data:

  • Cloudera
  • Datastax
  • Hortonworks
  • Infochimps
  • Karmasphere
  • MapR
  • Datos de mortero
  • Qubole: “interfaz de usuario intuitiva para colmena, cerdo y MapReduce”
  • Rainstor
  • Sqrrl

Para búsqueda, visualización de datos, minería de datos básica y herramientas predictivas; a menudo usando otras soluciones NoSQL:

  • Sistemas de centrifugado
  • Razonamiento digital
  • EdgeSpring
  • LucidWorks
  • Palantir – crecido fuera de la fase de “inicio”
  • Tableau: también creció fuera de la fase de “inicio”
  • Trifacta – fase de transformación de datos de ETL

Reventa de datos:

  • DataSift
  • Exversion
  • Factual
  • Quandl
  • Topsy

GPU:

  • Tecnologías SQREAM

Verticales específicos

Ad-Tech: plataformas del lado de la demanda

  • Adchemy
  • AppNexus
  • PANTALLA DE MARCA
  • DatXu
  • Invitar a los medios
  • Lucid Media
  • MediaMath
  • Triggit
  • Giro
  • X + 1

Ad-Tech: herramientas de optimización de marketing en línea

  • Coremetrics
  • Omniture
  • RichRelevance
  • Unica

Bio:

  • Accelrys
  • Affymetric
  • Ariadne Genomics
  • BioXpr
  • DNAnexus
  • Eagle Genomics
  • Bioinformática de Ginebra
  • IO Informática
  • Tecnologías de la vida
  • Genética espiral
  • Theranos
  • Tripos Discovery Informática

Ingeniería / monitoreo de desempeño:

  • Concurix
  • … mucho mas.

Finanzas (con énfasis en fintech en general):

  • 1010data
  • Arialytics
  • QuantConnect
  • Quantopian

Márketing:

  • PivotLink
  • Kontagent
  • Clario

Otras listas de análisis y nuevas empresas de datos:

  • 42 Startups de Big Data – Vote por los 10 mejores
  • Colección de startups de datos en Pinterest
  • Financiación de inicio de Big Data por proveedor

Algunos blogs útiles y estudios de mercado, aunque las startups son solo una parte de su enfoque:

El panorama de Big Data
Kurt Monash: http://www.dbms2.com/
Merv Adrian: http://blogs.gartner.com/merv-ad…
James Kobelius: http://blogs.forrester.com/blog/143
IDC: http://www.idc.com/
Intersect360: http://www.intersect360.com/

También vale la pena vigilar a las empresas establecidas, por supuesto. Oracle, SAP (HANA), Microsoft, IBM (SPSS), SAS, MathWorks, MicroStrategy, MarkLogic, TIBCO, etc., y empresas consultoras como Opera Solutions, Mu Sigma, Accenture. McKinsey, Bain, BCG y otras firmas consultoras estratégicas importantes están desarrollando prácticas analíticas avanzadas.

La startup BIME Analytics se enfoca en proporcionar una solución para analizar y visualizar datos, sin importar de dónde provengan (servicio web, local, big data, RDBMS, etc.).

Para fuentes de datos de Big Data, es compatible con SAP HANA, MongoDB, Redshift, Vectorwise, los principales motores Hadoop ( Impala, Hive, Presto, Spark ) y en particular Google Big Query , donde la implementación fue tan buena Google solicitó convertirse en socios tecnológicos en 2010 .

Aquí hay algunos paneles de ejemplo de Big Query, trabajando con varios miles de millones de filas.
https://showcase.bime.io/dashboa
https://showcase.bime.io/dashboa

Xplenty (integración de datos en la nube) es un motor ETL en la nube, impulsado por Hadoop fácil para que pueda comenzar con la integración de datos en la nube en minutos, procesando datos estructurados y semiestructurados en un instante.

Duolingo tiene un equipo completo de doctores en aprendizaje automático que analiza cómo 100 millones de personas aprenden y optimiza la experiencia para mejorar la velocidad a la que las personas adquieren información en un asunto completamente personalizado.

Fue cofundado por Luis von Ahn, el inventor de CAPTCHA y uno de los pioneros del crowdsourcing.

Definitivamente vale la pena investigar si estás interesado en big data.

Las respuestas a esta pregunta ya incluyen una gran lista de nuevas empresas, pero parece que faltan algunas.

Qubole, Trifacta son algunas de las startups (lo sé) que están fundadas por veteranos de sistemas distribuidos (que proporcionan soluciones de análisis en su mayoría)

Extractos de sus sitios web:

Qubole es un servicio de big data administrado que simplifica la preparación, integración y exploración de big data en la nube ( QBL)

Trifacta fue fundada para abordar el desafío de productividad analítica de frente. Fundada en años de investigación colaborativa entre Berkeley y Stanford, Trifacta une líderes técnicos en campos clave. ( Trifacta )

Además, puede encontrar una extensa lista de nuevas empresas aquí:
big-data | CrunchBase
hadoop | CrunchBase

Infochimps ( http://www.infochimps.com/ ): la plataforma Big Data de Infochimps proporciona los servicios administrados, el software potente y la flexibilidad que necesita para simplificar el Big Data empresarial. La plataforma Infochimps es la forma más sencilla, rápida y flexible de implementar una infraestructura probada de big data en la nube.

  • Ingesta de forma escalable y asequible datos de sistemas internos, fuentes de datos externas, datos de la web o el mercado de datos más grande del mundo.
  • Hace que los datos sean útiles con la decoración y el aumento de datos in-stream. Almacena y analiza datos en el mejor lugar para su aplicación.
  • Integra Hadoop, NoSQL y análisis en tiempo real con su entorno existente, para que pueda concentrarse en obtener información comercial de sus datos rápidamente.
  • Servicio de entrega de datos (DDS) impulsado por Storm and Kafka, que realiza la recopilación de datos, el transporte y el procesamiento complejo in-stream. Infochimps es el primero en la industria en aprovechar estas tecnologías en una oferta de plataforma escalable linealmente y tolerante a fallas.
  • Infochimps impulsa el proyecto VMware Serengeti con su herramienta Ironfan. Serengeti permite que las aplicaciones de Big Data que se ejecutan en Hadoop se implementen fácilmente en entornos de TI virtuales y basados ​​en la nube.

Cuando se trata de aprendizaje automático, big data y ciencia de datos, definitivamente hay algunas nuevas empresas que tienen algo que decir aquí.

El aprendizaje automático es un campo de estudio que brinda a las computadoras la capacidad de aprender sin ser programados. Big data es, literalmente, datos de gran tamaño que deben analizarse computacionalmente para revelar patrones y otras asociaciones. La ciencia de datos es un campo interdisciplinario que se utiliza para extraer conocimiento de los datos, ya sea estructurado o no estructurado.

Cuando observa estas explicaciones, está claro que las tres se pueden combinar. Como mínimo, puede implementar cada uno parcialmente junto con los demás. Y eso es lo que hacemos en Intelligence Node, una startup que cofundé.

Somos una empresa relativamente antigua en el campo del análisis de big data en áreas metropolitanas de todo el mundo, incluidos Mumbai, Londres, Dubai y Nueva York. Nuestra tecnología hace posible que los minoristas disminuyan el ciclo de comercialización de seis meses a tan solo diez días, con comentarios rápidos y efectivos.

Somos un verdadero producto tecnológico de alta velocidad de big data :

· Procesamos información a través de millones de atributos de mil millones de productos únicos.

· Nuestra pila de tecnología se compone de las herramientas de big data más avanzadas del mercado (incluyendo Mongo DB, Aerospike DB, Elastic search, Spark), sobrealimentadas con tecnología desarrollada internamente

• La base de datos de productos minoristas más grande, limpia, precisa y exhaustiva en más de 1 000 millones de productos únicos que cubren 1100 categorías minoristas en más de 130 000 marcas.

El nodo de inteligencia funciona de manera efectiva para las marcas de moda, ayudándoles a organizar sus inventarios y reconociendo los artículos que no están a la altura, para eliminarlos de los inventarios. Los conocimientos minoristas de nuestro motor de big data son consumidos globalmente por más de 100 minoristas y marcas para guiar sus decisiones de ciclo de vida minorista. Nuestros clientes encuentran la aplicación de estos conocimientos para todo, desde estrategias de comercialización enriquecedoras hasta la optimización de precios en tiempo real.

Affine ( http://www.affineanalytics.com/ ): ayuda a las organizaciones a tomar decisiones informadas mediante una combinación rentable de la capacidad algorítmica de resolución de problemas con el conocimiento del dominio heurístico

Capillary Technologies ( http://www.capillarytech.com ): combina big data con un motor analítico basado en la nube que se puede utilizar para optimizar la relevancia y la rentabilidad de los descuentos, ofertas personalizadas a los consumidores en tiempo real para aumentar la lealtad y las ventas.

Soy miembro de William J. Clinton de la Fundación América India y he trabajado en SocialCops como analista de datos durante los últimos cuatro meses. SocialCops es una compañía de datos impulsada por la misión que tiene como objetivo impulsar las decisiones más importantes del mundo, desde ayudar a los alcaldes a decidir las asignaciones presupuestarias hasta permitir que las organizaciones filantrópicas decidan inversiones estratégicas, ayudar a los gobiernos a decidir las intervenciones de saneamiento y ayudar a las organizaciones sin fines de lucro a tomar medidas de socorro en casos de desastre.

Mi trabajo gira en torno a 3 objetivos principales:

  • Llenando los vacíos de datos

Diariamente, trabajar hacia nuestro objetivo implica una recopilación y limpieza de datos extensas dado el formato inaccesible y oscuro de Open Data en India. El Equipo de datos recopila y procesa aproximadamente 5,000 archivos de datos secundarios por semana que abarcan una variedad de sectores, incluidos salud, agricultura, economía, demografía y educación.

Dato curioso : distribuimos un documento de solicitud de RTI en nuestra oficina que alimenta curiosidades que van desde “Cuántos granos alimenticios fueron destruidos en los últimos 10 años” hasta “Cuántos tiburones hay actualmente en las aguas de la India”.

Me emocionó al recibir algunas de las respuestas de RTI

  • Desarrollando un mejor producto

A diferencia de otras organizaciones, los analistas de datos de SocialCops trabajan con ingenieros en el desarrollo de productos para resolver nuestros desafíos de procesamiento de datos en tiempo real. Nuestro equipo de ingeniería está desarrollando un software interno de limpieza de datos que está diseñado para hacer posible la discusión de datos para analistas con todos los niveles de experiencia.

Work In Progress en nuestra herramienta interna de limpieza de datos, Transform

  • Construyendo Índices Inteligentes

Colaboramos con expertos del sector para obtener información de nuestra pila de datos y construir indicadores relevantes que formen la base de nuestros índices.

Por ejemplo, este mes trabajamos con un experto en agricultura para diseñar un índice que mida el desempeño de los distritos en una gama holística de indicadores relacionados con la productividad, los activos, la igualdad de género y la salud en el sector agrícola.

Un mapa de marcadores para Bihar que muestra cómo le va a través de diferentes indicadores

He dado un recuento elaborado de un día en la vida de un analista de datos en SocialCops aquí.

PD: ¡Estamos contratando! Mira nuestra bolsa de trabajo aquí.

Según IDC, los servicios de Big Data tomarán la mayor parte de todos los ingresos de big data y análisis para 2019. En ese contexto, nos gustaría presentar a Noah Data Technologies, Inc. como una de las compañías de servicios administrados de Big Data Analytics con mayor crecimiento en Atlanta. . Hemos ayudado a los clientes a monetizar datos y hemos realizado un trabajo increíble en una amplia gama de áreas que no se limitan al análisis predictivo impulsado por IoT, análisis de fraude, análisis de rotación, automóviles conectados, minería de registros, etc.

Noah Data ayuda a los clientes a aumentar la agilidad empresarial y a obtener un tiempo de conocimiento más rápido a través de una combinación de habilidades de vanguardia en Big Data, Advanced Analytics y servicios de desarrollo de productos. Noah Data es una preocupación hermana de Indium Software, un veterano de pruebas de IP de 450 miembros que se encuentra en la guía de proveedores de pruebas de Gartner. Noah Data ofrece servicios piloto de desarrollo de Big Data, análisis y desarrollo de productos y tiene experiencia en AWS, Azure, Google App Engine y soluciones de gestión de datos en tiempo real.

Noah Data se centra exclusivamente en ayudar a las empresas de nueva creación, las empresas y los ISV de todo el mundo a aprovechar las tecnologías de Big Data y análisis a través de la consultoría y el suministro de soluciones integrales de desarrollo / implementación y mantenimiento de productos. Los clientes de Noah Data incluyen emocionantes Start-ups y Empresas de las Américas, APAC e India en los dominios IoT, Servicios financieros, Banca, Comercio electrónico / Negocio digital, Minorista y CPG.

Para más información, visite http://www.noahdatatech.com

Amethon (Amethon Solutions) se especializa en análisis de transmisión distribuida para datos de gran volumen y alta velocidad, como el tráfico de datos móviles. Por lo general, informamos miles de millones de transacciones por día en tiempo real. Otras aplicaciones incluyen transacciones financieras, transacciones minoristas y datos de sensores.

Sorprendido de que nadie haya agregado ninguna compañía de base de datos de gráficos NoSQL, así que aquí hay algunos …

Neo4J – Neo4j: la base de datos gráfica líder en el mundo
Gráfico Infinito – Inicio | Objetividad
OrientDB – OrientDB Graph-Document NoSQL dbms
Titán – Titán

Splice Machine ( http://www.splicemachine.com/ ) – SQL en la parte superior de Hadoop
Dibujado a escala ( http://drawntoscale.com/ ) – SQL encima de Hadoop
Hadapt ( http://hadapt.com/ ) – Hadoop en de Postgres
DataStax ( http://www.datastax.com/ ) – Enterprise Cassandra
Sqrril ( http://sqrrl.com/ ) – Soporte para Accumulo (BigTable abierto de la NSA)
Precog ( http://precog.com/ ): plataforma de ciencia de datos basada en la nube
WibiData ( http://www.wibidata.com/ ) – Solución de perfil de usuario sobre Hadoop / Hbase

Los sistemas de recomendación se han convertido en un aspecto intrínseco e importante del big data cotidiano. Myrrix ( http://www.myrrix.com ) del desarrollador del marco de recomendaciones en Mahout es un sistema de recomendación escalable y en tiempo real para Big Data, construido en Apache Mahout.

Cloudera ( http://www.cloudera.com ) desarrolla software de código abierto para un mundo dependiente de Big Data. Es el líder en software y servicios basados ​​en Apache Hadoop, dirigido por el veterano Doug Cutting

CoolaData proporciona una solución de plataforma para Big Data. Especialmente en los sectores de comercio electrónico y juegos. Su análisis predictivo ayuda a reducir la rotación y aumentar los ingresos para muchas empresas. Además, su blog me parece particularmente beneficioso. Aquí hay un artículo sobre Big Data y la experiencia del cliente que encuentro útil: Big Data para experiencias de cliente más inteligentes – CoolaData

Enigma es una plataforma única de búsqueda y descubrimiento que proporciona una de las colecciones más amplias de datos públicos en el mercado ahora, puede que me la haya perdido, pero no creo que la haya mencionado en ninguna respuesta anterior. Enigma: acceda a los datos públicos del mundo

42 Technologies es una nueva herramienta de análisis minorista que utiliza tecnología de big data para ayudar a los minoristas a comprender su negocio. Consolidamos, limpiamos y validamos todas sus fuentes de datos (desde su venta minorista hasta el inventario y Google Analytics, por nombrar algunos). No más hojas de cálculo de Excel y números manualmente combinados para crear informes.

Estamos dedicados solo al espacio minorista, con algunos de nuestros clientes como las principales fuerzas en el espacio tecnológico minorista.

Para obtener más información, envíeme un correo electrónico a [correo electrónico protegido]

MapR
MapR cumple la promesa de Hadoop, haciendo que la gestión y el análisis de Big Data sea una realidad para más usuarios comerciales. La galardonada distribución de MapR brinda confiabilidad, velocidad y facilidad de uso sin precedentes a Hadoop.

Experfy cuenta con más de 1000 expertos en análisis de big data que ofrecen servicios personalizados a clientes en áreas tan diversas como atención médica, productos farmacéuticos, venta minorista, ventas, marketing y mucho más. Los especialistas de Experfy tienen la experiencia para abordar proyectos en una amplia gama de áreas, por lo que debe visitar su sitio web. Experfy hace todo el trabajo duro de encontrar al profesional adecuado para cualquier trabajo específico.

Estas son algunas de las 10 principales startups de Big Data (según crn.com):

1. DataHero

CEO: Ed Miller

DataHero, con sede en San Francisco, se centra en el desarrollo de software de análisis empresarial de “autoservicio”. El servicio basado en la nube DataHero recopila datos de fuentes tan dispares como Box, Dropbox, Google Drive, Excel, Office 365, Marketo, HubSpot y Eventbrite, y los convierte en gráficos y paneles.

DataHero, fundada en 2011, recaudó $ 6.1 millones en fondos de la Serie A en mayo.

2. Tamr

CEO: Andy Palmer

Tienes que amar a una compañía cuyo objetivo declarado es luchar contra los males de la “proliferación de esquemas”. Tamr, con sede en Cambridge, Massachusetts, desarrolla un software de unificación de datos empresariales que las empresas utilizan para integrar diversos datos aislados para tareas de análisis empresarial y aplicaciones posteriores.

Tamr es la última creación de la luminaria de bases de datos Michael Stonebraker, quien inició la compañía en 2013 con el veterano de la industria de bases de datos Andy Palmer. (Palmer se desempeña como CEO mientras que Stonebraker es CTO). Los dos anteriormente iniciaron Vertica Systems, ahora propiedad de Hewlett-Packard.

3. Domo

CEO: Josh James

Domo estaba en modo sigiloso entre su lanzamiento en 2010 y principios de este año, pero el interés en el sistema de gestión ejecutiva basado en la nube que la compañía tenía en desarrollo ya era alto. En abril, la compañía con sede en American Fork, Utah, lanzó su aplicación que brinda a los gerentes de negocios acceso a información dispersa en muchas fuentes dispares a través de un solo tablero.

4. Looker

CEO: Frank Bien

Looker proporciona una plataforma de análisis empresarial de software como servicio que pone la inteligencia procesable en manos de los empleados que más la necesitan. Las herramientas basadas en la nube pueden conectarse a una amplia gama de fuentes de datos, incluidas Amazon Redshift, Google BigQuery, HP Vertica, Cloudera Impala, Apache Spark, bases de datos SQL y otras.

5. Perspectivas de Kyvos

CEO: Praveen Kankariya

Kyvos Insights es otra startup que busca una mejor manera de analizar los datos almacenados en clústeres de Hadoop. Específicamente, la compañía con sede en Los Gatos, California, desarrolló el software OLAP (procesamiento analítico en línea) que realiza tareas de análisis interactivas y multidimensionales en grandes volúmenes de datos Hadoop estructurados y no estructurados.

6. Confluente

CEO: Jay Kreps

Uno de los mayores desafíos en big data es trabajar con grandes volúmenes de datos de transmisión en tiempo real. Una tecnología que se está poniendo de moda para abordar el problema de la transmisión de datos es Apache Kafka, un sistema de mensajería de código abierto y altamente escalable que se puede usar junto con otras tecnologías para proporcionar análisis y representación en tiempo real de la transmisión de grandes datos.

A medida que más empresas implementan sistemas de Internet de las cosas para recopilar y analizar grandes volúmenes de transmisión de datos, Kafka podría ser una tecnología crítica. Y Confluent podría desempeñar un papel importante en su adopción.

7. AtScale

CEO: Dave Mariani

Si bien se están recopilando y almacenando más datos corporativos en Hadoop, existen pocas formas directas de acceder y analizar esos datos con las herramientas de informes y análisis de negocios que muchos trabajadores de la información usan hoy en día. Y eso está demostrando ser un obstáculo para muchos proyectos de big data.

El software de la plataforma de inteligencia AtScale que permite que las herramientas de inteligencia empresarial comúnmente utilizadas accedan a los datos almacenados en clústeres de Hadoop. La tecnología crea una capa semántica entre Hadoop y las herramientas de análisis empresarial, convirtiendo a Hadoop en un servidor OLAP.

8. ThoughtSpot

CEO: Ajeet Singh

Bajo el mantra “análisis basados ​​en búsquedas para todos”, ThoughtSpot quiere eliminar la necesidad de herramientas de BI complejas. El dispositivo de búsqueda relacional ThoughtSpot de la compañía combina datos de fuentes locales, en la nube y de escritorio, y brinda a los usuarios la capacidad de acceder a esos datos con una interfaz de búsqueda simple.

9. Interana

CEO: Ann Johnson

Interana es otra startup de big data que está desarrollando tecnología para ayudar a las empresas a analizar la transmisión de datos en tiempo real.

El software analítico basado en eventos de la compañía funciona con datos de flujo de clics y otra información “basada en eventos” para ayudar a los usuarios a responder preguntas sobre cómo se comportan los clientes y cómo se utilizan los productos. El objetivo es proporcionar inteligencia empresarial procesable para usuarios no técnicos.

10. Datos de Arcadia

CEO: Sushil Thomas

Un número creciente de empresas está implementando sistemas Hadoop, utilizándolos para recopilar grandes volúmenes de datos dispares de múltiples fuentes. Pero hacer uso de esos datos no es tan fácil: la mayoría de las herramientas tradicionales de análisis empresarial no pueden acceder directamente a los datos de Hadoop, y los departamentos de TI tienen que intervenir para preparar los datos o moverlos a otro sistema para que estén disponibles para los trabajadores comerciales cotidianos .

Arcadia Data está desarrollando un software de análisis visual que supera esos obstáculos al acceder directamente a los datos almacenados en los clústeres de Hadoop. La tecnología utiliza Hadoop como sistema operativo, lo que le permite ejecutarse directamente en los servidores de Hadoop y acceder a los datos almacenados en el Sistema de archivos distribuidos de Hadoop.