Gagnant de la vitrine de l'innovation VB Transform : Unstructured.io

Accédez à notre bibliothèque à la demande pour voir les sessions de VB Transform 2023. Inscrivez-vous ici

Les entreprises disposent aujourd'hui de vastes quantités de données non structurées dispersées dans de nombreux environnements.

Le "sale secret", selon le fondateur et PDG d'Unstructred.io, Bryan Raymond, est que les scientifiques des données traitent encore souvent toutes ces données exactement comme ils le faisaient il y a 20 ans, généralement en créant manuellement des directives de prétraitement.< /p>

"Les data scientists détestent le pré-traitement", a-t-il déclaré au public de VentureBeat Transform 2023. "C'est comme aller chez le dentiste."

Unstructured.io, qui utilise le langage naturel pour transformer les données de leur forme brute en données prêtes pour l'apprentissage, a été sélectionné comme le plus susceptible de réussir lors de la vitrine de l'innovation de VentureBeat Transform 2023.

Événement

VB Transform 2023 à la demande

Avez-vous manqué une session de VB Transform 2023 ? Inscrivez-vous pour accéder à la bibliothèque à la demande pour toutes nos sessions en vedette.

S'inscrire maintenant Connecter les données aux LLM

Raymond a décrit la plate-forme de son entreprise comme un ETL (extraction, transformation et chargement) pour les grands modèles de langage (LLM).

"Nous aimons nous considérer comme le sommet du tunnel", a-t-il déclaré.

Unstructured.io connecte les données aux LLM et utilise une variété de technologies, y compris la vision par ordinateur, le traitement du langage naturel (NLP) et les scripts Python, pour extraire la complexité.

Les données non structurées sont conservées, nettoyées des artefacts et préparées pour le LLM, a expliqué Raymond. Il s'agit d'une stratégie plus simple et plus rapide et les scientifiques des données n'ont pas à écrire des centaines de lignes de code d'analyse.

Des données propres et structurées peuvent être insaisissables

L'API d'entreprise de l'outil permet des flux de travail de navigateur pour tous les types de développeurs et prend en charge le prétraitement de plus de 25 types de fichiers et de milliers de formats dans plus de 100 langues, a déclaré Raymond. Il est disponible en tant qu'API gratuite, en tant que bloc-notes Google Colab et sur GitHub, où sa bibliothèque fournit des composants open source pour le prétraitement de documents texte tels que des documents PDF, HTML et Word.

Raymond a déclaré qu'il avait eu l'idée de créer l'entreprise après avoir été "coincé dans l'enfer de l'ingénierie des données" chez un ancien employeur. Le simple fait d'obtenir des données propres et structurées a pris des années, a-t-il déclaré.

Unstructured.io a été fondée en 2022 et l'entreprise travaille désormais «d'arrache-pied» sur des connecteurs de données de niveau entreprise qui résistent aux interruptions et peuvent détecter de nouvelles versions de fichiers et se paralléliser facilement, a déclaré Raymond. L'entreprise compte actuellement 15 connecteurs de données et prévoit d'en augmenter le nombre à plus de 30. 

La vitrine de l'innovation du salon VentureBeat Transform de cette année a mis en lumière 10 entreprises uniques dans les domaines de l'IA générative, de l'apprentissage automatique (ML) et de l'analytique...

Gagnant de la vitrine de l'innovation VB Transform : Unstructured.io

Accédez à notre bibliothèque à la demande pour voir les sessions de VB Transform 2023. Inscrivez-vous ici

Les entreprises disposent aujourd'hui de vastes quantités de données non structurées dispersées dans de nombreux environnements.

Le "sale secret", selon le fondateur et PDG d'Unstructred.io, Bryan Raymond, est que les scientifiques des données traitent encore souvent toutes ces données exactement comme ils le faisaient il y a 20 ans, généralement en créant manuellement des directives de prétraitement.< /p>

"Les data scientists détestent le pré-traitement", a-t-il déclaré au public de VentureBeat Transform 2023. "C'est comme aller chez le dentiste."

Unstructured.io, qui utilise le langage naturel pour transformer les données de leur forme brute en données prêtes pour l'apprentissage, a été sélectionné comme le plus susceptible de réussir lors de la vitrine de l'innovation de VentureBeat Transform 2023.

Événement

VB Transform 2023 à la demande

Avez-vous manqué une session de VB Transform 2023 ? Inscrivez-vous pour accéder à la bibliothèque à la demande pour toutes nos sessions en vedette.

S'inscrire maintenant Connecter les données aux LLM

Raymond a décrit la plate-forme de son entreprise comme un ETL (extraction, transformation et chargement) pour les grands modèles de langage (LLM).

"Nous aimons nous considérer comme le sommet du tunnel", a-t-il déclaré.

Unstructured.io connecte les données aux LLM et utilise une variété de technologies, y compris la vision par ordinateur, le traitement du langage naturel (NLP) et les scripts Python, pour extraire la complexité.

Les données non structurées sont conservées, nettoyées des artefacts et préparées pour le LLM, a expliqué Raymond. Il s'agit d'une stratégie plus simple et plus rapide et les scientifiques des données n'ont pas à écrire des centaines de lignes de code d'analyse.

Des données propres et structurées peuvent être insaisissables

L'API d'entreprise de l'outil permet des flux de travail de navigateur pour tous les types de développeurs et prend en charge le prétraitement de plus de 25 types de fichiers et de milliers de formats dans plus de 100 langues, a déclaré Raymond. Il est disponible en tant qu'API gratuite, en tant que bloc-notes Google Colab et sur GitHub, où sa bibliothèque fournit des composants open source pour le prétraitement de documents texte tels que des documents PDF, HTML et Word.

Raymond a déclaré qu'il avait eu l'idée de créer l'entreprise après avoir été "coincé dans l'enfer de l'ingénierie des données" chez un ancien employeur. Le simple fait d'obtenir des données propres et structurées a pris des années, a-t-il déclaré.

Unstructured.io a été fondée en 2022 et l'entreprise travaille désormais «d'arrache-pied» sur des connecteurs de données de niveau entreprise qui résistent aux interruptions et peuvent détecter de nouvelles versions de fichiers et se paralléliser facilement, a déclaré Raymond. L'entreprise compte actuellement 15 connecteurs de données et prévoit d'en augmenter le nombre à plus de 30. 

La vitrine de l'innovation du salon VentureBeat Transform de cette année a mis en lumière 10 entreprises uniques dans les domaines de l'IA générative, de l'apprentissage automatique (ML) et de l'analytique...

What's Your Reaction?

like

dislike

love

funny

angry

sad

wow