Architecture Design and implementation of the startup Farmy.ai's data pipeline.

dc.contributor.authorOuaret, Sami
dc.date.accessioned2022-01-02T09:16:53Z
dc.date.available2022-01-02T09:16:53Z
dc.date.issued2021
dc.description.abstractIn this data-driven world, companies need to work on their data strategy to survive and stay competitive. Most existing data strategies depend on manual labor and minimize human creativity in problem solving and value creation. Because of this, it takes a long time to utilize data resources, making the insights gained obsolete. At Farmy.ai Startup, after a year and a half in production, we understood that implementing an automated data pipeline is imperative to accelerate the use of our data resources while scaling to new use cases. This project aims to design a data architecture and implement a scalable data pipeline for the startup Farmy. This data pipeline is intended to enable image-based diagnosis of plant diseases. The implemented pipeline starts by regularly retrieving images and their metadata from social media and other sources. It then stores and catalogs the collected data in a cloud data lake. Then, it enriches the stored data with annotations from agriculture experts. Finally, we orchestrate all the operations of this data pipeline to avoid repetitive manual work. مع التطور التكنولوجي السريع يشكل الذكاء الإصطناعي والبيانات الضخمة القاطرة التي تقودنا لثورة من الحلول المبتكرة, لذلك تسعى المؤسسات جاهدة على نطاق واسع لدمج البيانات في أعمالها لتحسين منتجاتها وتجاوز منافسيها. تعد الزراعة تحديا جذابا للذكاء الإصطناعي و البيانات الضخمة, فارمي شركة ناشئة جزائرية تهدف لاستعمال الذكاء الإصناعي لتمكين الفلاحين من الحصول على تشخيصا سريعا و موثوقا لأمراض المحاصيل التي تقضي على جزء كبير منها سنويا. نظرا لكون البيانات المحرك الأساسي للذكاء الإصطناعي, فارمي واجهت تحديات لدمج البيانات من مصادرها المختلفة حتى تتمكن من تطبيق الذكاء الاصطناعي, ولكون الكثير من البيانات تكون تالفة و بلا صلة لما تحتاجه فارمي, يجب تطهير وتصفية تلك البيانات, بعد ذلك حتى تكون البيانات ذات صلة جاهزة للإستعمال والتطبيق يجب إثرائها بمعلومات إضافية من طرف خبراء زراعيين. من الواضح أن القيام بكل هذه العمليات يتطلب جهدا, لهذا قررت فارمي بناء نظام سلس يسمح لها بإدارة هاته العمليات دون عناء. يهدف هذا العمل إلى عرض تصميم يستفيد من بنية بحيرة البيانات والحوسبة السحابية لبناء خط أنابيب قوي وموثوق لتجميع ومعالجة بيانات فارمي لتمكينها من تطبيق الذكاء الإصطناعي والقيام بأعمالها. Dans ce monde ax e sur les donn ees, les entreprises doivent travailler sur leur strat egie de donn ees pour survivre et rester comp etitives. N eanmoins, la plupart des strat egies de donn ees existantes requiert un e ort manuel consid erable et ne cr ee pas la valeur attendue. La startup Farmy, proposant des solutions bas ees sur l'intelligence, a rapidement r ealis e l'importance d'une architecture de donn ee robuste. Un pipeline de donn ees automatis e permet egalement d'acc el erer le d eveloppement de nouvelles solutions. Le cadre de ce projet concerne la conception d'une architecture de donn ees et l'impl ementation d'un pipeline de donn ees destin ees a la startup Farmy. Ce pipeline de donn ees est appliqu e au diagnostic automatis e de maladies des plantes. La premi ere etape consiste a r ecup erer p eriodiquement des images et leurs m etadonn ees a depuis les r eseaux sociaux et d'autres sources. Par la suite, ces donn ees collect ees sont stock ees et catalogu ees dans un lac de donn ees dans le cloud. En n, ces donn ees sont enrichies par des annotations r ealis ees par des experts agricoles.en_US
dc.description.abstractIn this data-driven world, companies need to work on their data strategy to survive and stay competitive. Most existing data strategies depend on manual labor and minimize human creativity in problem solving and value creation. Because of this, it takes a long time to utilize data resources, making the insights gained obsolete. At Farmy.ai Startup, after a year and a half in production, we understood that implementing an automated data pipeline is imperative to accelerate the use of our data resources while scaling to new use cases. This project aims to design a data architecture and implement a scalable data pipeline for the startup Farmy. This data pipeline is intended to enable image-based diagnosis of plant diseases. The implemented pipeline starts by regularly retrieving images and their metadata from social media and other sources. It then stores and catalogs the collected data in a cloud data lake. Then, it enriches the stored data with annotations from agriculture experts. Finally, we orchestrate all the operations of this data pipeline to avoid repetitive manual work. مع التطور التكنولوجي السريع يشكل الذكاء الإصطناعي والبيانات الضخمة القاطرة التي تقودنا لثورة من الحلول المبتكرة, لذلك تسعى المؤسسات جاهدة على نطاق واسع لدمج البيانات في أعمالها لتحسين منتجاتها وتجاوز منافسيها. تعد الزراعة تحديا جذابا للذكاء الإصطناعي و البيانات الضخمة, فارمي شركة ناشئة جزائرية تهدف لاستعمال الذكاء الإصناعي لتمكين الفلاحين من الحصول على تشخيصا سريعا و موثوقا لأمراض المحاصيل التي تقضي على جزء كبير منها سنويا. نظرا لكون البيانات المحرك الأساسي للذكاء الإصطناعي, فارمي واجهت تحديات لدمج البيانات من مصادرها المختلفة حتى تتمكن من تطبيق الذكاء الاصطناعي, ولكون الكثير من البيانات تكون تالفة و بلا صلة لما تحتاجه فارمي, يجب تطهير وتصفية تلك البيانات, بعد ذلك حتى تكون البيانات ذات صلة جاهزة للإستعمال والتطبيق يجب إثرائها بمعلومات إضافية من طرف خبراء زراعيين. من الواضح أن القيام بكل هذه العمليات يتطلب جهدا, لهذا قررت فارمي بناء نظام سلس يسمح لها بإدارة هاته العمليات دون عناء. يهدف هذا العمل إلى عرض تصميم يستفيد من بنية بحيرة البيانات والحوسبة السحابية لبناء خط أنابيب قوي وموثوق لتجميع ومعالجة بيانات فارمي لتمكينها من تطبيق الذكاء الإصطناعي والقيام بأعمالها. Dans ce monde ax e sur les donn ees, les entreprises doivent travailler sur leur strat egie de donn ees pour survivre et rester comp etitives. N eanmoins, la plupart des strat egies de donn ees existantes requiert un e ort manuel consid erable et ne cr ee pas la valeur attendue. La startup Farmy, proposant des solutions bas ees sur l'intelligence, a rapidement r ealis e l'importance d'une architecture de donn ee robuste. Un pipeline de donn ees automatis e permet egalement d'acc el erer le d eveloppement de nouvelles solutions. Le cadre de ce projet concerne la conception d'une architecture de donn ees et l'impl ementation d'un pipeline de donn ees destin ees a la startup Farmy. Ce pipeline de donn ees est appliqu e au diagnostic automatis e de maladies des plantes. La premi ere etape consiste a r ecup erer p eriodiquement des images et leurs m etadonn ees a depuis les r eseaux sociaux et d'autres sources. Par la suite, ces donn ees collect ees sont stock ees et catalogu ees dans un lac de donn ees dans le cloud. En n, ces donn ees sont enrichies par des annotations r ealis ees par des experts agricoles.en_US
dc.identifier.issnMM/ 648
dc.identifier.urihttp://10.10.1.6:4000/handle/123456789/1618
dc.language.isoenen_US
dc.publisherUniversité Mohamed El Bachir El Ibrahimi de Bordj Bou Arreridjen_US
dc.titleArchitecture Design and implementation of the startup Farmy.ai's data pipeline.en_US
dc.typeThesisen_US

Files

Original bundle

Now showing 1 - 1 of 1
Thumbnail Image
Name:
final-report-13.pdf
Size:
5.02 MB
Format:
Adobe Portable Document Format
Description:
In this chapter, we have shown the concrete data ow in Farmy.ai, we have shown the deployment architecture in AWS, including Data Lake components such as AWS S3, AWS DynamoDB, the Lambda compute function, Apache Air ow and the Annotation web application, we have run a complete experiment with various tools and services mentioned. 64 Chapter 5 General Conclusion Data is gradually changing the way we do business. Collecting and processing data has always been a challenge for engineers and developers. An e cient ow of data is the most critical operations in today's data-driven businesses. A valuable business can start only when we guarantee that the data is available in a ready and secure state. Cloud computing greatly helps us to develop reliable and cost-e ective solutions. However, a well-designed architecture is still required. 5.1 Findings In this project, we have presented an e ective architecture for managing data throughout its life-cycle. We have shown how Big Data can be integrated into the real world business, we also showed the signi cant impact that good data collection has on the business. Building a reliable data pipeline is challenging, a reusable and reproducible data pipeline is even more challenging as it involves various movements, processing steps and dependencies between processing tasks. We have developed a design that leverages data cataloging and object-level storage to build a reliable data lake architecture for Farmy.ai. Developing an e cient and reusable low-coupled data ingestion layer using components such as connectors was a critical step that signi cantly reduces data ingestion overhead. Avoiding a data swamp is key to data lake architecture. Creating a comprehensive data catalog was the cornerstone for fast data discovery and traceability. We demonstrated how

License bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed to upon submission
Description: