Cientista de Dados

Dadoteca

Not Interested
Bookmark
Report This Job

profile Job Location:

Rio de Janeiro - Brazil

profile Monthly Salary: Not Disclosed
Posted on: 11 hours ago
Vacancies: 1 Vacancy

Job Summary

A Dadoteca é uma empresa inovadora no setor de tecnologia dedicada a fornecer soluções de alta qualidade para nossos clientes por meio de um ambiente de trabalho colaborativo que impulsiona o desenvolvimento profissional e a inovação.

Atividades:

  • Projetar e implementar modelos de OCR utilizando frameworks e bibliotecas avançadas para extração de dados de documentos estruturados e não estruturados.
  • Analisar preparar e pré-processar grandes volumes de dados textuais e numéricos para uso em modelos de aprendizado de máquina e deep learning.
  • Desenvolver pipelines de processamento de dados incluindo extração transformação e armazenamento dos resultados de OCR.
  • Integrar soluções de OCR com outras ferramentas e sistemas para automatizar fluxos de trabalho e processos de análise de dados.
  • Realizar treinamentos e ajustes finos em modelos de OCR para melhorar a acurácia em cenários específicos como diferentes idiomas fontes formatos e níveis de ruído.
  • Explorar e aplicar técnicas de PNL (Processamento de Linguagem Natural) para enriquecer a análise e categorização dos textos extraídos.
  • Aplicar técnicas de Quimiometria e análise multivariada (como PCA PLS regressão multivariada e métodos de classificação) para modelagem interpretação de dados complexos e apoio à tomada de decisão.
  • Desenvolver modelos preditivos combinando dados textuais numéricos e espectrais quando aplicável.
  • Colaborar com equipes multidisciplinares para garantir a integração das soluções de OCR e Quimiometria em projetos maiores de análise de dados.
  • Monitorar e melhorar o desempenho dos modelos em produção garantindo escalabilidade robustez e confiabilidade.
  • Pesquisar novas tecnologias relacionadas a OCR inteligência artificial e Quimiometria mantendo-se atualizado(a) com as tendências do setor.

Requisitos:

  • Formação superior em Ciência da Computação Engenharia Matemática Estatística Química Engenharia Química ou áreas correlatas. Pós-graduação ou especialização em Ciência de Dados IA ou Quimiometria é desejável.
  • Experiência consolidada em projetos de ciência de dados com foco em OCR processamento de imagens e/ou análise multivariada.
  • Conhecimento prático em Quimiometria incluindo técnicas como PCA PLS regressão multivariada métodos de classificação e validação de modelos.
  • Conhecimento avançado em frameworks de deep learning como TensorFlow PyTorch ou Keras.
  • Experiência com bibliotecas de OCR como Tesseract Google Vision AWS Textract ABBYY FineReader ou similares.
  • Habilidade com técnicas de pré-processamento de imagens (OpenCV ou PIL) para melhoria da qualidade dos documentos.
  • Conhecimento em linguagens de programação como Python ou R com foco em aplicações de ciência de dados e modelagem estatística.
  • Familiaridade com bancos de dados relacionais e não relacionais para armazenamento e consulta de dados.
  • Experiência com ferramentas de versionamento de código (Git) e práticas de MLOps.

Competências:

  • Capacidade de traduzir problemas de negócios complexos em soluções analíticas e técnicas eficientes.
  • Orientar equipes em projetos de alta complexidade e contribuir para o crescimento técnico de colegas.
  • Compromisso com a entrega de soluções de alta qualidade e impacto mensurável.
  • Habilidade de apresentar insights técnicos a públicos técnicos e não técnicos de forma clara e objetiva.
  • Proatividade para propor soluções inovadoras e superar desafios técnicos.

Diferenciais:

  • Experiência aplicada em Quimiometria para dados reais incluindo interpretação de modelos e comunicação de resultados para áreas de negócio.
  • Familiaridade com modelos pré-treinados como Google Vision AI AWS Textract ou Azure Cognitive Services.
  • Conhecimento em técnicas avançadas de PNL para análise e organização de textos extraídos.
  • Experiência com implantação de soluções de OCR e modelos quimiométricos em ambientes de produção e escaláveis incluindo nuvem (Azure AWS Google Cloud).
  • Certificações relevantes como Microsoft Certified: Azure AI Engineer Associate ou Google Cloud Professional Data Engineer.
A Dadoteca é uma empresa inovadora no setor de tecnologia dedicada a fornecer soluções de alta qualidade para nossos clientes por meio de um ambiente de trabalho colaborativo que impulsiona o desenvolvimento profissional e a inovação.Atividades:Projetar e implementar modelos de OCR utilizando framew...
View more view more

Key Skills

  • Internship
  • Accounts Receivable
  • Generator
  • Computer Operating
  • Corporate Risk Management