SAP HANA python API-机器学习用例

2020-09-05 05:01发布

         点击此处--->   EasySAP.com群内免费提供SAP练习系统(在群公告中)

加入QQ群:457200227(SAP S4 HANA技术交流) 群内免费提供SAP练习系统(在群公告中)


嗨,

当我可以使用SAP HANA中的数据在Jupyter笔记本中开发模型时,典型的用例是什么?

我之所以问是因为我知道的大多数机器学习用例都具有wav,txt,csv等格式的数据或存储在数据湖中的数据,例如 Hadoop或来自IOT传感器的流数据。 HANA内存非常昂贵,因此将这些数据加载到HANA毫无意义。

您知道任何用例或类似情况吗? 有链接吗?

BR

罗伯特

         点击此处--->   EasySAP.com群内免费提供SAP练习系统(在群公告中)

加入QQ群:457200227(SAP S4 HANA技术交流) 群内免费提供SAP练习系统(在群公告中)


嗨,

当我可以使用SAP HANA中的数据在Jupyter笔记本中开发模型时,典型的用例是什么?

我之所以问是因为我知道的大多数机器学习用例都具有wav,txt,csv等格式的数据或存储在数据湖中的数据,例如 Hadoop或来自IOT传感器的流数据。 HANA内存非常昂贵,因此将这些数据加载到HANA毫无意义。

您知道任何用例或类似情况吗? 有链接吗?

BR

罗伯特

付费偷看设置
发送
4条回答
nice_wp
1楼 · 2020-09-05 05:26.采纳回答

Robert,

您是正确的,通常,如果您要处理大量数据,则不会将数据永久存储在HANA中。 我的意思是,从理论上讲,使用HANA NSE时,您甚至可以考虑这种可能性,因为使用NSE的数据现在位于磁盘而不是内存上(在这种情况下,HANA的行为类似于基于常规磁盘的,启用缓存的数据库),但是您的论点会 是因为您永远不会将大数据存储在专门用于ML的数据库中,并且最好与Data Lake一起使用,因为您可以使用Spark之类的东西来分发计算。

在内存数据库中,HANA是内存中的计算引擎(有趣的是,IMCE是HANA的许多早期内部名称之一)。 从本质上讲,这意味着您不必一定要将数据存储在HANA的内存中,但是您可以(并且应该在有效的情况下)利用HANA数据库内计算引擎来快速处理数据,即使数据是 没有存储在HANA中。 我正在写一个博客,我将很快发布有关NSE所做的一些测试以及带有hana_ml lib的虚拟表的信息

通常,HANA内存中计算的优势在于对来自SAP应用程序的实时数据进行评分。 这样,我们可以轻松地将模型投入实际的业务交易应用程序中。

Nan4612
2楼-- · 2020-09-05 05:25

Hello Robert,ML可以通过改善或自动化业务决策来提供价值。 通常,此类流程的数据保存在SAP HANA系统中,即BW-on-HANA或BW4下。 使用hana_ml包装器数据科学家可以轻松训练ML模型,而不必从系统中提取数据,从而避免了数据重复,改善了数据治理,保持了体系结构精简。 由于不移动数据,因此从数据科学家到IT部门进行部署的过程变得更加容易。 ML模型可以集成到更大的工作流中,例如,您可以在数据智能上将模型部署为REST-API进行推理,并为最终用户提供带有对话式AI的聊天机器人前端,以便即时获得预测。 全部无需提取数据。 实际用例可能会因行业或部门而有很大差异。 我从事过一些项目,例如,根据不同的原材料估算客户产品的质量,或者估算二手产品的公允价格,或者通常围绕客户分析。 我了解已计划通过ml_​​wrapper公开时间序列预测。 这将是另一个主要领域,即需求预测,财务预测等。也请随时直接与我联系。 问候,安德烈亚斯(Andreas)

SC_Yao
3楼-- · 2020-09-05 05:39

您好罗伯特·安格伯格

SAP HANA Python API包含两个主要组件,一个是SAP HANA DataFrame,另一个是对APL和PAL算法包装的访问。

SAP HANA DataFrame使您可以访问SAP HANA 数据并在数据库中而不是在本地运行转换,则可以在数据库级别而不是本地应用转换,聚合和其他功能。

您还可以通过首选的可视化或ML库,像使用任何Pandas数据框一样最终收集数据。

第二个,您可以访问SAP HANA库 用于机器学习。 SAP HANA可以访问90多种"行业"标准算法,例如线性回归,K均值,Apriori等,还可以访问KXEN(APL)的自动算法。 野心!

有关PAL可用的算法列表,请检查: https://help.sap.com/doc/0172e3957b5946da85d3fde85ee8f33d/2.0.03/zh-CN/html/hana_ml.algorithms.pal.html

有关PAL可用的算法列表,请检查: https://help.sap.com/doc/0172e3957b5946da85d3fde85ee8f33d/2.0.03/zh-CN/html/hana_ml.algorithms.apl.html

您还可以查看有关SAP HANA Python库的 Arun Godwin Patel 博客系列:

- https://blogs.sap.com/2018/12/17/diving-into-the-hana-dataframe-python-integration-part-1/

- https://blogs.sap.com/2019/01/28/diving-into-the-hana-dataframe-python-integration-part-2/

您还可以考虑使用SAP HANA速成版,该版本使用免费的开发人员许可证,最多可使用32 GB的RAM。 我亲自进行了一些加载csv文件的测试,结果发现我的4GB数据文件中的一些已加载到数百MB中。

据我所知,SAP HANA速成版允许您使用SAP HANA流功能(不过待确认)。

最后但并非最不重要的一点是,对于SAP HANA,快速版是您可以获取二进制文件并在所需的任何位置安装或下载预构建的VM(假设主机在两种情况下均满足最低系统要求)或旋转 AWS,Google Cloud或Microsoft Azure上的新实例(此处的顺序仅为字母顺序,此处未显示首选项;-))。

希望这可以帮助您更好地看到好处。

当然,这当然是值得讨论的

@bdel

SAP小黑
4楼-- · 2020-09-05 05:23

嗨,阿卜杜勒,

谢谢,但是我想我用错误的方式表达了我的问题,因为我已经使用带有PAL和HANA DataFrames的Python API实现了模型。 所以从技术上讲,一切对我来说都是清楚的。

我只想知道以这种方式实现和部署的典型用例。 什么是典型的现实世界业务示例?

Thx

Robert

一周热门 更多>