关闭广告×

三位专家讨论了Midjourney的前景和缺陷

梦想的世界

三位专家讨论了Midjourney的前景和缺陷

在中途创作的迷彩系列的草图。(代Bieg / Midjourney)

今年夏天,text-to-image人工智能年代激发了建筑师的想象力.的软件是一个强大的工具,但它应该被整合到正在进行的关于建筑图像制作的讨论中,技术,代表性,偏见,教育,还有劳动一个召集了科里·比格、谢尔比·道尔和安德鲁·库德利斯讨论这些问题。

架构师的报纸:首先,你能分享一下你是如何使用的吗Midjourney以及相关的AI平台?你做过什么样的探索?你一直在制作什么类型的图像?

安德鲁Kudless (AK):我主要使用中程。到目前为止,它一直在进行开放探索。我在试着理解如何与人工智能交流。一方面,你可以写一篇文章,并希望得到与文章相关的东西。但这不是人类能理解的。AI的行为有点不同;它几乎就像一种方言。所以我试着去理解:参数是什么?这对我这个讲师或设计师有什么帮助呢?

这对于探索早期的设计概念是很有用的,而不必在你的想法完全形成之前花时间建模和绘制所有的东西。在大多数情况下,我认为许多客户可能更喜欢看到这些探索性的AI草图,因为这很难理解一幅画。人工智能非常有用,因为你可以非常快速地传达项目的情绪和愿望。

代Bieg (KB):我一直在使用一种类似于Andrew的方法去处理一些AI引擎。我一直表现得有点像考古学家,在图像中寻找东西,然后试图弄清楚它们是如何形成的。在这个过程中,你最终会发现更多的东西。

我目前正在制作一个迷彩系列,它使用了一些基于模式的术语,来看看几何图形会发生什么。输出从你想象中的迷彩建筑开始——军队迷彩服的颜色,甚至建筑的某些部分像坦克。它显然是从其他不是建筑的物体中获取图像,尽管我要求的是一个由伪装制成的建筑。但当你进一步深入并通过迭代、变化和缩放进一步追求提示时,最初作为伪装的图像开始用形式取代模式。绿色和褐色变成了斑点状的物体,然后经过多次迭代,变成了自然材料,如植物和石头。

我早期的一个系列作品是用字母的形状来影响形式。信件有明确的正式特征,这给了它们定义。我做了一个完整的字母表,从a到Z,使用基本的文本,并试图用每个字母的不同形状特征生成建筑。最后,我把几个字母串在一起,寻找有角度和曲线的特征,结合成更复杂的组合。

一个由人工智能创造的拱形结构
金库系列的草图(科里·比格/中程)

谢尔比Doyle (SD):我对我的Instagram上出现的内容感到不满,而不是兴奋。我想看看使用Midjourney会发生什么,以及它是否能够证明我对这些工具的担忧。一开始,我提交了“想象/女权主义建筑”这样的提示,它给我的图片是粉色的、凸出的和弯曲的。或者我提示“想象/女权主义建筑室内夜间”,它给了我一张床的图像。我担心的是重复现有图像和建筑的偏见。如果我们正在建造新的建筑或仅从历史图像中勾画想法,那么我们需要什么新方法来避免这些偏见?如果被标记为“女权主义”的图像是粉色的,那么未来的女权主义AI建筑将如何摆脱难以驾驭的粉色陷阱?如果我们无法访问这些海量图像数据集中的标签和标签,我们又怎能对它们吹毛求疵呢?

我希望我们可以校准未来使用的数据集。这样,我就会对工作更有激情。你如何改变这些输入来想象一个积极的女权主义或反种族主义的建筑?需要什么样的图像来创建能够产生或想象一个更公平的未来的数据集?

为了实现更公平的未来,这项工作的开展空间需要改变。当我在medium journey Discord频道上时,我看到了一些过度性感的女性图片,这并不一定会打破“行为准则”,但如果那是我使用这些工具所需要的空间,那么我选择不这样做,作为一名教育工作者,我也不能真诚地要求我的学生进入这些空间。

由人工智能创造的混凝土结构
一个具体信件系列的草图(科里·比格/中程)

正义与发展党:我认为更大的问题是我们的数据被反馈到人工智能的训练模型中。此前,该模型是根据数百万张真实事物的图像进行训练的。但是现在有了Midjourney,内容是您的,但是他们可以无限制地使用内容(包括提示和图像)来进一步训练模型。因此,如果这个模型是在构成大量网络文化的视觉垃圾上训练的,那么这个模型就会非常擅长产生这些东西,但它仍然无法分辨透视图像和正字法图像之间的区别。它很可能擅长制作色情化、种族主义或暴力的图像。架构师很可能是训练模型的一小部分人,所以我们没有权力指导模型去我们想要它去的地方。

KB:当有更多的AI模型可以使用时,看看会发生什么将是很有趣的。现在只有少数几个,但在几个月内可能会有几十个,如果不是数百个。我希望其中一个将允许您使用自己的数据集和图像标记来训练模型。使用您自己的术语来标记图像将打开一个全新的方式来协作和控制输出。一群在某一特定领域有专长或有共同议程的人可以就不只是泛泛适用的术语达成一致。例如,对于窗口来说,窗口可能不是最好的分类—增加专一性的潜力将是非常高效的。

正义与发展党:有图像生成,但也有文本。Midjourney和DALL-E专注于文本到图像的生成,但它们依赖于底层的翻译模型,该模型也可以反向工作:图像到文本。你可以用一个文本生成一个图像或者用一个图像生成一个文本;这些模型在两种格式之间工作。最近,加州大学伯克利分校(UC Berkeley)的凯尔·斯坦菲尔德(Kyle Steinfeld)给人工智能输入了一张图像,以了解它在图像中看到了什么,这有助于你理解偏见。斯坦菲尔德上传了一张路易斯·康的索尔克研究所的图片,结果返回的是“混凝土长凳”!他还上传了赫尔佐格和德梅隆的作品在北京的鸟巢体育馆它的回答是:“扎哈·哈迪德(Zaha Hadid)。”这里有一些奇怪的关系;它看到了某种隐约有机的东西,立刻就把它和扎哈·哈迪德联系在了一起。你开始看到人工智能理解世界的极限。

用人工智能创造的未来草图
迷彩系列的草图(科里·比格/中游)

KB:我尽量避免使用名字或风格。我发现,如果你想要一座看起来像扎哈·哈迪德(Zaha Hadid)设计的建筑,你应该描述它的建筑,你会得到更多有趣的结果。

正义与发展党:另一方面,有时感觉有点像巫术。我想要一个更平坦,更有高度的视角,所以我想,“我怎么制作这个?”我该如何描述一幅像安德烈亚斯·古尔斯基(Andreas Gursky)的照片那样更像仰角而不是透视的照片呢?我输入了他的名字,突然间图像的质量直线上升,因为AI理解了我的意思。当与其他建筑师交谈时,这种情况经常发生:我们使用速记术语和引用其他建筑师或艺术家的作品来快速交流想法。这很神奇,也有点可怕,这也适用于扩散模型。

SD:其中一个挑战是,进入模型的图像似乎大多是从渲染图或照片中提取的,它们偏好透视视图。你不会得到很多窗台细节或计划——除了最著名的或记录良好的项目——所以很多日常建筑都被排除在模型之外。

我想知道这对我们理解是什么构成了建筑和建筑知识有什么影响?这在一定程度上是机器学习(ML)的问题:对于每一个建筑平面图,机器都没有一个标记良好的全局数据集来“学习”,这意味着整个空间制造实践都不适合被记录下来用于ML或AI。那些嵌入了物质提取、虐待劳工或供应链信息的图像呢?还是依赖口头传统或通过施工教学的建筑实践?建筑有很多种类的知识可以提供,但如果它没有以特定的格式编目,那么它就不会成为这些AI模型的一部分。

一个拱形空间的草图
拱顶研究的草图(Andrew Kudless/Midjourney)

正义与发展党:我认为我们可能过于关注这些文本转换图像AI应用的立即爆发,因为它将成为AI使用方式的一小部分。人工智能已经在建筑中得到应用,但我们不谈论它,因为它以前被认为是不重要的。例如,在渲染中,你可以多花10个小时让光线模拟变得完美,或者你可以在一个小时后停止它,让AI模糊事物。这是在架构过程的末尾,也是许多软件的默认设置。

还有另一个中间地带,它没有被文本到图像的人工智能捕捉到,但人们正在努力。就像testfit.io后者主要是对分区代码或办公室布局的开发探索。这并不华丽,但正如Shelby所提到的,他们正试图建立在该行业已经产生的知识财富的基础上。

SD:我刚刚花了两天的时间为一个3d打印房屋项目设计一个窗户细节,我在想是否有方法可以更有效地利用人工智能来制作技术图纸:调用所有曾经存在的防水细节的集体知识,并说,“这里有六种方法来解决这个问题,基于你之前的所有知识。”也许这就是计算设计的潜在潜力——在海量数据集中导航竞争结果的可能性:可负担性、可建造性、可持续性等。对人工智能来说,在设计中产生超越透视图像制作的表示是一种令人兴奋的可能性。

正义与发展党:教育方面的另一个方面是,作为学生很难培养设计敏感度,因为这需要很多失败。我很想找到我们可以利用人工智能帮助设计师更快地培养设计敏感度的方法。科里,你在你的之前的文章一个你用中程制作了超过11500张图片。我拍了差不多一样多的照片。我们的数据在训练人工智能模型的同时,也在训练我们的大脑,希望以一种积极的方式。你总是在问:“这好吗?”你会看到四张图片,你的大脑必须迅速做出决定,为什么其中一张比其他的好。有时这并不好,我需要回到之前的一个决定。这可能对学生看一些东西并做出决定是有帮助的。这没什么风险,对吧?当你被要求制作十个研究模型时,会有一定的风险。但如果你一直在看和判断,它可能会在你的大脑中发展出有趣的路径,来判断你在图像中美学上看重什么。 That might help you in the real world, where you can look at something and decide which is the best direction to go from here.

用人工智能制作的一个下垂的门面草图
凹陷立面的草图(Andrew Kudless/Midjourney)

SD:作为一名教师,鼓励学生把我们都看作是一个或几十个血统的一部分是很有用的。我们每个人如何在这些知识谱系中工作,或与之相反?我们如何才能更好地认识到建筑中大量的集体知识和劳动,以此来挑战个人创作的想法,并重新思考建筑和技术的制作、建造和思考方式?人工智能在某种程度上让“独自”工作的想法变得不可能,这是一个令人耳目一新的想法。

KB:如果能够与AI对话,那么你就能够在编辑信息的同时向它提供信息,这将是非常有用的。作为一名教育工作者,我遇到的一个问题是,我接受的是一种特定的训练方式,所以我的知识仅限于我所学到的东西。但如果我能开始将我所知道的与其他历史和参考资料的数据集联系起来,那么交叉授粉就会发生。此外,我可能会有学生被我所不了解的特定兴趣所吸引,所以引导他们以一种富有成效的方式获取其他信息和知识将是令人惊讶的,这些信息和知识可以通过与AI的对话方式开放而不是不透明的方式访问。

正义与发展党:《中游》所呈现的图像的模糊性是积极的。之前的一些担忧是关于深度造假和制作超级逼真的图像。但现在它让我想起了皮拉内西的监狱,那里有些事情说不通。这些是我觉得最有趣的图像,那些看起来有点真实,但实际上是模糊和模糊的。这对学生来说是一件积极的事情,尤其是在个人设计的早期或在一个人的职业生涯中,因为这留给你更多的思考。

门面草图
织物立面研究的草图(Andrew Kudless/Midjourney)

SD:也许这些人工智能图像的挑战之一是,图像的深度和复杂性似乎同时完成和幻想。也许在表征和被表征的“事物”之间需要有一定的距离——我认为这就是建筑。也许这些不是建筑效果图?

正义与发展党:很多人将这些人工智能生成的图像理解为渲染图。通常情况下,当事情解决到一定程度时,效果图会在过程的最后出现。我一直称它们为草图。

渲染引擎擅长的一切,AI都不擅长。效果图擅长于将模型的几何形状精确地渲染到2D空间中。他们也非常擅长精确的阴影。除非你是专家,否则很难捕捉到一个空间的情绪或氛围。根据Shelby关于摄影现实主义的观点,能够在项目早期看到捕捉空间情绪的图像是非常有价值的。你不必花20个小时来制作纹理、打光和处理模型,只是为了意识到,“哦,等等,我的设计中没有足够的光。”我一直抵制情绪板,因为它们感觉像是不同元素的拼贴,但通过这些AI图像,我们可以创造出更综合、更有凝聚力的图像,能够快速唤起环境或大气感。

SD:就像一个人工智能Pinterest!

正义与发展党:当你开始一个项目时,你可能有一个鼓舞人心的先例或一组材料。这是一个工具,允许您综合组合这些元素,而不必担心几何形状、大小或纹理。例如,要在渲染图中正确处理材料的风化是非常困难的,但AI虽然可能会弄错几何形状或阴影,但却可以唤起时间或天气。这在正常渲染中是很难做到的。

KB:我喜欢拼贴的想法,因为在基于扩散的AI中,你从一团像素聚集在一起形成一个三维物体的图像,但在现实中,它并不是那么清晰。作为练习,我从《中途之旅》中选取了我最喜欢的一张图像,并试图将其“量纲化”为3D模型——但这并不奏效。在3D中,事物并不能很好地结合在一起。缝隙开始形成,部分必须拉伸以与其他部分相连接,不可能找到与2D图像相匹配的3D模型视图。因此,最好将这些图像看作草图。你必须把这些图像拆开——就像拼贴画一样——然后以新的方式将它们组合起来。

有人的立面草图
有人的门面研究草图(Andrew Kudless/Midjourney)

SD:我认为拼贴是一个恰当的比喻。如果你不把它们想象成效果图,而把它们想象成图像、运动和时间的崩溃,那么它们就会变成另一种东西。避免试图从这些图像中切割一个平面是很有趣的,因为它不是一个真正的物体——它不代表一个静态的时刻或一个东西。

正义与发展党:就像很难给草图建模一样,对吧?草图是不精确的。这是一种姿态,试图捕捉一个时刻和一个项目的感觉,或得出一个想法质量。数值并不在精度中。

KB:随着这些人工智能的激增,每一种都有自己的优势。Midjourney可能用于草图绘制,而DALL-E用于创建已经设计好的项目的迭代。您可以使用稳定的扩散更改您的提示符。如果你觉得,“我走错路了;我想换一种方式,你可以改变文本和输出方向。

一个:我们应该克服这种图像生成的直接兴奋,并更深入地思考它如何成为进入图像制作工具包的另一种资源。你可能会在第一次批评时看到很多这样的问题,但可能在一个学期后就会消失。

一个ai-generated结构
“女权主义参数化建筑”草图的细节(谢尔比·道尔/中游)

正义与发展党:谢尔比提到了嵌入式劳动,指的是建造一栋建筑需要多少时间以及谁在做这项工作,但我也想谈谈这与我们自己学科的劳动之间的关系。当我刚开始做建筑的时候,我花了无数个小时在Photoshop中去掉一棵树的背景,然后缩放,粘贴,改变它的色调和饱和度来匹配背景。这是非常乏味和麻木的,而且我几乎没有得到任何报酬。仅仅是制作图像就需要很长时间。随着3D树和3D人的出现,它已经变得更好了,但总会有那么一刻,当你完成渲染时,有人过来问:“你能在里面放一个不同的人吗?”

Photoshop已经有了一些人工智能工具,它们的改进将减少建筑师的劳动。以我们所接受的训练,我们不应该把时间花在把一棵树ps成图像上。这是人工智能做得更好的事情。如果我们能摆脱对这些最终无关紧要,但我们却痴迷于此的事情做出决定的单调乏味,这将使许多建筑师的生活变得更好。我们不应该在设计上花那么多时间;我们应该更好地更快地做出决定,我们的工具应该帮助我们做出这些决定。

人工智能生成的室内空间
以“女权主义建筑室内空间夜间”为主题的草图(谢尔比·道尔/中程)

一个:考虑到更大的计算轨迹和技术在建筑中的应用,建筑师应该是什么技术的专家?如何将文本到图像的ai置于更大的建筑技术生态系统中?

正义与发展党:这些人工智能平台比我们使用的很多软件更容易访问。我认为这是一件好事。学生或设计师越早能创作出一幅能帮助他们创作下一幅作品的图像,效果就越好。通常情况下,学习Rhino或Revit需要数年时间,所以在架构方面会比较慢,而且学习这些工具也很困难,因为它们非常技术化。如果我们能降低行动的难度,那是积极的。

我还认为,从文本到图像的人工智能帮助我们思考语言的作用,比我们通常在建筑中做的更多。如果你让学生在工作室里写论文,那就像拔牙一样困难;他们不想写自己的工作。但现在,通过描述他们的作品,作为奖励,他们可以得到数百张作品的图片。所以清楚地思考你用来描述你的项目的作品是有好处的。这很有趣,但这与技术无关。

SD:我们刚刚为我正在做的这个项目做了一个软件工作流图,发现它将需要十几个不同的软件和文件转换。但在所有这些工作之后,我们在爱荷华州农村的承包商真的只需要一个有尺寸的PDF文件,当有手机服务时可以在手机上打开,以及一个他们可以打印的PDF文件。

在安德鲁看来,我们创造了这些极其复杂的计算系统,就像每周坐在椅子上盯着电脑80个小时一样,并不能创造健康的工作环境。建筑技术的生态系统需要投入大量的时间和专业知识;似乎软件产生更多的软件,更复杂产生更多的复杂性和更多的排斥,更多的排斥意味着更少的人参与设计论述。如果我是乐观的,也许人工智能图像可以打开更多的技术空间?也许这意味着回归到文字和图片的传统,这样我们就不会创建需要被切成pdf的巨大BIM模型了。

人工智能生成的玻璃空间
标题为“建筑女权主义玻璃室内日”的草图(谢尔比·道尔/中程)

KB:在过去的20年里,建筑师开始专攻某些设计领域。但在过去的几年里,我们开始看到对这一点的排斥。人们不想专业化;他们想要使用每一种工具,并期望这些工具更容易使用。效果图变得越来越普通,甚至在风格上也是如此。我认为这是因为人们想要回到学科的核心,不想进一步偏离。

正如Andrew所说,这些工具是可访问的。它们将变得更有价值,因为更多的人将能够使用它们,这将允许更多的合作。也许你不再需要向不同的人寻求不同的专业知识。相反,你们都将在同一个设计空间工作。这不仅仅关乎建筑师,也关乎我们设计的受众。这些工具可以让我们与邻近学科和其他社区的人进行更连贯的对话。对我来说,这很令人兴奋。

科里·比格(Kory Bieg)是德克萨斯大学奥斯汀分校(University of Texas at Austin)建筑专业的项目主任和OTA +

Shelby Doyle是一名注册建筑师,建筑学副教授,爱荷华州立大学设计学院的Stan G. Thurston设计-建造教授,她是该学院的联合主任ISU计算与建设实验室ISU建筑机器人实验室。

安德鲁·库德利斯是休斯顿的一名艺术家、设计师和教育家。他是校长Matsys休斯顿大学Gerald D. Hines建筑与设计学院的Kendall教授,他也是该学院的主任建筑机器人与制造技术(CRAFT)实验室

关闭广告×